OCR — распознавание
Извлеките текст из изображений и PDF
Частые вопросы
OCR-распознавание: ответы на популярные вопросы
Какие форматы поддерживаются для OCR?+
Изображения JPG, PNG, WEBP и PDF — до 9 МБ на файл. PDF обрабатывается постранично: каждая страница распознаётся отдельно, результаты склеиваются в один текст с разделителями.
Какая точность распознавания?+
На печатном тексте хорошего качества (300+ DPI) — 95–99 %. Фото с телефона при хорошем освещении — 90–97 %. Рукописный текст — 60–80 %, сильно зависит от почерка. Tesseract.js используется как движок.
Уходят ли файлы на сервер?+
Для изображений — нет, обработка идёт полностью в браузере через Tesseract.js (WebAssembly). Для PDF страницы рендерятся через pdf.js тоже в браузере. Ваши файлы не покидают компьютер. Это особенно важно для сканов паспортов и договоров.
Какие языки распознаются?+
Русский, английский и смешанный (rus+eng). Если документ на одном языке — выберите его явно, точность будет выше на 5–15 %. Tesseract поддерживает 100+ языков, но мы загружаем только нужные для скорости.
OCR не справился — что делать?+
Самые частые причины: низкое разрешение (увеличьте до 300 DPI), наклон страницы (выпрямите перед сканированием), плохой контраст (увеличьте контрастность или сделайте чёрно-белым), сложный фон (обрежьте только текстовую область).
Можно ли распознать многостраничный PDF?+
Да. Каждая страница распознаётся отдельно, прогресс показывает текущий номер страницы. В итоговом тексте страницы разделены маркерами «--- Страница X ---».
