Question 1

Какие форматы поддерживаются для OCR?

Accepted Answer

Изображения JPG, PNG, WEBP и PDF — до 9 МБ на файл. PDF обрабатывается постранично: каждая страница распознаётся отдельно, результаты склеиваются в один текст с разделителями.

Question 2

Какая точность распознавания?

Accepted Answer

На печатном тексте хорошего качества (300+ DPI) — 95–99 %. Фото с телефона при хорошем освещении — 90–97 %. Рукописный текст — 60–80 %, сильно зависит от почерка. Tesseract.js используется как движок.

Question 3

Уходят ли файлы на сервер?

Accepted Answer

Для изображений — нет, обработка идёт полностью в браузере через Tesseract.js (WebAssembly). Для PDF страницы рендерятся через pdf.js тоже в браузере. Ваши файлы не покидают компьютер. Это особенно важно для сканов паспортов и договоров.

Question 4

Какие языки распознаются?

Accepted Answer

Русский, английский и смешанный (rus+eng). Если документ на одном языке — выберите его явно, точность будет выше на 5–15 %. Tesseract поддерживает 100+ языков, но мы загружаем только нужные для скорости.

Question 5

OCR не справился — что делать?

Accepted Answer

Самые частые причины: низкое разрешение (увеличьте до 300 DPI), наклон страницы (выпрямите перед сканированием), плохой контраст (увеличьте контрастность или сделайте чёрно-белым), сложный фон (обрежьте только текстовую область).

Question 6

Можно ли распознать многостраничный PDF?

Accepted Answer

Да. Каждая страница распознаётся отдельно, прогресс показывает текущий номер страницы. В итоговом тексте страницы разделены маркерами «--- Страница X ---».

OCR — распознавание

Частые вопросы