Редактор-Онлайн.РФРедактор-Онлайн.РФ
Назад к блогу
8 апреля 2024
·
10 мин чтения
·
Гайд

OCR — распознавание текста: полное руководство 2025

Как распознать текст из сканов, фотографий и PDF онлайн бесплатно. Tesseract.js работает прямо в браузере — файлы не уходят на сервер. Поддержка русского и английского.

OCR (Optical Character Recognition) превращает картинку с текстом в редактируемый текст. Это технология, которая позволяет «оцифровать» бумажный архив, скопировать цитату из скана учебника или сделать PDF поисковым. OCR работает в браузере через Tesseract.js — ваши изображения не покидают компьютер.

Как использовать OCR: 4 шага

1

Откройте инструмент

Перейдите на страницу OCR. Все вычисления — в вашем браузере, без отправки на сервер.

2

Загрузите изображение

JPG, PNG, WEBP или PDF (постранично). Лучшее качество — на сканах 300 DPI.

3

Выберите язык

Русский, английский или смешанный (rus+eng). Правильный язык повышает точность на 5–15 %.

4

Скопируйте результат

Распознанный текст появится в окне. Используйте кнопку «Скопировать» или Ctrl+C.

Когда нужен OCR

Сканы учебников и книг

Превратите бумажный конспект в редактируемый текст, который можно вставить в Word.

Фотографии договоров

Скопируйте конкретный пункт договора, не перепечатывая его вручную.

Архив бумажных документов

Сделайте поиск по содержимому через Ctrl+F — оцифруйте архив за вечер.

Чеки и квитанции

Быстрое извлечение цифр для бухгалтерии и отчётов о расходах.

Скан-PDF без текстового слоя

Подготовка к конвертации в Word — сначала OCR, потом PDF → DOCX.

Старые рукописи

Сохранение каллиграфического почерка в цифровом виде (с поправкой на точность).

Как добиться высокой точности

Разрешение 300 DPI и выше — меньше, буквы становятся кашей пикселей
Прямой угол съёмки — снимайте сверху, перпендикулярно странице
Хорошее освещение — дневной свет лучше лампы, избегайте бликов и теней
Высокий контраст — чёрный текст на белом — идеал
Без шума — помятая бумага, кофейные пятна снижают точность
Один язык за раз — если смешанный, берите rus+eng явно

Ограничения OCR

  • ·Сложные шрифты: декоративные, готические — точность падает до 70–80 %
  • ·Математические формулы: нужна спец-OCR (например, Mathpix)
  • ·Нестандартные таблицы: строки/колонки распознаются как линейный текст
  • ·Печати и штампы: часто принимаются за «шум» и игнорируются
  • ·Многоязычные надписи в один проход распознаются хуже моноязычных

Что делать с результатом

Отредактировать в Word

Откройте Умный редактор и попросите ИИ форматировать текст или составить документ на его основе.

Сделать PDF поисковым

Сохраните распознанный текст и присоедините его как невидимый слой к исходному PDF.

Конвертировать в DOCX

Через «PDF в Word» после OCR — для редактирования в офлайн-приложении.

Перевести через Google

Когда текст извлечён — это занимает секунды. Просто скопируйте и вставьте.

Безопасность

Tesseract.js работает в браузере через WebAssembly. Это значит, ваши изображения никуда не загружаются — всё вычисление происходит на вашем устройстве. Особенно важно для сканов паспортов, договоров и медицинских документов.

Часто задаваемые вопросы

Какая точность распознавания у современного OCR?+

На печатном тексте хорошего качества (300+ DPI, ровно сфотографирован, без наклона) — 95–99 %. На фотографиях с телефона при хорошем освещении — 90–97 %. На рукописном тексте — 60–80 %, и сильно зависит от почерка.

Распознаёт ли OCR рукописный текст?+

Tesseract распознаёт каллиграфический рукописный текст с переменным успехом, обычный «беглый» почерк — плохо. Для серьёзной работы с рукописями лучше использовать специализированные платные сервисы.

Уходят ли мои сканы на сервер при использовании OCR?+

Нет. Tesseract.js работает в WebAssembly прямо в браузере, изображение остаётся на вашем устройстве. Это особенно важно для сканов паспортов, договоров и медицинских документов.

Какие языки поддерживаются?+

На нашем сервисе — русский, английский и смешанный режим (rus+eng). Tesseract поддерживает 100+ языков, но мы загружаем только нужные модели для скорости.

OCR не справился — что делать?+

Самые частые причины: низкое разрешение (увеличьте до 300 DPI), наклон страницы (выпрямите в любом редакторе), плохой контраст (увеличьте контрастность), сложный фон (обрежьте только текстовую область).

Связанные инструменты

Распознать текст из вашего скана

Бесплатно, в браузере, без отправки на сервер. Русский, английский и смешанный.

Открыть OCR