OCR — распознать текст

Распознайте текст в PDF или изображении прямо в браузере. Поддержка русского и английского языков. Без загрузки на сервер.

Всё в браузере Файлы не покидают устройство PDF · JPG · PNG · WebP
Перетащите файл сюда
PDF или изображение — или нажмите для выбора
PDF JPG PNG WebP
file.pdf 0 МБ
Инструкция

Как распознать текст в PDF

1

Загрузите файл

Перетащите PDF или изображение (JPG, PNG, WebP) в зону выше или нажмите для выбора с устройства.

2

Выберите язык

Укажите язык документа: Русский, Английский или оба. Для двуязычных документов выбирайте «Русский + Английский».

3

Нажмите «Распознать»

Инструмент обработает каждую страницу. Прогресс отображается в реальном времени. Первый запуск загружает языковые данные.

4

Скачайте результат

Скопируйте текст отдельных страниц или скачайте весь результат одним TXT файлом.

FAQ

Часто задаваемые вопросы

Какова точность распознавания? +
Точность OCR зависит от качества исходного файла. Для чётких отсканированных документов с разрешением 300 DPI точность достигает 95–99%. Низкое разрешение, рукописный текст, сложные шрифты или наклон страницы снижают точность.
Какие языки поддерживаются? +
Доступны русский и английский языки, а также их комбинация. Для двуязычных документов рекомендуем «Русский + Английский», но это немного замедляет распознавание.
Какие форматы файлов принимаются? +
Поддерживаются PDF документы (страницы рендерятся через PDF.js), а также изображения в форматах JPEG, PNG и WebP. Изображения передаются напрямую в движок Tesseract.js.
Загружаются ли файлы на сервер? +
Нет. Все операции выполняются прямо в вашем браузере с помощью PDF.js и Tesseract.js. Файлы не передаются ни на какие серверы и полностью остаются на вашем устройстве.
Почему первый запуск работает медленно? +
При первом запуске Tesseract.js загружает языковые данные из CDN (около 10 МБ для русского языка). После загрузки данные кэшируются браузером и последующие запуски работают быстрее.
Как улучшить точность распознавания? +
Чтобы получить лучший результат: используйте сканы с разрешением 300 DPI и выше, убедитесь что страница не повёрнута и не имеет теней, выберите правильный язык (не нужно выбирать оба языка если документ одноязычный). Для PDF используйте масштаб 2x+ в инструменте «PDF → Картинки», если подаёте изображения напрямую.
Работает ли OCR с рукописным текстом? +
Точность распознавания рукописного текста Tesseract.js низкая — движок обучен на печатных шрифтах. Для чёткого печатного текста точность 95–99%, для нечётких рукописей может быть значительно ниже.
Можно ли распознать текст в многостраничном PDF? +
Да. Каждая страница PDF обрабатывается последовательно. Для каждой страницы отображается свой блок с распознанным текстом и прогресс обработки виден в реальном времени. Чем больше страниц — тем дольше обработка.
Применение

Кому нужен OCR: распознавание текста

Цифровизация архивов

Переведите отсцанированные документы, акты, приказы и договоры в редактируемый текст для поиска, копирования или обработки в других сервисах.

Учёба и наука

Распознайте текст из фотографий страниц учебников и конспектов для дальнейшей работы: поиска, перевода или редактирования.

Бизнес и юриспруденция

Извлекайте текст из отсканированных договоров, накладных, актов для поиска быстро нужных данных без ручной перепечатки.

Создание индекса

Преобразуйте большой архив PDF-документов в текстравый формат для индексации поисковиком или внутренней системы.

Технология

Tesseract.js и PDF.js: как работает OCR в браузере

OCR (Оптическое распознавание символов) — технология преобразования текста на изображениях в редактируемые символы. Инструмент использует Tesseract.js — порт знаменитого движка Tesseract 4 (разработан в Google) на JavaScript. Движок работает полностью в браузере через Web Workers: ни данных на сервер, ни подписок, ни облачного API.

Для PDF-файлов перед OCR каждая страница рендерится через PDF.js в canvas (1536× для достаточного разрешения). Для изображений (JPG, PNG, WebP) данные передаются напрямую в движок. Для лучшей точности перед распознаванием подайте изображение 300 DPI+ в прямо, не используйте PDF с масштабом 1x.

Результат выводится как постраничный текст. Каждый блок можно скопировать отдельно, или скачать весь распознанный текст единым TXT-файлом. OCR пока не сохраняет форматирование и не поддерживает таблицы — это ограничение языковой среды Tesseract.js.