Какие форматы файлов принимает инструмент?

Инструмент принимает PDF документы, а также изображения в форматах JPG, PNG и WebP.

Почему OCR работает медленно?

Tesseract.js при первом запуске загружает языковые данные (около 10 МБ для русского). Последующие страницы обрабатываются быстрее. Для ускорения используйте только один язык вместо двух.

OCR — распознать текст

Q: Какие языки поддерживаются?

Поддерживаются русский и английский языки, а также их комбинация. Для двуязычных документов рекомендуем выбрать «Русский + Английский».

Распознайте текст в PDF или изображении прямо в браузере. Поддержка русского и английского языков. Без загрузки на сервер.

Всё в браузере Файлы не покидают устройство PDF · JPG · PNG · WebP

Перетащите файл сюда

PDF или изображение — или нажмите для выбора

PDF JPG PNG WebP

file.pdf 0 МБ

Настройки

Язык распознавания

Русский Английский Русский + Английский

Диапазон страниц (PDF)

с по

Пусто — все страницы

PDF Инструменты

OCR — распознать текст

Инструкция

Как распознать текст в PDF

Загрузите файл

Перетащите PDF или изображение (JPG, PNG, WebP) в зону выше или нажмите для выбора с устройства.

Выберите язык

Укажите язык документа: Русский, Английский или оба. Для двуязычных документов выбирайте «Русский + Английский».

Нажмите «Распознать»

Инструмент обработает каждую страницу. Прогресс отображается в реальном времени. Первый запуск загружает языковые данные.

Скачайте результат

Скопируйте текст отдельных страниц или скачайте весь результат одним TXT файлом.

FAQ

Часто задаваемые вопросы

Какова точность распознавания? +

Точность OCR зависит от качества исходного файла. Для чётких отсканированных документов с разрешением 300 DPI точность достигает 95–99%. Низкое разрешение, рукописный текст, сложные шрифты или наклон страницы снижают точность.

Какие языки поддерживаются? +

Доступны русский и английский языки, а также их комбинация. Для двуязычных документов рекомендуем «Русский + Английский», но это немного замедляет распознавание.

Какие форматы файлов принимаются? +

Поддерживаются PDF документы (страницы рендерятся через PDF.js), а также изображения в форматах JPEG, PNG и WebP. Изображения передаются напрямую в движок Tesseract.js.

Загружаются ли файлы на сервер? +

Нет. Все операции выполняются прямо в вашем браузере с помощью PDF.js и Tesseract.js. Файлы не передаются ни на какие серверы и полностью остаются на вашем устройстве.

Почему первый запуск работает медленно? +

При первом запуске Tesseract.js загружает языковые данные из CDN (около 10 МБ для русского языка). После загрузки данные кэшируются браузером и последующие запуски работают быстрее.

Как улучшить точность распознавания? +

Чтобы получить лучший результат: используйте сканы с разрешением 300 DPI и выше, убедитесь что страница не повёрнута и не имеет теней, выберите правильный язык (не нужно выбирать оба языка если документ одноязычный). Для PDF используйте масштаб 2x+ в инструменте «PDF → Картинки», если подаёте изображения напрямую.

Работает ли OCR с рукописным текстом? +

Точность распознавания рукописного текста Tesseract.js низкая — движок обучен на печатных шрифтах. Для чёткого печатного текста точность 95–99%, для нечётких рукописей может быть значительно ниже.

Можно ли распознать текст в многостраничном PDF? +

Да. Каждая страница PDF обрабатывается последовательно. Для каждой страницы отображается свой блок с распознанным текстом и прогресс обработки виден в реальном времени. Чем больше страниц — тем дольше обработка.

Применение

Кому нужен OCR: распознавание текста

Цифровизация архивов

Переведите отсцанированные документы, акты, приказы и договоры в редактируемый текст для поиска, копирования или обработки в других сервисах.

Учёба и наука

Распознайте текст из фотографий страниц учебников и конспектов для дальнейшей работы: поиска, перевода или редактирования.

Бизнес и юриспруденция

Извлекайте текст из отсканированных договоров, накладных, актов для поиска быстро нужных данных без ручной перепечатки.

Создание индекса

Преобразуйте большой архив PDF-документов в текстравый формат для индексации поисковиком или внутренней системы.

Технология

Tesseract.js и PDF.js: как работает OCR в браузере

OCR (Оптическое распознавание символов) — технология преобразования текста на изображениях в редактируемые символы. Инструмент использует Tesseract.js — порт знаменитого движка Tesseract 4 (разработан в Google) на JavaScript. Движок работает полностью в браузере через Web Workers: ни данных на сервер, ни подписок, ни облачного API.

Для PDF-файлов перед OCR каждая страница рендерится через PDF.js в canvas (1536× для достаточного разрешения). Для изображений (JPG, PNG, WebP) данные передаются напрямую в движок. Для лучшей точности перед распознаванием подайте изображение 300 DPI+ в прямо, не используйте PDF с масштабом 1x.

Результат выводится как постраничный текст. Каждый блок можно скопировать отдельно, или скачать весь распознанный текст единым TXT-файлом. OCR пока не сохраняет форматирование и не поддерживает таблицы — это ограничение языковой среды Tesseract.js.