OCR — распознать текст

Распознайте текст в PDF или изображении прямо в браузере. Поддержка русского и английского языков. Без загрузки на сервер.

Всё в браузере Файлы не покидают устройство PDF · JPG · PNG · WebP
Перетащите файл сюда
PDF или изображение — или нажмите для выбора
PDF JPG PNG WebP
file.pdf 0 МБ
Инструкция

Как распознать текст в PDF

1

Загрузите файл

Перетащите PDF или изображение (JPG, PNG, WebP) в зону выше или нажмите для выбора с устройства.

2

Выберите язык

Укажите язык документа: Русский, Английский или оба. Для двуязычных документов выбирайте «Русский + Английский».

3

Нажмите «Распознать»

Инструмент обработает каждую страницу. Прогресс отображается в реальном времени. Первый запуск загружает языковые данные.

4

Скачайте результат

Скопируйте текст отдельных страниц или скачайте весь результат одним TXT файлом.

FAQ

Часто задаваемые вопросы

Какова точность распознавания? +
Точность OCR зависит от качества исходного файла. Для чётких отсканированных документов с разрешением 300 DPI точность достигает 95–99%. Низкое разрешение, рукописный текст, сложные шрифты или наклон страницы снижают точность.
Какие языки поддерживаются? +
Доступны русский и английский языки, а также их комбинация. Для двуязычных документов рекомендуем «Русский + Английский», но это немного замедляет распознавание.
Какие форматы файлов принимаются? +
Поддерживаются PDF документы (страницы рендерятся через PDF.js), а также изображения в форматах JPEG, PNG и WebP. Изображения передаются напрямую в движок Tesseract.js.
Загружаются ли файлы на сервер? +
Нет. Все операции выполняются прямо в вашем браузере с помощью PDF.js и Tesseract.js. Файлы не передаются ни на какие серверы и полностью остаются на вашем устройстве.
Почему первый запуск работает медленно? +
При первом запуске Tesseract.js загружает языковые данные из CDN (около 10 МБ для русского языка). После загрузки данные кэшируются браузером и последующие запуски работают быстрее.