OCR — распознать текст
Распознайте текст в PDF или изображении прямо в браузере. Поддержка русского и английского языков. Без загрузки на сервер.
Как распознать текст в PDF
Загрузите файл
Перетащите PDF или изображение (JPG, PNG, WebP) в зону выше или нажмите для выбора с устройства.
Выберите язык
Укажите язык документа: Русский, Английский или оба. Для двуязычных документов выбирайте «Русский + Английский».
Нажмите «Распознать»
Инструмент обработает каждую страницу. Прогресс отображается в реальном времени. Первый запуск загружает языковые данные.
Скачайте результат
Скопируйте текст отдельных страниц или скачайте весь результат одним TXT файлом.
Часто задаваемые вопросы
Кому нужен OCR: распознавание текста
Цифровизация архивов
Переведите отсцанированные документы, акты, приказы и договоры в редактируемый текст для поиска, копирования или обработки в других сервисах.
Учёба и наука
Распознайте текст из фотографий страниц учебников и конспектов для дальнейшей работы: поиска, перевода или редактирования.
Бизнес и юриспруденция
Извлекайте текст из отсканированных договоров, накладных, актов для поиска быстро нужных данных без ручной перепечатки.
Создание индекса
Преобразуйте большой архив PDF-документов в текстравый формат для индексации поисковиком или внутренней системы.
Tesseract.js и PDF.js: как работает OCR в браузере
OCR (Оптическое распознавание символов) — технология преобразования текста на изображениях в редактируемые символы. Инструмент использует Tesseract.js — порт знаменитого движка Tesseract 4 (разработан в Google) на JavaScript. Движок работает полностью в браузере через Web Workers: ни данных на сервер, ни подписок, ни облачного API.
Для PDF-файлов перед OCR каждая страница рендерится через PDF.js в canvas (1536× для достаточного разрешения). Для изображений (JPG, PNG, WebP) данные передаются напрямую в движок. Для лучшей точности перед распознаванием подайте изображение 300 DPI+ в прямо, не используйте PDF с масштабом 1x.
Результат выводится как постраничный текст. Каждый блок можно скопировать отдельно, или скачать весь распознанный текст единым TXT-файлом. OCR пока не сохраняет форматирование и не поддерживает таблицы — это ограничение языковой среды Tesseract.js.