Распознать текст в PDF онлайн

Извлечение и OCR-распознавание текста из PDF прямо в браузере. Работает с обычными PDF и со сканами на 16 языках. Без отправки на сервер.

Перетащите файл сюда или нажмите для выбора

Файл не отправляется на сервер — всё работает локально в вашем браузере.

Что такое распознавание текста в PDF?

Распознать текст в PDF — значит превратить страницы документа в редактируемый текст, который можно копировать, искать и переводить. Загрузите PDF и нажмите кнопку — всё остальное случится само: язык определяется автоматически, обычные PDF извлекаются мгновенно, сканы прогоняются через OCR в браузере (Tesseract WASM, 16 языков). Файл не отправляется на сервер.

Частые вопросы о распознавании текста в PDF

Работает ли с отсканированными PDF?

Да. Если в PDF нет текстового слоя — мы автоматически запускаем OCR (распознавание) прямо в браузере. На 16 языках, включая русский, английский, украинский, немецкий и французский. Не нужен Adobe Acrobat или ABBYY FineReader.

Куда уходит мой PDF?

Никуда. Файл читается в вашем браузере, текст извлекается локально через PDF.js, OCR выполняется WebAssembly-движком Tesseract. Мы не видим ни PDF, ни распознанный текст — это критично для отсканированных паспортов, договоров, медицинских справок.

Нужно ли указывать язык документа?

Нет — определяется автоматически. По текстовому слою (если он есть) язык вычисляется через библиотеку franc, по сканам — через определение скрипта (кириллица, латиница, арабский) на первой странице. Поддерживаются русский, английский, украинский, немецкий, французский, испанский, итальянский, польский, чешский, португальский, голландский, болгарский, персидский, эстонский, исландский, норвежский. Модель распознавания нужного языка скачивается один раз (~10–15 МБ) и кэшируется браузером.

Сколько занимает распознавание?

PDF с текстовым слоем — 1–3 секунды на любой объём. Сканы — примерно 5–30 секунд на страницу, зависит от мощности устройства. Десктоп с современным процессором справится с 20-страничным сканом за 2–3 минуты, телефон — медленнее.

Насколько точное распознавание?

Tesseract — open-source движок, тот же что в FineReader Express в Linux. На чётких сканах с прямыми строками точность 95–99% по словам. На фотографиях страниц с искажениями, тенями, мелким шрифтом — может потребоваться вычитка. Рукописный текст не распознаётся.

Какой максимальный размер PDF?

30 МБ. Для больших документов разделите PDF на части в нашем «Разделить PDF» — все операции локальны, файл не уходит на сервер.

Другие инструменты для работы с PDF

Объединить PDF Разделить PDF Конвертировать PDF Сжать PDF PDF в изображения Подписать PDF Повернуть PDF Удалить страницы PDF PDF в JPG

Другие инструменты

Изображения

Сжатие, конвертация, обрезка и другие

Текст

Конвертация, форматирование, анализ

Переводчик

Текст и PDF на 16 языков локально

Инструменты

QR-коды, JSON, пароли, кодировщики

Калькуляторы

Проценты, кредиты, вклады