ConvertiloConvertilo

Распознать текст в PDF онлайн

Извлечение и OCR-распознавание текста из PDF прямо в браузере. Работает с обычными PDF и со сканами на 16 языках. Без отправки на сервер.

Перетащите изображение сюда или нажмите для выбора

PDF · Макс. размер: 30.0МБ

Файл не отправляется на сервер — всё работает локально в вашем браузере.

Что такое распознавание текста в PDF?

Распознать текст в PDF — значит превратить страницы документа в редактируемый текст, который можно копировать, искать и переводить. Загрузите PDF и нажмите кнопку — всё остальное случится само: язык определяется автоматически, обычные PDF извлекаются мгновенно, сканы прогоняются через OCR в браузере (Tesseract WASM, 16 языков). Файл не отправляется на сервер.

Частые вопросы о распознавании текста в PDF

Работает ли с отсканированными PDF?

Да. Если в PDF нет текстового слоя — мы автоматически запускаем OCR (распознавание) прямо в браузере. На 16 языках, включая русский, английский, украинский, немецкий и французский. Не нужен Adobe Acrobat или ABBYY FineReader.

Куда уходит мой PDF?

Никуда. Файл читается в вашем браузере, текст извлекается локально через PDF.js, OCR выполняется WebAssembly-движком Tesseract. Мы не видим ни PDF, ни распознанный текст — это критично для отсканированных паспортов, договоров, медицинских справок.

Нужно ли указывать язык документа?

Нет — определяется автоматически. По текстовому слою (если он есть) язык вычисляется через библиотеку franc, по сканам — через определение скрипта (кириллица, латиница, арабский) на первой странице. Поддерживаются русский, английский, украинский, немецкий, французский, испанский, итальянский, польский, чешский, португальский, голландский, болгарский, персидский, эстонский, исландский, норвежский. Модель распознавания нужного языка скачивается один раз (~10–15 МБ) и кэшируется браузером.

Сколько занимает распознавание?

PDF с текстовым слоем — 1–3 секунды на любой объём. Сканы — примерно 5–30 секунд на страницу, зависит от мощности устройства. Десктоп с современным процессором справится с 20-страничным сканом за 2–3 минуты, телефон — медленнее.

Насколько точное распознавание?

Tesseract — open-source движок, тот же что в FineReader Express в Linux. На чётких сканах с прямыми строками точность 95–99% по словам. На фотографиях страниц с искажениями, тенями, мелким шрифтом — может потребоваться вычитка. Рукописный текст не распознаётся.

Какой максимальный размер PDF?

30 МБ. Для больших документов разделите PDF на части в нашем «Разделить PDF» — все операции локальны, файл не уходит на сервер.