Перевести аудио в текст онлайн — транскрибация

Распознайте речь из MP3, WAV, M4A: русский, английский, 16+ языков. Бесплатно, локально через Whisper в браузере. Скачайте текст или сразу переведите.

Перетащите файл сюда или нажмите для выбора

Язык речи

Модель

О распознавании речи в браузере

Speech-to-Text — это автоматическая расшифровка аудио в текст. Загрузите MP3, WAV или M4A — модель Whisper (от OpenAI, открытая лицензия) разделит запись на 30-секундные окна, найдёт речь, расставит знаки препинания и выдаст текст. Дальше — копируйте, скачивайте .txt или сразу нажимайте «Перевести», чтобы открыть результат в нашем переводчике.

Под капотом — Whisper, конвертированный в формат ONNX и запущенный через transformers.js (Hugging Face) как WebAssembly прямо в вашем браузере. Поддерживает 99 языков, у нас на UI вынесены 16 самых востребованных — русский, английский, немецкий, французский, испанский, итальянский, украинский, польский, чешский, турецкий, нидерландский, китайский, японский, корейский, арабский, португальский. Режим «Авто» — Whisper сам определит язык по первым секундам записи.

Аудио не покидает ваше устройство — расшифровка идёт локально, в браузере. Модель скачивается один раз (~75 МБ для Tiny, ~145 МБ для Base) и кэшируется. Никакой регистрации, никаких лимитов, никакой передачи на сервер. На длинных файлах (>5 минут) распознавание идёт дольше — это нормальная цена за приватность.

Где это нужно

Расшифровать интервью или подкаст

Записали разговор с экспертом или собственный подкаст — загрузите файл и получите готовый текст для редактуры, цитат, статьи. Whisper хорошо ставит знаки препинания, отделяет реплики.

Сделать стенограмму встречи

Записали совещание на диктофон или Zoom — превратите запись в текст, чтобы быстро найти, кто что сказал, и разослать резюме. Точность лучше всего при чистой записи без сильного шума.

Поднять цитаты из голосовых сообщений

Telegram-войсы, WhatsApp-голосовые, Voice Memos с iPhone — выгрузите файл, расшифруйте текст. Удобно, когда нужно быстро найти, что сказал собеседник, или процитировать.

Перевести иностранную речь

Лекция на английском, видеоурок на немецком, песня на испанском — сначала распознайте речь, потом нажмите «→ Перевести», чтобы открыть текст в нашем переводчике (он тоже работает локально).

Частые вопросы

Какие языки поддерживаются?

В выпадающем меню — 16 самых востребованных: русский, английский, немецкий, французский, испанский, итальянский, португальский, украинский, польский, чешский, турецкий, нидерландский, китайский, японский, корейский, арабский. На самом деле модель Whisper умеет распознавать ~99 языков — режим «Авто» определит язык по первым секундам записи. Если ваш язык не виден в списке, ставьте «Авто».

Загружается ли аудио на сервер?

Нет. Распознавание полностью клиентское — модель Whisper в формате ONNX скачивается на ваше устройство один раз (с huggingface.co) и дальше работает локально через WebAssembly. Сам аудиофайл никуда не отправляется. Можно отключить интернет после загрузки модели — распознавание продолжит работать.

Какая точность распознавания?

Для чистой речи — обычно 90–96% (модель Tiny) или 94–98% (модель Base). Точность падает на: фоновом шуме, нескольких говорящих одновременно, акцентах, нечётком произношении, специальных терминах. Совет — записывайте максимально близко к микрофону, без музыки на фоне, и выбирайте модель Base, если важна точность.

Какие форматы поддерживаются?

Всё, что декодирует Web Audio API: MP3, WAV, M4A (AAC из iPhone), AAC, OGG Vorbis, FLAC, OPUS, WebM-аудио. Файлы от диктофона iPhone (.m4a), Telegram-голосовые (.ogg / .oga), записи с Zoom (.m4a), стандартные подкасты (.mp3) — всё подходит.

Сколько занимает распознавание?

Зависит от длительности и модели. Tiny на CPU обычно работает близко к реальному времени (1 минута аудио ≈ 1 минута распознавания), Base — в 1.5–2 раза медленнее, но точнее. Первый запуск дольше — нужно скачать модель (~75 МБ для Tiny, ~145 МБ для Base). Дальше модель кэшируется в браузере.

Можно ли скачать текст с timestamps?

В текущей версии — нет, только чистый текст. Whisper умеет выдавать тайм-коды на уровне фраз и слов, мы можем добавить эту функцию в будущем. Если нужны субтитры в формате .srt или .vtt — напишите нам, добавим.

Можно ли сразу перевести?

Да — после распознавания нажмите кнопку «→ Перевести». Откроется наш текстовый переводчик с уже вставленным текстом. Перевод тоже локальный (через Bergamot WASM от Mozilla), без отправки на сервер.

Попробуйте также

Изображения

Сжатие, конвертация, обрезка

PDF

Объединение, разделение, конвертация

Текст

Регистры, транслитерация, Markdown

Инструменты

QR, пароли, JSON, Base64

Калькуляторы

Проценты, скидки, кредиты