Перевести аудио в текст онлайн — транскрибация
Распознайте речь из MP3, WAV, M4A: русский, английский, 16+ языков. Бесплатно, локально через Whisper в браузере. Скачайте текст или сразу переведите.
О распознавании речи в браузере
Speech-to-Text — это автоматическая расшифровка аудио в текст. Загрузите MP3, WAV или M4A — модель Whisper (от OpenAI, открытая лицензия) разделит запись на 30-секундные окна, найдёт речь, расставит знаки препинания и выдаст текст. Дальше — копируйте, скачивайте .txt или сразу нажимайте «Перевести», чтобы открыть результат в нашем переводчике.
Под капотом — Whisper, конвертированный в формат ONNX и запущенный через transformers.js (Hugging Face) как WebAssembly прямо в вашем браузере. Поддерживает 99 языков, у нас на UI вынесены 16 самых востребованных — русский, английский, немецкий, французский, испанский, итальянский, украинский, польский, чешский, турецкий, нидерландский, китайский, японский, корейский, арабский, португальский. Режим «Авто» — Whisper сам определит язык по первым секундам записи.
Аудио не покидает ваше устройство — расшифровка идёт локально, в браузере. Модель скачивается один раз (~75 МБ для Tiny, ~145 МБ для Base) и кэшируется. Никакой регистрации, никаких лимитов, никакой передачи на сервер. На длинных файлах (>5 минут) распознавание идёт дольше — это нормальная цена за приватность.
Где это нужно
Расшифровать интервью или подкаст
Записали разговор с экспертом или собственный подкаст — загрузите файл и получите готовый текст для редактуры, цитат, статьи. Whisper хорошо ставит знаки препинания, отделяет реплики.
Сделать стенограмму встречи
Записали совещание на диктофон или Zoom — превратите запись в текст, чтобы быстро найти, кто что сказал, и разослать резюме. Точность лучше всего при чистой записи без сильного шума.
Поднять цитаты из голосовых сообщений
Telegram-войсы, WhatsApp-голосовые, Voice Memos с iPhone — выгрузите файл, расшифруйте текст. Удобно, когда нужно быстро найти, что сказал собеседник, или процитировать.
Перевести иностранную речь
Лекция на английском, видеоурок на немецком, песня на испанском — сначала распознайте речь, потом нажмите «→ Перевести», чтобы открыть текст в нашем переводчике (он тоже работает локально).
Частые вопросы
Какие языки поддерживаются?
В выпадающем меню — 16 самых востребованных: русский, английский, немецкий, французский, испанский, итальянский, португальский, украинский, польский, чешский, турецкий, нидерландский, китайский, японский, корейский, арабский. На самом деле модель Whisper умеет распознавать ~99 языков — режим «Авто» определит язык по первым секундам записи. Если ваш язык не виден в списке, ставьте «Авто».
Загружается ли аудио на сервер?
Нет. Распознавание полностью клиентское — модель Whisper в формате ONNX скачивается на ваше устройство один раз (с huggingface.co) и дальше работает локально через WebAssembly. Сам аудиофайл никуда не отправляется. Можно отключить интернет после загрузки модели — распознавание продолжит работать.
Какая точность распознавания?
Для чистой речи — обычно 90–96% (модель Tiny) или 94–98% (модель Base). Точность падает на: фоновом шуме, нескольких говорящих одновременно, акцентах, нечётком произношении, специальных терминах. Совет — записывайте максимально близко к микрофону, без музыки на фоне, и выбирайте модель Base, если важна точность.
Какие форматы поддерживаются?
Всё, что декодирует Web Audio API: MP3, WAV, M4A (AAC из iPhone), AAC, OGG Vorbis, FLAC, OPUS, WebM-аудио. Файлы от диктофона iPhone (.m4a), Telegram-голосовые (.ogg / .oga), записи с Zoom (.m4a), стандартные подкасты (.mp3) — всё подходит.
Сколько занимает распознавание?
Зависит от длительности и модели. Tiny на CPU обычно работает близко к реальному времени (1 минута аудио ≈ 1 минута распознавания), Base — в 1.5–2 раза медленнее, но точнее. Первый запуск дольше — нужно скачать модель (~75 МБ для Tiny, ~145 МБ для Base). Дальше модель кэшируется в браузере.
Можно ли скачать текст с timestamps?
В текущей версии — нет, только чистый текст. Whisper умеет выдавать тайм-коды на уровне фраз и слов, мы можем добавить эту функцию в будущем. Если нужны субтитры в формате .srt или .vtt — напишите нам, добавим.
Можно ли сразу перевести?
Да — после распознавания нажмите кнопку «→ Перевести». Откроется наш текстовый переводчик с уже вставленным текстом. Перевод тоже локальный (через Bergamot WASM от Mozilla), без отправки на сервер.