Whisper для транскрипции голосовых на русском: что работает, что нет
Реальный опыт работы с Whisper на русскоязычных голосовых. Какие модели брать, где Whisper ошибается, как обходить эти ошибки.
Whisper от OpenAI — сейчас де-факто стандарт для распознавания речи. Бесплатный, открытый, работает на десятках языков. Но между «работает» и «работает хорошо на русском в продакшне» — большая разница.
В этой статье — без маркетинга, что мы поняли за полгода продакшен-использования Whisper в Центоне на русскоязычных голосовых.
Какая модель Whisper нужна для русского
OpenAI выпустила пять размеров: tiny, base, small, medium, large. Плюс несколько ревизий large (v1, v2, v3).
Короткий ответ: только large-v3. Всё что меньше — на русском сильно режет точность.
Tiny / Base
Удобны на CPU, работают быстро, но русский для них почти неродной. Регулярно теряют падежи, путают похожие слова («стол» / «слон»), пропускают концы фраз. На голосовых с фоновым шумом — катастрофа.
Применимость: разве что для извлечения общего смысла «о чём вообще речь», без претензий на текст для публикации.
Small / Medium
Уже разговор. На чистой студийной речи — 90%+ точность. Но как только появляется неидеальный микрофон смартфона, фоновый звук (метро, кафе, дорога) — сваливается.
Large-v3
Текущая флагманская модель. Обучена на огромном корпусе включая много русского. На голосовых из мессенджеров (типичный сценарий — Telegram-голосовое 1-3 минуты) даёт 92–96% корректных слов на чистой записи.
В Центоне используется именно она.
Где Whisper ошибается
После сотен голосовых разной природы заметили устойчивые паттерны.
1. Имена собственные и термины
Whisper не знает ваше имя, имена коллег, названия проектов. Если в голосовом «давай созвонимся с Аней по Курсору» — может выдать «давай созвонимся с Анной по курсору» или «по корсуру».
Обход: добавить prompt seed (initial_prompt в API). Один раз скармливаем модели глоссарий: «Аня, Курсор, Reframe, Notion» — и точность по этим словам вырастает.
2. Цифры и даты
«Двадцать пятого июля» Whisper охотно превратит в «25 июля» или наоборот. Часто путает «один» / «1». Для бизнес-задач это критично.
Обход: после транскрипции прогнать через GPT-4 с инструкцией «нормализуй цифры».
3. Фоновая музыка
Reels с музыкой, голосовое из машины с радио — тут Whisper иногда «галлюцинирует»: вставляет фразы, которых не было. Особенно в начале и конце записи, когда речь стихает.
Обход: убрать первые/последние 1–2 секунды. Или использовать VAD (Voice Activity Detection) — отсекать фрагменты без речи до подачи в Whisper.
4. Перебивания и параллельная речь
Двое говорят одновременно — Whisper выберет одного, второго потеряет.
Обход: для созвонов берите Whisper-based сервисы с диаризацией (разделением спикеров) — например, AssemblyAI, Replicate.
5. Длинные паузы
Whisper делит входной аудио на чанки по 30 секунд. Если в чанке мало речи — модель может «дорисовать» содержимое. Появляются phantom-предложения.
Обход: тот же VAD + post-processing с проверкой на повторы.
Сценарии где Whisper работает прекрасно
Чтобы не казаться предвзятым — где модель в топе:
- Стандартное Telegram-голосовое 30 сек – 3 мин на чистом голосе. 95%+ слов, пунктуация расставлена адекватно.
- Лекция / подкаст с одним спикером и хорошим микрофоном. Здесь Whisper-large делает то, чего другие модели не могут — улавливает интонационную пунктуацию, не теряет термины.
- Видео из соцсетей с озвучкой. Reels, TikTok, Shorts — обычно один спикер, чистая речь, поставленный голос. Идеальный сценарий для Whisper.
Whisper API vs локально
Если делаете внутренний инструмент:
OpenAI Whisper API ($0.006 за минуту):
- Не надо держать GPU.
- Скорость стабильная.
- Лимит файла: 25 МБ (≈25 минут аудио).
- Нет initial_prompt в новых версиях — приходится резать на куски.
Whisper локально (на сервере с GPU):
- Любая длина файла.
- initial_prompt доступен.
- Полный контроль над выводом.
- $50–200/мес на GPU-сервер.
В Центоне используется гибрид: для голосовых до 5 минут — API OpenAI; для длинных видео — Whisper на собственных GPU.
Whisper-альтернативы для русского
Yandex SpeechKit
Лучше Whisper на технических диалогах с русскими терминами и именами (он на это специально натаскан). Хуже на разговорной речи. Цена ~$0.003 за минуту.
Google Cloud Speech-to-Text
Сильно хуже Whisper-large на русском. Не рекомендую.
AssemblyAI
Топ среди коммерческих API: диаризация, sentiment-анализ, чанкинг. Цена $0.012/мин — вдвое дороже Whisper API.
Local Whisper.cpp
Whisper, перекомпилированный под CPU. На M1/M2 Mac работает без GPU за приемлемое время. Хороший вариант если важна приватность.
Что использовать в Центоне
В боте мы:
- Принимаем голосовое от пользователя → Whisper-large-v3 через API OpenAI или локально (зависит от длины).
- VAD-предобработка на длинных файлах — отсекает паузы.
- Initial prompt с типовыми терминами (для бизнес-кейсов это часто названия инструментов: Notion, Figma, GitHub, и т.д.).
- Post-processing через GPT-4 / Claude — нормализуем цифры, убираем повторы, добавляем абзацы по смыслу.
- Опционально — пост-генерация в выбранный формат (пост в Telegram, X, Threads, сценарий).
Для пользователя это выглядит как «отправил голосовое — получил готовый текст и сразу же кнопки на пост». Под капотом — конвейер из 5 шагов.
Итого
- Берите Whisper Large-v3, не меньше.
- Знайте про слабые места: имена, цифры, музыка, перебивания.
- Для критичных задач делайте post-processing.
- Если не хочется сами разворачивать — попробуйте Центон, там это уже сделано.
Первые 3 транскрипции — бесплатно.
Часто задаваемые вопросы
Какая версия Whisper лучше для русского языка? Для большинства задач — Whisper Large v3, она работает в 1.5 раза точнее Medium на чисто русском контенте и в 2 раза лучше на смешанной русско-английской речи. Если у тебя слабое железо (меньше 8 ГБ RAM или интегрированная видеокарта) — бери Medium, она даёт 90-92% точности и в 3 раза быстрее. Tiny и Base для русского брать не стоит — на акцентах и шуме они «придумывают» слова.
Как запустить Whisper бесплатно на своём компьютере?
Нужны Python 3.9+ и команда pip install openai-whisper. Минимальная конфигурация: 8 ГБ RAM, любой современный CPU. С GPU NVIDIA — в 5-10 раз быстрее. Команда whisper audio.mp3 --model large-v3 --language ru запустит расшифровку. Никаких подписок, файл не покидает компьютер.
Whisper или Yandex SpeechKit — что точнее на русском? По нашим тестам на разговорной речи с акцентом и шумом Whisper Large v3 даёт 93-95% точности, Yandex SpeechKit — 91-94%. На чистой студийной речи разница в пределах погрешности. Главное преимущество Whisper — бесплатность и отсутствие лимитов. Главное преимущество SpeechKit — российская юрисдикция, важно для корпоративных клиентов с требованиями ФЗ-152.
Можно ли использовать Whisper API от OpenAI из России? Прямого доступа к OpenAI API из РФ нет с 2024 года. Варианты: 1) запустить локально на своём железе (бесплатно, без VPN), 2) использовать прокси-сервисы вроде Telegram-ботов, которые ставят Whisper у себя на сервере и предоставляют доступ через интерфейс бота, 3) арендовать GPU в зарубежном облаке через VPN. Для большинства задач первый и второй варианты покрывают всё.
Какие форматы файлов принимает Whisper? Все распространённые: MP3, WAV, M4A, OGG, FLAC, MP4, MOV, AVI. Видеофайлы Whisper сначала конвертирует в аудио (через ffmpeg), потом распознаёт. Размер файла — без ограничений в локальной версии, до 25 МБ через OpenAI API. Telegram-боты обычно поднимают лимит до 2 ГБ за счёт собственной обвязки вокруг Whisper.
Связанные материалы
- Как транскрибировать Instagram Reels в текст — самый частый практический сценарий применения Whisper для блогеров и SMM.
- Как делать посты из транскрипций видео: GPT-4 vs Claude — что делать с расшифровкой Whisper после получения текста.
- Как перевести аудио и видео в текст онлайн: обзор сервисов 2026 — где Whisper встроен «из коробки» и не нужно ничего ставить.