Whisper для транскрипции голосовых на русском: что работает, что нет

Реальный опыт работы с Whisper на русскоязычных голосовых. Какие модели брать, где Whisper ошибается, как обходить эти ошибки.

·7 мин чтения
Whisper для транскрипции голосовых на русском: что работает, что нет

Whisper от OpenAI — сейчас де-факто стандарт для распознавания речи. Бесплатный, открытый, работает на десятках языков. Но между «работает» и «работает хорошо на русском в продакшне» — большая разница.

В этой статье — без маркетинга, что мы поняли за полгода продакшен-использования Whisper в Центоне на русскоязычных голосовых.

Какая модель Whisper нужна для русского

OpenAI выпустила пять размеров: tiny, base, small, medium, large. Плюс несколько ревизий large (v1, v2, v3).

Короткий ответ: только large-v3. Всё что меньше — на русском сильно режет точность.

Tiny / Base

Удобны на CPU, работают быстро, но русский для них почти неродной. Регулярно теряют падежи, путают похожие слова («стол» / «слон»), пропускают концы фраз. На голосовых с фоновым шумом — катастрофа.

Применимость: разве что для извлечения общего смысла «о чём вообще речь», без претензий на текст для публикации.

Small / Medium

Уже разговор. На чистой студийной речи — 90%+ точность. Но как только появляется неидеальный микрофон смартфона, фоновый звук (метро, кафе, дорога) — сваливается.

Large-v3

Текущая флагманская модель. Обучена на огромном корпусе включая много русского. На голосовых из мессенджеров (типичный сценарий — Telegram-голосовое 1-3 минуты) даёт 92–96% корректных слов на чистой записи.

В Центоне используется именно она.

Где Whisper ошибается

После сотен голосовых разной природы заметили устойчивые паттерны.

1. Имена собственные и термины

Whisper не знает ваше имя, имена коллег, названия проектов. Если в голосовом «давай созвонимся с Аней по Курсору» — может выдать «давай созвонимся с Анной по курсору» или «по корсуру».

Обход: добавить prompt seed (initial_prompt в API). Один раз скармливаем модели глоссарий: «Аня, Курсор, Reframe, Notion» — и точность по этим словам вырастает.

2. Цифры и даты

«Двадцать пятого июля» Whisper охотно превратит в «25 июля» или наоборот. Часто путает «один» / «1». Для бизнес-задач это критично.

Обход: после транскрипции прогнать через GPT-4 с инструкцией «нормализуй цифры».

3. Фоновая музыка

Reels с музыкой, голосовое из машины с радио — тут Whisper иногда «галлюцинирует»: вставляет фразы, которых не было. Особенно в начале и конце записи, когда речь стихает.

Обход: убрать первые/последние 1–2 секунды. Или использовать VAD (Voice Activity Detection) — отсекать фрагменты без речи до подачи в Whisper.

4. Перебивания и параллельная речь

Двое говорят одновременно — Whisper выберет одного, второго потеряет.

Обход: для созвонов берите Whisper-based сервисы с диаризацией (разделением спикеров) — например, AssemblyAI, Replicate.

5. Длинные паузы

Whisper делит входной аудио на чанки по 30 секунд. Если в чанке мало речи — модель может «дорисовать» содержимое. Появляются phantom-предложения.

Обход: тот же VAD + post-processing с проверкой на повторы.

Сценарии где Whisper работает прекрасно

Чтобы не казаться предвзятым — где модель в топе:

  • Стандартное Telegram-голосовое 30 сек – 3 мин на чистом голосе. 95%+ слов, пунктуация расставлена адекватно.
  • Лекция / подкаст с одним спикером и хорошим микрофоном. Здесь Whisper-large делает то, чего другие модели не могут — улавливает интонационную пунктуацию, не теряет термины.
  • Видео из соцсетей с озвучкой. Reels, TikTok, Shorts — обычно один спикер, чистая речь, поставленный голос. Идеальный сценарий для Whisper.

Whisper API vs локально

Если делаете внутренний инструмент:

OpenAI Whisper API ($0.006 за минуту):

  • Не надо держать GPU.
  • Скорость стабильная.
  • Лимит файла: 25 МБ (≈25 минут аудио).
  • Нет initial_prompt в новых версиях — приходится резать на куски.

Whisper локально (на сервере с GPU):

  • Любая длина файла.
  • initial_prompt доступен.
  • Полный контроль над выводом.
  • $50–200/мес на GPU-сервер.

В Центоне используется гибрид: для голосовых до 5 минут — API OpenAI; для длинных видео — Whisper на собственных GPU.

Whisper-альтернативы для русского

Yandex SpeechKit

Лучше Whisper на технических диалогах с русскими терминами и именами (он на это специально натаскан). Хуже на разговорной речи. Цена ~$0.003 за минуту.

Google Cloud Speech-to-Text

Сильно хуже Whisper-large на русском. Не рекомендую.

AssemblyAI

Топ среди коммерческих API: диаризация, sentiment-анализ, чанкинг. Цена $0.012/мин — вдвое дороже Whisper API.

Local Whisper.cpp

Whisper, перекомпилированный под CPU. На M1/M2 Mac работает без GPU за приемлемое время. Хороший вариант если важна приватность.

Что использовать в Центоне

В боте мы:

  1. Принимаем голосовое от пользователя → Whisper-large-v3 через API OpenAI или локально (зависит от длины).
  2. VAD-предобработка на длинных файлах — отсекает паузы.
  3. Initial prompt с типовыми терминами (для бизнес-кейсов это часто названия инструментов: Notion, Figma, GitHub, и т.д.).
  4. Post-processing через GPT-4 / Claude — нормализуем цифры, убираем повторы, добавляем абзацы по смыслу.
  5. Опционально — пост-генерация в выбранный формат (пост в Telegram, X, Threads, сценарий).

Для пользователя это выглядит как «отправил голосовое — получил готовый текст и сразу же кнопки на пост». Под капотом — конвейер из 5 шагов.

Итого

  • Берите Whisper Large-v3, не меньше.
  • Знайте про слабые места: имена, цифры, музыка, перебивания.
  • Для критичных задач делайте post-processing.
  • Если не хочется сами разворачивать — попробуйте Центон, там это уже сделано.

Первые 3 транскрипции — бесплатно.

Часто задаваемые вопросы

Какая версия Whisper лучше для русского языка? Для большинства задач — Whisper Large v3, она работает в 1.5 раза точнее Medium на чисто русском контенте и в 2 раза лучше на смешанной русско-английской речи. Если у тебя слабое железо (меньше 8 ГБ RAM или интегрированная видеокарта) — бери Medium, она даёт 90-92% точности и в 3 раза быстрее. Tiny и Base для русского брать не стоит — на акцентах и шуме они «придумывают» слова.

Как запустить Whisper бесплатно на своём компьютере? Нужны Python 3.9+ и команда pip install openai-whisper. Минимальная конфигурация: 8 ГБ RAM, любой современный CPU. С GPU NVIDIA — в 5-10 раз быстрее. Команда whisper audio.mp3 --model large-v3 --language ru запустит расшифровку. Никаких подписок, файл не покидает компьютер.

Whisper или Yandex SpeechKit — что точнее на русском? По нашим тестам на разговорной речи с акцентом и шумом Whisper Large v3 даёт 93-95% точности, Yandex SpeechKit — 91-94%. На чистой студийной речи разница в пределах погрешности. Главное преимущество Whisper — бесплатность и отсутствие лимитов. Главное преимущество SpeechKit — российская юрисдикция, важно для корпоративных клиентов с требованиями ФЗ-152.

Можно ли использовать Whisper API от OpenAI из России? Прямого доступа к OpenAI API из РФ нет с 2024 года. Варианты: 1) запустить локально на своём железе (бесплатно, без VPN), 2) использовать прокси-сервисы вроде Telegram-ботов, которые ставят Whisper у себя на сервере и предоставляют доступ через интерфейс бота, 3) арендовать GPU в зарубежном облаке через VPN. Для большинства задач первый и второй варианты покрывают всё.

Какие форматы файлов принимает Whisper? Все распространённые: MP3, WAV, M4A, OGG, FLAC, MP4, MOV, AVI. Видеофайлы Whisper сначала конвертирует в аудио (через ffmpeg), потом распознаёт. Размер файла — без ограничений в локальной версии, до 25 МБ через OpenAI API. Telegram-боты обычно поднимают лимит до 2 ГБ за счёт собственной обвязки вокруг Whisper.

Связанные материалы

#whisper#ai#openai#голосовые#нейросети