Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы
Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтверждало тезис «специализация бьёт универсальность». С тех пор мы перемерили обе модели на реальных продакшен-записях и попали в три ловушки бенчмарка. Первый замер показал «GigaAM впереди Whisper на 7 pp». На тех же данных, после небольшой чистки, обе модели идут вровень. А на самом шумном клипе с реверберацией Whisper уходит вперёд на 19 pp. Это всё на одном подкасте, с одними и теми же скриптами, одними и теми же моделями. Детали разбираем под катом. Протестировали 10 методов «улучшения» аудио (большинство сделали хуже), измерили RTF на RTX 4090 и сформулировали финальный выбор: GPU - до обученный Whisper-turbo, CPU - GigaAM v3-e2e-rnnt. И почему именно так.
https://habr.com/ru/articles/1042574/
#распознавание_речи #ASR #Whisper #GigaAM #WER #fasterwhisper #бенчмарк #finetuning #русский_ASR #оффлайнраспознавание

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы
Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM - главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти...





