Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

https://habr.com/ru/articles/1002260/

#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца...

Хабр

Обучаем GigaAM-Emo распознавать ещё больше эмоций

Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry , sad , neutral , positive . Для некоторых задач бывает не достаточно классифицировать эмоции на 4 класса и хочется иметь более полный список эмоций. В статье рассмотрим: существующие корпуса данных для распознавания эмоций, ключевые возможности разработанного пайплайна для дообучения GigaAM с использованием библиотек hydra и Pytorch Lightning , результаты экспериментов с различными архитектурами и функциями потерь. Демо можно попробовать тут

https://habr.com/ru/articles/935802/

#распознавание_эмоций #deep_learning #gigaam #pytorch_lightning #hydra #космотекст

Обучаем GigaAM-Emo распознавать ещё больше эмоций

Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry ,  sad ,  neutral ,  positive . Для некоторых задач бывает недостаточно распознавать 4 класса и...

Хабр