Multi-API Ensemble: 95% точности транскрипции региональных топонимов

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики. Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

https://habr.com/ru/articles/974978/

#speechtotext #whisper #gemini #salutespeech #транскрипция #распознавание_речи #сезон_ии_в_разработке #ensemble #python #asyncio

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали...

Хабр

Sber SaluteSpeech в Python без боли и сертификатов

Sber SaluteSpeech — мощный сервис для распознавания речи, но его официальный SDK имеет высокий порог входа. Разработчики сталкиваются с многоступенчатым процессом, временными токенами авторизации и сертификатами Минцифры, что является избыточно сложным для типовой задачи транскрибация аудио. Когда требуется простое решение — «передал аудиофайл, получил текст», — хочется иметь под рукой лаконичный и понятный интерфейс. Чтобы решить эту проблему, я разработал salute_speech — легковесную Python-библиотеку, которая абстрагирует сложность официального API и предоставляет простой интерфейс, вдохновленный подходом OpenAI Whisper.

https://habr.com/ru/articles/945480/

#salutespeech #whisper #speechkit

Sber SaluteSpeech в Python без боли и сертификатов

Нельзя просто так взять и транскрибировать аудио-файл Как всё началось В 23м году я поступил на онлайн-магистратуру ВШЭ "Управление организациями и проектами". Онлайн-магистратура - это лекции онлайн...

Хабр

Быстрее, выше, сильнее в распознавании речи: SpeechKit, SaluteSpeech или SpeechFlow?

Меня зовут Екатерина, я IT-архитектор в ML-команде SimbirSoft , специализируюсь на темах по обработке естественного языка. Сегодня мы обсудим особенности решения задач распознавания речи. Проверим наши предположения на собственных аудиоданных, которые будем переводить из акустического сигнала в текст тремя передовыми коммерческими системами: Yandex SpeechKit , SaluteSpeech от Сбера и SpeechFlow от Bluepulse. Статья будет полезна тем, кто интересуется тенденциями развития машинного обучения или хочет присмотреться к возможностям и уязвимым местам существующих решений для их внедрения в бизнес-приложения. Погрузиться ⚡

https://habr.com/ru/companies/simbirsoft/articles/833882/

#nlp_(natural_language_processing) #обработка_естественного_языка #stt #asr #yandex_speechkit #salutespeech #hugging_face #large_language_models #nlp

Быстрее, выше, сильнее в распознавании речи: SpeechKit, SaluteSpeech или SpeechFlow?

Меня зовут Екатерина, я IT-архитектор в ML-команде SimbirSoft , специализируюсь на темах по обработке естественного языка. Сегодня мы обсудим особенности решения задач распознавания речи. Проверим...

Хабр