Sber SaluteSpeech в Python без боли и сертификатов

Sber SaluteSpeech — мощный сервис для распознавания речи, но его официальный SDK имеет высокий порог входа. Разработчики сталкиваются с многоступенчатым процессом, временными токенами авторизации и сертификатами Минцифры, что является избыточно сложным для типовой задачи транскрибация аудио. Когда требуется простое решение — «передал аудиофайл, получил текст», — хочется иметь под рукой лаконичный и понятный интерфейс. Чтобы решить эту проблему, я разработал salute_speech — легковесную Python-библиотеку, которая абстрагирует сложность официального API и предоставляет простой интерфейс, вдохновленный подходом OpenAI Whisper.

https://habr.com/ru/articles/945480/

#salutespeech #whisper #speechkit

Sber SaluteSpeech в Python без боли и сертификатов

Нельзя просто так взять и транскрибировать аудио-файл Как всё началось В 23м году я поступил на онлайн-магистратуру ВШЭ "Управление организациями и проектами". Онлайн-магистратура - это лекции онлайн...

Хабр
Сегодня неожиданно отвалилось потоковое распознавание голоса через #Yandex.
Внутри #gRPC вызова стало возникать исключение с кодом StatusCode.UNIMPLEMENTED.

Оказалось, что в старой версии документации в примере использования API v3 потокового распознавания выставляется заголовок x-node-alias в значение speechkit.stt.rc:

# Отправить данные для распознавания. it = stub.RecognizeStreaming(gen(audio_file_name), metadata=( ('authorization', f'Bearer {iam_token}'), ('x-node-alias', 'speechkit.stt.rc') ))

А в актуальной версии этой же страницы этого заголовка (x-node-alias) уже нет:

# Отправить данные для распознавания. it = stub.RecognizeStreaming(gen(audio_file_name), metadata=( ('authorization', f'Bearer {iam_token}'), ))

Удаление заголовка из запроса решило возникшую проблему.

#python #worklog #speechkit