Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами. Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

https://habr.com/ru/companies/oleg-bunin/articles/867722/

#распознавание_речи #нейронные_сети #открытый_код #открытое_программное_обеспечение #транскрибация #работа_со_звуком #wav2vec2 #whisper #инвариантные_риски #environment

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи,...

Хабр