Meta just open‑sourced its Omnilingual ASR suite, covering 1,600+ languages and 4.3 M hours of audio. Powered by wav2vec 2.0, Transformer models and in‑context learning, it blends LLM‑ASR for a truly global speech engine. Curious how it works? Read the full breakdown. #Meta #OmnilingualASR #wav2vec2 #LLMASR

🔗 https://aidailypost.com/news/meta-releases-opensource-omnilingual-asr-suite-1600-languages-43m

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами. Я — Иван Бондаренко, старший преподаватель и научный сотрудник Новосибирского государственного университета, сооснователь стартапа «Сибирские нейросети». Вместе с коллегами я реализовал систему, которая помогает в расшифровке живых бесед на русском языке. Мы назвали её «Писец» и протестировали на Тотальном диктанте. В этой статье расскажу, что у нас получилось: как выбирали модели, наборы данных, инструменты, как использовали Wav2Vec2 и Whisper в пайплайне распознавания, файнтюнили Whisper. Ещё коснусь вопросов робастного обучения, парадигмы минимизации инвариантного риска и понятия среды (environment) в распознавании речи.

https://habr.com/ru/companies/oleg-bunin/articles/867722/

#распознавание_речи #нейронные_сети #открытый_код #открытое_программное_обеспечение #транскрибация #работа_со_звуком #wav2vec2 #whisper #инвариантные_риски #environment

Пара слов о робастном распознавании речи или как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи,...

Хабр

GigaAM: класс открытых моделей для обработки звучащей речи

Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM ( Giga A coustic M odel) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение эмоций (GigaAM-Emo). Сегодня же делимся с сообществом весами моделей и примерами использования . Приглашаем под кат погрузиться в self-supervised learning для звучащей речи и оценить возможности предобученных моделей!

https://habr.com/ru/companies/sberdevices/articles/805569/

#распознавание_речи #wav2vec2 #asr

GigaAM: класс открытых моделей для обработки звучащей речи

Салют, Хабр! Ранее мы в SberDevices анонсировали предобученную на русском языке модель GigaAM ( Giga A coustic M odel) и её дообученные состояния под распознавание речи (GigaAM-CTC) и определение...

Хабр