Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

https://habr.com/ru/articles/972898/

#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что...

Хабр

Speaker Recognition. Как искать человека по голосу

Поговорим про задачу Speaker Recognition. О том, как работает такая система, из каких этапов состоит, как мы ее оцениваем.

https://habr.com/ru/articles/921830/

#machinelearning #machinelearning #artificial_intelligence #artifical_neural_networks #metric_learning #speaker_identification #speaker_verification

Speaker Recognition. Как искать человека по голосу

Приветствую, Хабр! В этой статье мы поговорим про задачу Speaker Recognition. О том, как работает такая система, как мы ее оцениваем. И хотя речь пойдет про распознавание человека по голосу, этот же...

Хабр