Нейронные аудиокодеки: мощное сжатие звука с помощью LLM
В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо . Вместо прямого предсказания сэмплов аудиокодек работает в три этапа: 1. Токенизация звука. 2. Предсказание следующих токенов в LLM. 3. Восстановление оригинала.
https://habr.com/ru/companies/ruvds/articles/1040026/
#float #double #fc #архиваторы #IEEE754 #метаархиватор #Mimi #tiktoken #семантические_токены #ruvds_статьи




