Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо . Вместо прямого предсказания сэмплов аудиокодек работает в три этапа: 1. Токенизация звука. 2. Предсказание следующих токенов в LLM. 3. Восстановление оригинала.

https://habr.com/ru/companies/ruvds/articles/1040026/

#float #double #fc #архиваторы #IEEE754 #метаархиватор #Mimi #tiktoken #семантические_токены #ruvds_статьи

Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

Если использовать нейросеть как «большой словарь токенов» для архиватора, то можно разработать архиватор с рекордным коэффициентом сжатия. Например, сейчас в мировом бенчмарке Large Text Compression...

Хабр