Наш новый LLM-based синтез речи

Рассказываем о нашем новом синтезе речи. Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения. Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса. Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

https://habr.com/ru/companies/sberbank/articles/966640/?utm_source=habrahabr&utm_medium=rss&utm_campaign=966640

#tts #синтез_речи #llm #gigachat #речевые_технологии #voice_cloning

Наш новый LLM-based синтез речи

Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову выше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или...

Хабр

Наш новый LLM-based синтез речи

Рассказываем о нашем новом синтезе речи. Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения. Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса. Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

https://habr.com/ru/companies/sberbank/articles/966640/

#tts #синтез_речи #llm #gigachat #речевые_технологии #voice_cloning

Наш новый LLM-based синтез речи

Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову выше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или...

Хабр

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте ! Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

https://habr.com/ru/companies/sberbank/articles/904894/

#мультимодальность #llm #asr #речевые_технологии

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat , эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в...

Хабр

Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место. Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме. В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio , NVIDIA NeMo , DScore и другие. Узнать больше про RTTM!

https://habr.com/ru/articles/900988/

#RTTM #RTTM_формат #аннотация_аудио #речевая_разметка #ASR_разметка #структура_RTTM_файла #речевые_технологии #формат_NIST_RTTM #speechtotext_разметка #speaker_diarization

Спецификация формата RTTM: полное техническое описание

Если бы у аудио был паспорт — он был бы в формате RTTM. Предисловие Совсем недавно, при подготовке данных для обучения модели диаризации я впервые всерьёз столкнулся с форматом RTTM , о котором прежде...

Хабр

[Перевод] Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Вы заметили, что уже кричите на голосовых помощников, когда они вас не понимают? Эра разочаровывающих голосовых интерфейсов заканчивается. Узнайте, как эта технология изменит всё: от бизнес-коммуникаций до наших социальных навыков. Это нужно послушать — спор с голосовым ИИ Sesame в реальном времени 🤯

https://habr.com/ru/articles/896206/

#речевые_технологии #openai #разговорный_ии #голосовые_интерфейсы #социальное_воздействие_технологий #будущее_коммуникаций #голосовой_ии #коммуникация #искусственный_интеллект

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:...

Хабр

Пришёл, накодил, победил: хакатон глазами победителей и организаторов

В этой статье мы хотим поделиться своим опытом, который поможет вам подготовиться к любому хакатону (hackathon). Наверняка вы уже слышали про этот специфический формат соревнований для айтишников. На них ставятся практические задачи, которые участники решают за определённое время, имея ограниченные ресурсы. Обычно участники представлены командами, поэтому крайне важно уметь работать сообща. Помимо денежного приза победители получают известность. В дальнейшем это способствует обращению к ним с заказами на решение подобных задач. Для работодателя хакатон заменяет десятки собеседований и знакомство с заявленными в резюме проектами (которые ещё неизвестно кто и как делал). Он сразу получает представление о реальных возможностях готовой команды разработчиков и может пригласить лучшую на свой проект. Российская ИТ-компания «Криптонит» тоже участвует в хакатонах, причём в разных качествах. Наши молодые специалисты пробуют силы в профильных конкурсах, а их более опытные наставники сами организуют хакатоны для поиска сильных команд. Вот пара историй для лучшего понимания деталей. Veni, cogitavi, vici! У нас есть лаборатория ИИ, сотрудники которой приняли участие в хакатоне SafeSpeak-2024 , организованном университетом МТУСИ и институтом AIRI. Заявки на этот конкурс подали наши специалисты Анна Холькина и Карина Янышевская, специализирующиеся на алгоритмах обработки естественного языка. Задача хакатона была на злобу дня: требовалось представить решение для борьбы с мошенниками, говорящими с жертвой от имени кого-то из её знакомых. Техника таких атак называется аудио-спуфинг и всё чаще используется в генерации дипфейков. Командам нужно было создать модель машинного обучения для обнаружения таких дипфейков и обеспечения безопасности голосовой связи.

https://habr.com/ru/companies/kryptonite/articles/881648/

#хакатон #машинное_обучение #обработка_естественного_языка #речевые_технологии #модели_машинного_обучения #искусственный_интеллект #deepfake #дипфейк

Пришёл, накодил, победил: хакатон глазами победителей и организаторов

В этой статье мы хотим поделиться своим опытом, который поможет вам подготовиться к любому хакатону (hackathon). Наверняка вы уже слышали про этот специфический формат соревнований для айтишников. На...

Хабр

ИИ в деле: актуальные сценарии внедрения нейросетей в России

Привет, Хабр! На связи Анна Смирнова, руководитель по развитию технологий ИИ в К2Тех. Сегодня поговорим об искусственном интеллекте без лишнего хайпа. Дело в том, что из новинки, которую все тестировали и примеряли, ИИ превращается в реального помощника в бизнесе. Компании уже осознанно внедряют нейросети в свои бизнес-процессы и оптимизируют производства, повышают безопасность, улучшают логистику и увеличивают продажи. Также обсудим перспективы развития ИИ в России. Вы узнаете о государственной поддержке этой сферы, проблемах внедрения в разных отраслях и о том, как подготовиться к грядущей цифровой трансформации.

https://habr.com/ru/companies/k2tech/articles/862032/

#нейросети #развитие_ии #речевые_технологии #видеоаналитика #предиктивные_технологии #большие_языковые_модели

ИИ в деле: актуальные сценарии внедрения нейросетей в России

Привет, Хабр! На связи Анна Смирнова, руководитель по развитию технологий ИИ в К2Тех.     Сегодня поговорим об искусственном интеллекте без лишнего хайпа. Дело в том, что из...

Хабр

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами. В этот раз ситуация такая: Какая?

https://habr.com/ru/articles/849932/

#распознавание_речи #речевые_технологии #asr #stt #speechtotext #silero #sber #tinkoff #yandex #voice_kit

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и...

Хабр

Бот с характером: как образ и персона ботов влияют на клиентов

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

https://habr.com/ru/companies/just_ai/articles/821589/

#голосовые_интерфейсы #чатбот #голосовой_помощник #разработка_чатбота #виртуальный_помощник #речевые_технологии #автоматизация_коллцентра #nlp #речевые_информационные_технологии #голосовые_ассистенты

Бот с характером: как образ и персона ботов влияют на клиентов

Привет, Хабр! Меня зовут Ирина Степанова, я дизайнер и аналитик разговорных интерфейсов в компании Just AI и лид одноименной гильдии. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но...

Хабр

На пути к полной жизни: Онлайн-синтез речи для людей с неврологическими нарушениями

Многие люди теряют возможность поддерживать собственную независимость, вести активную социальную жизнь и просто взаимодействовать с окружающей средой, в связи с серьезными неврологическими заболеваниями . Болезни и состояния, такие как БАС, инсульт, церебральный паралич, множественный склероз, болезнь Паркинсона, последствия черепно-мозговых травм, дистония , могут привести к частичной или полной потере способности к самостоятельному передвижению, речи и выполнению повседневных задач. Восстановить эти функции очень сложно, а в некоторых случаях вовсе невозможно. Над этой проблемой работают многие исследователи, борясь за улучшение уровня жизни для таких пациентов. В данной статье я расскажу о тестировании возможности применения технологии имплантируемого интерфейса “мозг-компьютер” (brain–computer interface) для онлайн-синтеза речи с использованием активности мозга, регистрируемой внутричерепными электродами, чтобы проложить путь к новым коммуникационным возможностям для людей, потерявших способность говорить. Приятного прочтения!

https://habr.com/ru/companies/bothub/articles/810853/

#машинное_обучение #rnn #здоровье #здравоохранение #речь #речевые_технологии #нейроинтерфейсы #инсульт #бас #неврология

На пути к полной жизни: Онлайн-синтез речи для людей с неврологическими нарушениями

Многие люди теряют возможность поддерживать собственную независимость, вести активную социальную жизнь и просто взаимодействовать с окружающей средой, в связи с серьезными неврологическими...

Хабр