Умная колонка своими руками

В этой статье я расскажу, как сделать своими руками две умные колонки, полностью поддерживающие русский язык: 1) На микроконтроллере esp32s3, используя XiaoZhi 2) На Raspberry Pi автономную голосовую колонку с камерой, которая будет работать и распознавать всё, что не только слышит, но и видит перед собой, даже при отсутствии Интернета! С локально запущенными моделями ИИ, связка Ollama+Gemma3:1b+Moondream+OpenWakeWord+Whisper.cpp+Silero TTS А также расскажу, как подключить обе эти колонки к Home Assistant для управления устройствами умного дома.

https://habr.com/ru/articles/1005272/

#xiaozhi #esp32s3 #голосовой_ассистент #whisper #silero #ollama #raspberrypi

Умная колонка своими руками

В этой статье я расскажу, как сделать своими руками две умные колонки, полностью поддерживающие русский язык: 1) На микроконтроллере esp32s3, используя XiaoZhi 2) На Raspberry Pi автономную голосовую...

Хабр

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ. Вы уже много раз упоминали , что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось. Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU). Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит. Протестируем!

https://habr.com/ru/articles/981992/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #русский_язык #языки_россии #sapi #балаболка

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения...

Хабр

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим: Модель поддерживает SSML; Модель стала быстрее ещё на 20-25% (она и так была супер быстрой); С живыми дикторами были подписаны договоры на запись их голоса; Запись велась в максимально высоком из практически доступного качестве; Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress ; К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели ; Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

https://habr.com/ru/articles/968988/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор #русский_язык #языки_россии #россия

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Дружба народов здорового человека Наконец-то представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается...

Хабр

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2 , в которую вошло следующее: Что вошло?

https://habr.com/ru/articles/969184/

#silero #ударение #pytorch #python #pypi #нейросети #синтез_речи #украинский_язык #языки_россии #русский_язык

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Новости, о которых невозможно молчать Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла...

Хабр

Мы опубликовали silero-tts v5 на русском языке

Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз. Итак представляем вам новый v5 релиз наших публичных моделей для синтеза речи! Что поменялось?

https://habr.com/ru/articles/961930/

#silero #синтез_речи #tts #texttospeech #нейросети #озвучка #синтезатор_речи #русский_язык #ударение #омографы

Мы опубликовали silero-tts v5 на русском языке

Пора! Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того,...

Хабр

Мы решили задачу омографов и ударений в русском языке

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов. Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi . В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно. Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей. Сели, налили, читаем

https://habr.com/ru/articles/955130/?utm_source=habrahabr&utm_medium=rss&utm_campaign=955130

#silero #ударение #русский_язык #омографы #разрешение_омографов #pytorch #python #pypi #нейросети #синтез_речи

Мы решили задачу омографов и ударений в русском языке

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной...

Хабр

Мы решили задачу омографов и ударений в русском языке

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов. Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi . В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно. Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей. Сели, налили, читаем

https://habr.com/ru/articles/955130/

#silero #ударение #русский_язык #омографы #разрешение_омографов #pytorch #python #pypi #нейросети #синтез_речи

Мы решили задачу омографов и ударений в русском языке

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной...

Хабр

Новый релиз публичного детектора голоса Silero VAD v6

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут ). А вот что стало лучше в этот раз: Хочу узнать!

https://habr.com/ru/articles/940750/

#silero #voice_activity_detection #детектор_голоса #pytorch #onnx #python #голосовое_управление #голосовой_помощник #open_source #pypi

Новый релиз публичного детектора голоса Silero VAD v6

Историческое сравнение версий На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут ).  А вот что стало лучше в этот раз: Все прошлые фишки и...

Хабр

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами. В этот раз ситуация такая: Какая?

https://habr.com/ru/articles/849932/

#распознавание_речи #речевые_технологии #asr #stt #speechtotext #silero #sber #tinkoff #yandex #voice_kit

Сравнение систем распознавания русского языка 2024

После значительной паузы, опять пришло время обновить наше исследование ( прошлое , позапрошлое ) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и...

Хабр

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Мы уже рассказывали про наш детектор голоса на Хабре тут , тут и тут . Кратко опишу, что стало лучше в этот раз: Поддержка 6 000+ языков; Общий рост качества на 5-7%; Существенно повышена устойчивость на шумных данных; TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости , обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

https://habr.com/ru/articles/825208/

#silero #voice_activity_detection #vad #детекция_голоса #onnx #onnxruntime #pytorch #python_3 #голосовой_помощник #голосовое_управление

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Сравнение качества версий v5, v4 и v3.1 Мы уже рассказывали про наш детектор голоса на Хабре  тут , тут  и  тут .  Кратко опишу, что стало лучше в этот раз: Поддержка 6 000+...

Хабр