Kurztipp: Sprachsynthese mit SherpaTTS
SherpaTTS is eine empfehlenswerte Text-to-Speech-Engine. Auf meinem Fairphone mit /e/OS hat sie die Sprachausgabe erheblich verbessert.
Kurztipp: Sprachsynthese mit SherpaTTS
SherpaTTS is eine empfehlenswerte Text-to-Speech-Engine. Auf meinem Fairphone mit /e/OS hat sie die Sprachausgabe erheblich verbessert.
Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах
Примерно год назад мы запустили виртуального рассказчика в Яндекс Книгах. Он хорошо решал задачу чтения книг вслух без предзаписанных аудиоверсий, но иногда звучал однообразно. Дело в том, что он был основан на небольшой нейросети — Tacotron . Проблема заключалась в том, что мы обучали модель для каждого спикера. И если спикер пользовался несколькими интонационными паттернами, то модель просто выбирала самый частый из них. Тогда мы начали активно экспериментировать c highres-моделями. Они могут учиться на большом количестве данных разного качества и поэтому способны воспроизводить более интонационно осмысленную речь. К тому же им не нужны вспомогательные модели, такие как PnG BERT или отдельные модели для расстановки пауз, — все эти интонационные нюансы они выучивают сами. У них есть хорошая способность к семплированию, в отличие от старых моделей, где один и тот же текст на разных генерациях произносился почти одинаково. И вот мы покатили новые модели в прод. А я расскажу, как мы научились заводить highres-модели для синтеза книг и делать это в реалтайме, а также какую работу пришлось для этого провести.
https://habr.com/ru/companies/yandex/articles/936250/
#яндекс #text_to_speech #deep_learning #нейросети #чтение #аудиокниги #синтез_речи
Пишем персонального AI-ассистента на Python
Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши. Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.
https://habr.com/ru/articles/919720/
#Python #Питон #Голосовой_ассистент #Распознавание_речи #Text_To_Speech #voice_assistant
@niavy @MXC48 tout à fait et ça va très vite remplacer la synthèse vocal de mon application de lecture ;)
#audio #audiobooks #audiophile #SynthèseVocale #TextToSpeech #SherpaTTS #SpeechSynthesis #Lecture #LectureAudio #VoiceReading #AudioPlayback #text_to_speech
#google_text_to_speech
@MXC48 @niavy Oh, wow ! Je viens de tester #Sherpa #TTS, c'est une dinguerie. Les progrès sont spectaculaires entre il y a quelques années, où je trouvais limite que des voix hyper robotiques, en dehors de la #SynthèseVocale de #Google, et maintenant ^^
#TextToSpeech #SherpaTTS #SpeechSynthesis
#text_to_speech #google_text_to_speech #texttospeech #speechtotext #text_to_speech #google_text_to_speech #opensource #open_source #android #androidapp #FDroid #fdroidstore #fdroidrepo #SpeechToText
apparently i have resigned all of my free time to doing QA of #gridcosm #podcast mp3 audio file reviews. (my janky ui for doing reviews pictured here.) 🎧
the #text_to_speech #ML i am using is great, but not perfect. so sometimes it glitches out so bad, i have to regenerate (parts of) that level.
i have 1500 levels generated now, and its looking like ~10% will need re-running. not the worst, if my brain can survive the audio onslaught. #surreal #digitalart
Text to Speech mit Audiogenipy
Googles freie Text-to-Speech Engine lässt sich sehr einfach in eigenen Projekten oder im Terminal verwenden.
ИИ-Дед Мороз: создаём новогодние видео-открытки с YandexART и YandexGPT
Салют! Меня зовут Григорий, и я главный по спецпроектам в команде AllSee. Новогодние праздники — не только лучший повод для подарков и взаимных поздравлений, но и время большой праздничной суеты: не всегда хватает времени и сил, чтобы придумать оригинальное поздравление для каждого друга, коллеги или члена семьи. В данной статье я расскажу, как можно применить YandexGPT , YandexART и другие ИИ‑инструменты для генерации новогодних видео‑открыток, превращая рутину новогодних поздравлений в увлекательный эксперимент с искусственным интеллектом. Хо-Хо-Хо! Поехали!
https://habr.com/ru/articles/870844/
#telegram_bot #автоматизация_рутины #новый_год #yandexgpt #yandexart #новогоднее_поздравление #yandex_api #llm #computer_vision #text_to_speech
🔥🔥🔥: 3 steps to run HuggingFace 🤗 "Parler TTS" AI Voice on your local machine. New tutorial video out now!
Open Source Parler TTS (Text-to-Speech) allows you to synthesize high class artificial voice audio using a text prompt description text 👏 . Really fun playing around with that.
My step-by-step technical tutorial is now available on my "Thorsten-Voice" youtube channel 😊 .
#tts #huggingface #text_to_speech #texttospeech #opensource @huggingface