Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах
Примерно год назад мы запустили виртуального рассказчика в Яндекс Книгах. Он хорошо решал задачу чтения книг вслух без предзаписанных аудиоверсий, но иногда звучал однообразно. Дело в том, что он был основан на небольшой нейросети — Tacotron . Проблема заключалась в том, что мы обучали модель для каждого спикера. И если спикер пользовался несколькими интонационными паттернами, то модель просто выбирала самый частый из них. Тогда мы начали активно экспериментировать c highres-моделями. Они могут учиться на большом количестве данных разного качества и поэтому способны воспроизводить более интонационно осмысленную речь. К тому же им не нужны вспомогательные модели, такие как PnG BERT или отдельные модели для расстановки пауз, — все эти интонационные нюансы они выучивают сами. У них есть хорошая способность к семплированию, в отличие от старых моделей, где один и тот же текст на разных генерациях произносился почти одинаково. И вот мы покатили новые модели в прод. А я расскажу, как мы научились заводить highres-модели для синтеза книг и делать это в реалтайме, а также какую работу пришлось для этого провести.
https://habr.com/ru/companies/yandex/articles/936250/
#яндекс #text_to_speech #deep_learning #нейросети #чтение #аудиокниги #синтез_речи