Сьогодні дивився на Open-Source Speech Synthesis, і все дуже цікаво.
Ну, спочатку, існують речі такі як `espeak-ng`, які можна встановити з репозиторію і вони наче як ... стандартні.
Але господи, яке воно страшне, найжахливіший синтезований голос шо я чув.
Далі я поліз гуглити, спочатку знайшов Mozilla TTS: https://github.com/mozilla/TTS/ але воно схоже давно мертве. У Mozilla схоже є звичка шось починати і закидать.
Потім, знайшов https://github.com/coqui-ai/TTS ... В якому дуже цікаво виглядає те шо структура README дуже схожа з попереднім, команда інсталяції через pip така сама...
Вдалось його запустити, генерує непоганий голос, але така купа залежностей, тягте CUDA навіть коли воно мені не треба, але працює.
Далі цікавіше, Tortoise TTS:
https://huggingface.co/spaces/Manmay/tortoise-tts
Ось тут воно працює і непогано, але якшо спробувати запустити локально, то як мінімум на ноутбуці все настільки повільно шо я не дочекався поки згенерується одна фраза. Мабуть правду писали в README шо треба NVIDIA GPU.
Потім я знайшов ось цей реддіт тред, https://www.reddit.com/r/MachineLearning/comments/10yzq25/d_locallyrunnable_text_to_speech_ai/
Пішов дивитись на Mimic, і десь там на форумі побачив шо вони out of business, зате подивіть на `piper-tts`.
І ось тут починаєтья найцікавіше: https://github.com/rhasspy/piper
> A fast, local neural text to speech system
Є варіанти встановити як модуль python, є бінарник. Я спочатку думав шо якийсь з python, але ні. І воно генерує дуже непогану мову, дуже швидко, і без 10 гігабайт dependencies.
Дуже прикольна штука. Буду копати далі. Є навіть українські голоси, якість правда так собі, але є.
https://rhasspy.github.io/piper-samples/
Єдина проблема, воно чомусь не сприймає newlines в тексті, доводиться робити отак:
```
echo $text | tr "\n\r" " " | ./piper -m ~/src/speak/en_US-lessac-medium.onnx -f - | paplay
```
Але то вже таке, шось придумаємо!
#tts #SpeechSynthesis #PiperTTS