🔊 #F5TTS: New non-autoregressive #TextToSpeech system

• Uses flow matching with #DiffusionTransformer (#DiT)
• Employs #ConvNeXt for refined text representation
• Introduces Sway Sampling strategy for improved performance & efficiency
• Achieves 0.15 Real-Time Factor (#RTF), faster than state-of-the-art diffusion-based TTS models
• Trained on 100K hours multilingual dataset
• Demonstrates zero-shot ability, code-switching capability, and speed control

Key features:
📊 Faster training
🌐 Multilingual support
🔄 Seamless code-switching
⏩ Efficient speed control

Demo, code, and checkpoints available at: https://swivid.github.io/F5-TTS

#AI #MachineLearning #Speech #NLP

F5-TTS

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания супермаркетов. Во всех этих кейсах мы используем нейросети, которые адаптируем специально для мобильных устройств. В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

https://habr.com/ru/companies/ru_mts/articles/842762/

#visionlabs #распознавание_лиц #обучение_моделей #MobileNet #RegNet #ConvNeXt #GhostNet

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания...

Хабр