GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке: поддерживает новые домены и end-to-end нормализацию текста.

https://habr.com/ru/companies/sberdevices/articles/973160/

#распознавание_речи #mit_license #foundation_models #huggingface

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 —...

Хабр
Spot Watches Its Step | Boston Dynamics

YouTube
IBM Granite 3.0: open, state-of-the-art enterprise models

Announcing IBM Granite 3.0, a collection of large language models (LLMs) and tools featuring Granite 3.0 8B and 2B, Granite Guardian and Granite 3.0 MoE models.

ReKep | Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

With Robots.txt, Websites Halt AI Companies' Web Crawlers

​With more websites restricting crawler bots, AI companies may soon be hurting for training data

IEEE Spectrum
@JoYo You may start with models already trained by other. Explore #LLM or other #foundation_models build demos for you company with #gradio on #huggingface could be a good start, or consume an API from some cloud provider, if that is an option.
But most likely you want to use some of your own data to fine-tune a pre-trained model to get best result. You could learn how to do this with some of the public datasets available at #huggingface or other places...have fun!