Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

https://habr.com/ru/articles/1014888/

#Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы —...

Хабр

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

https://habr.com/ru/articles/995416/

#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью Я реализовал 4 модели распознавания речи (Whisper, Qwen3-ASR, GigaAM, Parakeet) на чистом Rust через Candle — 12 000 строк кода, zero Python-зависимостей в runtime,...

Хабр

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

https://habr.com/ru/articles/972898/

#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что...

Хабр

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

https://habr.com/ru/articles/960136/

#llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large...

Хабр

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош. Поехали!

https://habr.com/ru/articles/938438/

#LLM #speech_recognition #распознавание_речи #распознавание_русской_речи #asr #телефония #звонки #бенчмарки #языковые_модели #машинное+обучение

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как...

Хабр

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

https://habr.com/ru/articles/917152/

#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали наше...

Хабр

Как мы запустили автоматическую модерацию видео в объявлениях Авито

Привет! Я Владимир Морозов, senior DS engineer в команде модерации Авито : в основном занимаюсь автомодерацией видео, но развиваю и другие проекты. В статье рассказываю, с какими трудностями мы столкнулись при модерации видео в условиях небольшого количества данных, и как их решили. Думаю, материал будет полезен всем, кто занимается похожими задачами в крупных продуктовых компаниях.

https://habr.com/ru/companies/avito/articles/849748/

#machine_leraning #data_science #computer_vision #python #moderation #speech_recognition #ocr #video_classifcation #модерация_контента #ml

Как мы запустили автоматическую модерацию видео в объявлениях Авито

Привет! Я Владимир Морозов, senior DS engineer в команде модерации Авито : в основном занимаюсь автомодерацией видео, но развиваю и другие проекты. Это я В статье рассказываю, с какими трудностями мы...

Хабр

Как сделать голосовой интерфейс к LLM

В конце февраля на Бали прошел фестиваль Lampu , организованный по принципам знаменитого Burning Man. По его традиции, участники самостоятельно создают инсталляции и арт-объекты. Мы с друзьями из кемпа 19:19 , вдохновившись идеей католических исповедален, придумали сделать свой AI Confession Room, где любой желающий мог бы поговорить с искусственным интеллектом.

https://habr.com/ru/articles/827552/

#diy #openai #whisper #arduino #llm #speech_recognition #chatgpt

Как сделать голосовой интерфейс к LLM

Пока OpenAI задерживают релиз звуковой модальности для ChatGPT, я хочу поделиться, как мы собрали свое приложение для голосового взаимодействия с LLM и интегрировали его в интерактивную кабинку....

Хабр

Интерактивный NPC на Unreal Engine

Всем привет. Я хочу с вами поделиться результатами эксперимента по созданию интерактивного NPC на Unreal Engine 5 . Speech recognition , Text-to-speech , LLM модели, LipSync , MetaHuman и все это без использования сторонних сервисов . Видео работы и ссылка на демо версию прилагается. Если вам интересно увидеть результат и обсудить перспективы интерактивных NPC в игровой индустрии - добро пожаловать под кат.

https://habr.com/ru/articles/807561/

#speech_recognition #text_to_speech #large_language_models #unreal_engine_5 #metahuman #gamedev #игры

Интерактивный NPC на Unreal Engine

В настоящее время у многих на слуху использование нейронных сетей в игровой индустрии (в том числе генерация музыки, изображений, 3D моделей).  Одним из возможных применений нейронных сетей в...

Хабр
Soon, the 'Gossip Booth' of radioslumber.net. A speech recognition online tool that filters 'secrets' by returning in-between-the-words expressions.
Laughter, pauses, uncertain expressions, breaths, sounds of discomfort and pleasure.
...
...
#pocketsphinx #speech_recognition #gossip #radioslumber #web_audio
...
...
...
Gossip in any language can be a fast, low-in-volume way of speaking, sounding like murmuring often including slang. This way of speaking happening between immigrants may sound blurry to the ears. Without the understanding of the words the speaking becomes a melody, a sound missing the logical meaning. This may be annoying for the outsiders but at the same time it is a familiar, joyful, shared and supportive space for the ones that had to leave their home. Even more for the ones that often don't have the public platforms to share their concerns and solve their problems, and they are not supported by the systems (legal, economic, cultural, political) they live in. The 'Gossip Gaps' embraces these discomforts in the ear of some listeners and the fast murmurings of despair and pleasure.