Веселимся со Spring: pet-проект по распознаванию речи

Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

https://habr.com/ru/articles/1033338/

#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

Веселимся со Spring: pet-проект по распознаванию речи

Привет Хабр ! Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно...

Хабр

金のニワトリ (@gosrum)

Gemma 4 E4B의 오디오 입력 기능을 이용해 음성 채팅 앱을 만들어 시험해 본 사례가 공유됐다. 음성 인식 전사 정확도는 좋았지만, 실제로 자연스러운 대화가 되는지는 아직 아쉬움이 있다고 평가해, 멀티모달 음성 AI 기능의 초기 활용 가능성을 보여준다.

https://x.com/gosrum/status/2043526347876933714

#gemma #voice_chat #audio_input #multimodal_ai #speech_recognition

金のニワトリ (@gosrum) on X

gemma4-E4Bのオーディオ入力機能を使った音声チャットアプリを作ってみたのでお試し ※途中音が出ます 【備忘録メモ】 ・文字起こしの精度は良い ・gemma4-E4B自体がそこまで賢くないためか、正しく意思疎通ができているかというと微妙なところ

X (formerly Twitter)

llama.cpp теперь умеет работать с речью

Сегодня (12 апреля) в проект llama.cpp залили PR, который добавляет новый функционал - работа с audio. Речь идёт о поддержке моделей Gemma4, которые умеют распознавать речь: https://huggingface.co/google/gemma-4-E4B-it

https://habr.com/ru/articles/1022628/

#speech_recognition #llamacpp

google/gemma-4-E4B-it · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

https://habr.com/ru/articles/1014888/

#Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы —...

Хабр

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Привет, Хабр! В предыдущей статье я рассказывал, как портировал модель синтеза речи Qwen3-TTS на Rust. Тот проект ( RustTTS ) получился достаточно успешным — один бинарник, мгновенный старт, никаких Python-зависимостей. Естественным продолжением стала обратная задача — распознавание речи (ASR, Automatic Speech Recognition). Логика казалась простой: у Qwen есть и TTS и ASR, архитектуры похожи, опыт с Candle уже есть, значит справимся за пару недель. Ну... не совсем.

https://habr.com/ru/articles/995416/

#rust #asr #speechtotext #speech_recognition #whisper #candle #machine_learning #inference

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью Я реализовал 4 модели распознавания речи (Whisper, Qwen3-ASR, GigaAM, Parakeet) на чистом Rust через Candle — 12 000 строк кода, zero Python-зависимостей в runtime,...

Хабр

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам. В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

https://habr.com/ru/articles/972898/

#machine_learning #large_language_model #neural_networks #speech_recognition #speaker_verification

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что...

Хабр

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large language models). Описана необходимость создания подобных средств обучения в России в условиях ограниченного доступа к зарубежным языковым сервисам, а также обозначена актуальность проблемы формирования разговорных навыков вне языковой среды. Автором представлен алгоритм функционирования тренажёра, включающий распознавание речи, генерацию ответов, синтез голоса и анализ выполнения учебных задач. В качестве важного достоинства тренажера отмечена его мультиязычная направленность и гибкость настройки под имеющиеся компьютерные средства. Дополнительно рассматривается потенциал интеграции речевого тренажера в образовательный процесс российских вузов на основе отечественных больших языковых моделей (YandexGPT, GigaChat) для создания автономных интерактивных речевых систем обучения иностранным языкам. Далее

https://habr.com/ru/articles/960136/

#llmмодели #tts #asr #cloud #yandexcloud #speechtotext #speech_recognition

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

В статье рассматриваются технические аспекты разработки речевого тренажёра GolosAI, основанного на технологиях генеративного искусственного интеллекта и использовании больших языковых моделей (Large...

Хабр

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош. Поехали!

https://habr.com/ru/articles/938438/

#LLM #speech_recognition #распознавание_речи #распознавание_русской_речи #asr #телефония #звонки #бенчмарки #языковые_модели #машинное+обучение

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как...

Хабр

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали нашу транскрипцию речи , и почему это может пригодиться вам. Наш продукт Lingvanex Speech Recognition уже сейчас даёт результат уровня Whisper Large v3, а по ряду задач — даже превосходит его:

https://habr.com/ru/articles/917152/

#speechtotext #speech_recognition #audio_to_text #транскрипция #транскрибация_звонков #анализ_звонков #распознавание_речи #речь_в_текст #аудио_в_текст #speech_analytics

Транскрипция речи. Офлайн и без ограничений

Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex. Более 8 лет мы делаем перевод и распознавание речи удобными, быстрыми и безопасными. Сегодня расскажу, как мы прокачали наше...

Хабр

Как мы запустили автоматическую модерацию видео в объявлениях Авито

Привет! Я Владимир Морозов, senior DS engineer в команде модерации Авито : в основном занимаюсь автомодерацией видео, но развиваю и другие проекты. В статье рассказываю, с какими трудностями мы столкнулись при модерации видео в условиях небольшого количества данных, и как их решили. Думаю, материал будет полезен всем, кто занимается похожими задачами в крупных продуктовых компаниях.

https://habr.com/ru/companies/avito/articles/849748/

#machine_leraning #data_science #computer_vision #python #moderation #speech_recognition #ocr #video_classifcation #модерация_контента #ml

Как мы запустили автоматическую модерацию видео в объявлениях Авито

Привет! Я Владимир Морозов, senior DS engineer в команде модерации Авито : в основном занимаюсь автомодерацией видео, но развиваю и другие проекты. Это я В статье рассказываю, с какими трудностями мы...

Хабр