Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

https://habr.com/ru/articles/1014888/

#Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы —...

Хабр

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

https://habr.com/ru/articles/1014810/

#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием,...

Хабр

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы...

Хабр

#ThrowbackThursday!

I'm all out of colouring blanks, but I still have plenty of #OldArt to show! Do you think I improved?

Art made in: 2011
Character: #Whisper #Shadowhunter

#anime #manga #fantasy #fanart #oc #sketch #redraw #WIP #prettygirl #cute #kawaii #イラスト #アニメ

Just ran Whisper (OpenAI) completely locally on my system (RX 6700 XT / 16 GB RAM).

Whisper is an open source speech recognition model that can transcribe audio, generate subtitles, and even translate between languages.

Test video: The Reason Why Cancer is so Hard to Beat by Kurzgesagt - In a Nutshell
(https://www.youtube.com/watch?v=uoJwt9l-XhQ)

Setup:

- Whisper installed via pip
- Model: small (fast, good enough for English)
- GPU acceleration via ROCm

Result:
~98% accurate transcription with only a few minor errors, already solid for generating subtitles.

Next steps / possibilities:

- Auto-generate subtitles (.srt)
- Correct subtitles with a local LLM
- Translate speech
- Burn subtitles directly into videos

Video workflow:

- Recorded with OBS
- Edited in Kdenlive
- Transcoded with VAAPI (H.264)

No cloud, real hardware.
Everything runs on Linux, so anyone can set this up.
No GPU? No problem, you can also run it using PyTorch’s CPU backend, just much slower.

Background music: End of Me - Ashes Remain [Female Rock Cover by Kryx] (https://www.youtube.com/watch?v=E430M8lKim8)


#Whisper #OpenAI #ROCm #AMD #Linux #SpeechToText #Transcription #Subtitles #FOSS #OpenSource #OfflineAI #localai #Fediverse #nocloud

Ein paar Wochen nach der #DHd2026 in Wien habe ich meine Workshop-Notizen zu einem Blogpost ausgearbeitet: https://dhd-blog.org/?p=23426

Es geht um Modellierung jenseits von Named Entities, Transkription mit #Whisper und darum, wie Daten überhaupt erst durch Tools und Entscheidungen entstehen.

#Modellierung #Transkription #Forschungsdaten #DigitalMethods #TEI #RDF

From Modelling to Transcription: Workshop Notes from DHd2026 | DHd-Blog

Hands on with AI audio generation: GAI voice, music, and sound effects

This is the second post in a series exploring the multimodal possibilities of generative AI. This series will take a detailed, hype-free look at text, image, audio, video, and code generation and explore the creative potential as well as the ethical concerns of GAI. Although Generative AI isn't a new technology, it's definitely been having a hype moment since the release of ChatGPT in November 2022. Unfortunately, the focus has been squarely on the text-based chatbot at the exclusion of […]

https://leonfurze.com/2023/09/25/hands-on-with-ai-audio-generation-gai-voice-music-and-sound-effects/

when the cops bust in on your catnip deal

#jinx #jinxthelynx #whisper #whisperthewonderpuss #cats

“I’m still the cute one, right?” — Whisper

#caturday #whisperthewonderpuss #whisper #cats #orangecats