Falls du mit deinem Computer reden willst: Da hab ich was gemacht: https://github.com/jedie/stt2desktop

Alles lokal, ohne Clouddienste!

Kann man generisch für alles nutzen, weil es einfach den aktuell eingesprochenen Text an die Stelle des Cursors einfügt. Man kann einfach ins Mikrofon Deutsch oder Engisch (oder was anderes) sprechen, das funktioniert dank #Whisper eigentlich ziemlich gut.

#OpenSource #Python #STT #LocalLLM

GitHub - jedie/stt2desktop: Local speech-to-text for desktop using faster-whisper

Local speech-to-text for desktop using faster-whisper - jedie/stt2desktop

GitHub

💡 Join the workshops of the 𝗥𝗲𝘀𝗲𝗮𝗿𝗰𝗵 𝗦𝘂𝗽𝗽𝗼𝗿𝘁 𝗛𝘂𝗯! Experts form multiple CIT teams give support tot researchers @universityofgroningen.

𝗨𝗽𝗰𝗼𝗺𝗶𝗻𝗴 𝗲𝘃𝗲𝗻𝘁𝘀 𝗶𝗻 𝗔𝗽𝗿𝗶𝗹
🌟 2 April: DCC Workshop: #FAIR publishing data in DataverseNL
🌟 9 April: Introduction to #AI tools
🌟 9 April: Working with #Python on Hábrók
🌟 16 April: Webscraping using #Python
🌟 23 April: Introduction to #AI tools
🌟 23 April: #CodeCafé
🌟 30 April: Safely transcribing audio with #Whisper

ℹ️ https://www.rug.nl/society-business/center-for-information-technology/research/rsh/rshcalendar/

#researchsupport

Грабилка звука с переводом

Сидя на очередном teams митинге с коллегами на французском, и в очередной раз понимая, что упускаю смысл совещания, ибо уровень этого самого французского оставляет желать лучшего, подумал, что надо что-то делать. И так как их много, а меня — мало, делать что-то предстояло мне. Teams и прочие платформы, конечно, имеют опции на такой случай, но не просить же включать запись каждый раз. Получилась небольшая программа, которая берёт воспроизводимый звуковой поток, делит его на фразы, через whisper распознаёт в указанный язык (проверял русский, английский, французский) и переводит. Немного деталей и возможности

https://habr.com/ru/articles/1015636/

#whisper #перевод #запись_разговоров

Грабилка звука с переводом

Сидя на очередном teams митинге с коллегами на французском, и в очередной раз понимая, что упускаю смысл совещания, ибо уровень этого самого французского оставляет желать...

Хабр

#ThrowbackThursday!

I'm all out of colouring blanks, but I still have plenty of #OldArt to show! Do you think I improved?

Art made in: 1999
Character: #Whisper #Shadowhunter

#anime #manga #fantasy #fanart #oc #sketch #redraw #WIP #prettygirl #cute #kawaii #イラスト #アニメ

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который: 1. Слушает голосовые сообщения и распознает речь без дорогих облачных API. 2. Оценивает точность произношения в процентах, сравнивая с эталоном. 3. Поддерживает живой диалог через LLM, исправляя ошибки на лету. 4. Работает быстро и экономно на слабом VPS. В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

https://habr.com/ru/articles/1014888/

#Python #Telegram_Bot #Aiogram #Whisper #Speech_Recognition #Machine_Learning #NLP #Artificial_Intelligence #Асинхронность #Испанский_язык

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы —...

Хабр

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации. Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам. В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

https://habr.com/ru/articles/1014810/

#анализ_видео #Python #computer_vision #автоматизация #YouTube_Shorts #обработка_аудио #субтитры #OpenCV #Whisper #media_pipeline

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр! Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием,...

Хабр

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы решили транскрибировать все звонки службы поддержки, а также создать удобный интерфейс для работы с аудио и текстом. В этой статье расскажу, как нам удалось реализовать всё это, и при этом повысить качество распознавания и сохранить процесс внутри корпоративного контура. Мы протестировали различные решения и теперь делимся опытом, чтобы другие команды могли быстрее внедрять проверенные подходы и избегать распространённых ошибок.

https://habr.com/ru/companies/yoomoney/articles/1012870/

#распознавание_речи #speechtotext #whisper #аудиообработка #диаризация #речевая_аналитика #машинное_обучение #vad

Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи

Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том, как транскрибируем аудио с внутренних созвонов в текст. Прошёл год, и задача выросла: помимо созвонов мы...

Хабр

#ThrowbackThursday!

I'm all out of colouring blanks, but I still have plenty of #OldArt to show! Do you think I improved?

Art made in: 2011
Character: #Whisper #Shadowhunter

#anime #manga #fantasy #fanart #oc #sketch #redraw #WIP #prettygirl #cute #kawaii #イラスト #アニメ

Just ran Whisper (OpenAI) completely locally on my system (RX 6700 XT / 16 GB RAM).

Whisper is an open source speech recognition model that can transcribe audio, generate subtitles, and even translate between languages.

Test video: The Reason Why Cancer is so Hard to Beat by Kurzgesagt - In a Nutshell
(https://www.youtube.com/watch?v=uoJwt9l-XhQ)

Setup:

- Whisper installed via pip
- Model: small (fast, good enough for English)
- GPU acceleration via ROCm

Result:
~98% accurate transcription with only a few minor errors, already solid for generating subtitles.

Next steps / possibilities:

- Auto-generate subtitles (.srt)
- Correct subtitles with a local LLM
- Translate speech
- Burn subtitles directly into videos

Video workflow:

- Recorded with OBS
- Edited in Kdenlive
- Transcoded with VAAPI (H.264)

No cloud, real hardware.
Everything runs on Linux, so anyone can set this up.
No GPU? No problem, you can also run it using PyTorch’s CPU backend, just much slower.

Background music: End of Me - Ashes Remain [Female Rock Cover by Kryx] (https://www.youtube.com/watch?v=E430M8lKim8)


#Whisper #OpenAI #ROCm #AMD #Linux #SpeechToText #Transcription #Subtitles #FOSS #OpenSource #OfflineAI #localai #Fediverse #nocloud