Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

https://habr.com/ru/articles/1020632/

#stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных,...

Хабр

MekaHime (@MekaHimeAI)

AI waifu 'Amika' 개발 비용이 현재까지 약 2.5만 달러라고 소개했다. 자체 STT·TTS와 커스텀 동적 프롬프팅 시스템을 사용하며, 로컬 LLM만으로 800ms 미만 응답 속도를 구현한 사례로, 실시간 대화형 AI 제품/애플리케이션 관점에서 흥미롭다.

https://x.com/MekaHimeAI/status/2041213151526703370

#aiwaifu #stt #tts #localllm #prompting

MekaHime (@MekaHimeAI) on X

Amika, our AI waifu, costs about ~$25K to develop up to today. She runs on our in-house R&D’d STT and TTS to achieve the sub-800ms response speed. Her brain is running on custom dynamic prompting system that we built ourselves. Running local LLM models only. Her initial

X (formerly Twitter)

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

Wes Roth (@WesRoth)

음성 받아쓰기 앱을 만드는 Willow가 실시간 дик테이션용 STT 모델 Atlas 1을 출시했다. 기존 Whisper 같은 범용 모델보다 받아쓰기 환경에 맞춰 설계된 독자 모델이며, 실시간 전사 품질 개선을 목표로 한다.

https://x.com/WesRoth/status/2039538310637601274

#stt #speechtotext #voiceai #dictation #model

Wes Roth (@WesRoth) on X

Willow, the startup behind the popular AI-powered voice dictation app, launched Atlas 1, a proprietary speech-to-text (STT) model designed specifically for real-time dictation. While legacy models (like OpenAI's Whisper) typically score a 5-7% WER on clean audio and plummet to

X (formerly Twitter)

Angry Tom (@AngryTomtweets)

Microsoft가 새로운 음성 인식 모델 MAI-Transcribe-1을 공개했다. 혼잡한 실제 환경에서도 높은 품질의 전사를 빠르고 효율적으로 제공하는 SOTA speech-to-text 모델이라고 소개된다.

https://x.com/AngryTomtweets/status/2039724108544704707

#microsoft #speechtotext #transcription #aimodel #stt

Angry Tom (@AngryTomtweets) on X

Microsoft just dropped MAI-Transcribe-1, a new SOTA speech-to-text model. The model is built to deliver high quality transcription in messy, real-world environments, while remaining incredibly fast and efficient. MAI-Transcribe-1 delivers SOTA speech-to-text transcription

X (formerly Twitter)

Falls du mit deinem Computer reden willst: Da hab ich was gemacht: https://github.com/jedie/stt2desktop

Alles lokal, ohne Clouddienste!

Kann man generisch für alles nutzen, weil es einfach den aktuell eingesprochenen Text an die Stelle des Cursors einfügt. Man kann einfach ins Mikrofon Deutsch oder Engisch (oder was anderes) sprechen, das funktioniert dank #Whisper eigentlich ziemlich gut.

#OpenSource #Python #STT #LocalLLM

GitHub - jedie/stt2desktop: Local speech-to-text for desktop using faster-whisper

Local speech-to-text for desktop using faster-whisper - jedie/stt2desktop

GitHub

Тестирование алгоритмов шумоподавления для сложных акустических условиях

Распознавание речи в реальных условиях представляет собой одну из наиболее сложных задач в области обработки сигналов. Особенно актуальна эта проблема для роботов, которые должны функционировать в разнообразных зашумленных условиях: в толпе людей, на открытом воздухе при сильном ветре, в помещениях с высоким уровнем фонового шума. Традиционные алгоритмы шумоподавления, разработанные для стационарных условий, оказываются неэффективными в таких сценариях. В данной статье описывается исследовательский проект по разработке и оптимизации алгоритмов цифровой обработки сигналов для обеспечения надежного распознавания речи в экстремальных акустических условиях. В качестве тестовой платформы использована система автоматического распознавания птиц на базе BirdNET-Go, что позволило проводить длительные полевые испытания в естественных условиях с разнообразными типами шумов. Ключевой задачей проекта был подбор оптимальных алгоритмов фильтрации и их параметров для работы с нестационарным шумом. В процессе исследования были реализованы и протестированы различные подходы к шумоподавлению, включая спектральное вычитание, адаптивные фильтры и алгоритмы на основе минимальной среднеквадратичной ошибки. Особое внимание уделено алгоритму Log-MMSE (Minimum Mean-Square Error Log-Spectral Amplitude Estimator), который показал наилучшие результаты в условиях нестационарного шума. Выбор птиц в качестве тестового объекта был неслучаен: вокализация врановых (ворон, сойка, сорока, галка, грач) по своим частотным характеристикам близка к человеческой речи, что делает их идеальной моделью для отработки алгоритмов, предназначенных для роботов. Длительные полевые записи в различных погодных условиях позволили собрать обширную базу данных для анализа эффективности различных подходов к шумоподавлению. Полетели послушаем

https://habr.com/ru/articles/1006084/

#birdnet #docker #stt #microphone

Тестирование алгоритмов шумоподавления для сложных акустических условиях

Введение Распознавание речи в реальных условиях представляет собой одну из наиболее сложных задач в области обработки сигналов. Особенно актуальна эта проблема для роботов, которые должны...

Хабр
I'm trying to set up voice control for Home Assistant.... in Esperanto! There's only, as far as I know, one local option for an Esperanto STT model able to run on a Raspberry Pi: vosk. And let me tell you, the set up (especially with dockerized home assistant) is, uh, a labor of love, let's say.
Mi sukcesos !
#homeAssistant #esperanto #vosk #stt #docker #languages

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

Massive kudos to Jorge Menjivar for his work on super-stt  for Cosmic - it works without rituals. @hidden_layerss

https://github.com/jorge-menjivar/super-stt

#cosmic #popos #linux #stt
GitHub - jorge-menjivar/super-stt: Super STT enables effortless voice-to-text in any application, using the most advanced speech models that run 100% locally.

Super STT enables effortless voice-to-text in any application, using the most advanced speech models that run 100% locally. - jorge-menjivar/super-stt

GitHub