AssemblyAI (@AssemblyAI)

AssemblyAI 팀이 마이애미 GP 현장에서 Universal-3-Pro Streaming을 테스트했다. 코드 스위칭, 숫자 인식, 엔진·관중 소음이 심한 비이상적 환경에서도 성능을 검증하며, 차세대 음성 인식 스트리밍 기술의 강점을 보여준다.

https://x.com/AssemblyAI/status/2052829387947721028

#assemblyai #speechrecognition #stt #streaming #voiceai

AssemblyAI (@AssemblyAI) on X

Bad news: yet another Friday with no F1 race on the calendar. Good news: our team was at the Miami GP last weekend putting Universal-3-Pro Streaming through its paces—code switching, numbers, and engine and crowd noise. The conditions were... not ideal. That was the point. See

X (formerly Twitter)

AssemblyAI (@AssemblyAI)

AssemblyAI의 Universal-3 Pro Streaming이 콜레일(CallRail)과 함께 소개됐다. 마이애미 F1 트랙 같은 극한 환경에서 이름, 이메일, 전화번호, 코드 스위칭, 차량/관중 소음이 있는 상황에서도 높은 성능을 보이는 음성 인식(STT) 스트리밍 기술을 강조한다.

https://x.com/AssemblyAI/status/2052850635041845331

#assemblyai #speechrecognition #stt #voiceai #streaming

AssemblyAI (@AssemblyAI) on X

Ryan Johnson's first question about Universal-3 Pro Streaming was "why is it so good?" So @ryanseams showed him, trackside at the Miami Grand Prix, with names, emails, and phone numbers flying and F1 cars passing by. @CallRail chose to partner with AssemblyAI so their team can

X (formerly Twitter)

rohan (@RohanVasishth)

AssemblyAI와 getbluejay_ai의 팟캐스트 Skywatch에서 Dylan J. Fox가 음성 AI에 대해 이야기했다. 그는 STT를 단순한 전사가 아니라 ‘지능형 청취 레이어’로 봐야 한다고 강조하며, 음성 AI 사용자들이 실제로 무엇을 원하는지에 대한 관점을 제시했다.

https://x.com/RohanVasishth/status/2052463344351867375

#assemblyai #voiceai #stt #speechrecognition #aipodcast

rohan (@RohanVasishth) on X

Before @AssemblyAI, @dylanjfox was teaching himself ML from textbooks at night. I sat down with Dylan on Skywatch, @getbluejay_ai's car podcast. A few things that stuck with me: STT is not transcription. It is an intelligent listening layer. Nobody using voice AI cares about

X (formerly Twitter)

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов. В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:

https://habr.com/ru/articles/1031148/

#голосовые_агенты #voice_agents #LLM #Twilio #ElevenLabs #Retell #OpenClaw #STT #TTS #latency

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент...

Хабр

Ever wanted #openclaw 🦞 to make phone calls? 📲
Now you can: https://codingjoe.dev/VoIP/mcp/

#voip #python #sip #tts #stt #vibe #vibecoding #voice #vibevoice

MCP Server - Python VoIP

Update:

Eleven Labs (Scribe v2): 20,251
Aqua (Avalon 1.5): 18,899
Cohere: 19,885
Grok: 19,611
AssemblyAI (Universal 3 Pro): 19,530
Apple: 10,907

Also Grok comes out on top, with the overall quality of the output, while being the cheapest (Well, except for Apple's local model)

#AI #STT #Voice

Probiere mich an lokaler Spracherkennung und Sprachausgabe mit whipser-openai und piper-tts.

Whisper meint in der Stille immer ein "Thank you" zu hören. Und ich glaube, das ist ein so ein bisschen passiv-aggressiver Vorwurf.

#python #whisper #piper #tts #stt

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

OpenWebUI är ju bra och så men ibland vill man prata svenska med sin AI och det inbyggda röst-till-text-systemet stödjer inte Kungliga Bibliotekets modeller.

... om man inte gör så här: https://blog.troed.se/posts/swedish-stt-in-openwebui/

#OpenWebUI #Speech #STT

Swedish Speech-To-Text in OpenWebUI

It's far from obvious how to use OpenWebUI with another Whisper model than the defaults from Systran. I wanted the Speech-To-Text to use the models from the Swedish Royal Library - and found a way.

Things I couldn't find elsewhere

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о...

Хабр