AssemblyAI (@AssemblyAI)

스트리밍 화자 분리(diarization)에 대한 대규모 업그레이드가 출시됐다. 2화자 전화 환경에서 cpWER가 경쟁사 대비 2배 개선됐고, 4화자 회의 환경에서도 cpWER가 13% 향상돼 실사용 성능에서 경쟁 우위를 강조한다.

https://x.com/AssemblyAI/status/2051329814922190940

#diarization #speechai #streaming #speechrecognition #audiomodels

AssemblyAI (@AssemblyAI) on X

Today we're shipping a major upgrade to streaming diarization, and it pulls us decisively ahead of the competition on the metrics that matter in production. Head-to-head vs. the competition: 🎯 2x better cpWER on 2-speaker telephony 📊 13% better cpWER on 4-speaker meetings

X (formerly Twitter)

Simon Willison (@simonw)

Microsoft의 MIT 라이선스 음성 인식 모델 VibeVoice를 소개하며, Whisper처럼 동작하되 화자 분리 기능이 포함된다고 설명한다. 5.71GB 4bit MLX 변환본을 M5 MacBook에서 실행한 후기와 함께, 약 60GB RAM 사용, 1시간 오디오를 약 9분 만에 전사했다는 성능 정보를 공유한다.

https://x.com/simonw/status/2048912086307377252

#microsoft #speechtotext #whisper #diarization #mlx

Simon Willison (@simonw) on X

Microsoft's MIT licensed VibeVoice speech-to-text model (think Whisper with speaker diarization) is really good - my notes on running the 5.71GB 4bit MLX conversion on an M5 MacBook, using about 60GB of RAM at peak and transcribing 1hr of audio in ~9 mins https://t.co/lyu5rtXwPQ

X (formerly Twitter)

Victor M (@victormustar)

Voxtral-Subtitles라는 앱이 Hugging Face Spaces에 공개되어 비디오를 단어 단위 자막으로 전사하고 화자 분리(speaker diarization)와 다국어 번역 기능을 제공한다는 소개. 개발자들이 Spaces에서 바로 시도해볼 수 있는 자막·음성-텍스트 변환 툴임.

https://x.com/victormustar/status/2020776196343238656

#voxtral #subtitles #huggingface #speechtotext #diarization

Victor M (@victormustar) on X

Great app: Voxtral-Subtitles to transcribe any video with word-level subtitles, speaker diarization & multilingual translation. ⬇️ Try in now on Hugging Face Spaces

X (formerly Twitter)

Speakr v0.8.0: Ứng dụng transcription self-hosted, giờ có thêm:
- Tùy chọn diarization (phân biệt người nói) không cần GPU (dùng OpenAI).
- REST API v1 để tự động hóa (dùng với n8n, Zapier,...).
- Kiến trúc connector đơn giản hơn.
- Cải thiện UI, trình phát audio.

#LocalLLaMA #Speakr #Transcription #Diarization #AI #CôngNghệ #TựĐộngHóa

https://www.reddit.com/r/LocalLLaMA/comments/1q77nr6/speakr_v080_additional_diarization_options_and/

Công cụ Transcribe (tx) miễn phí, chạy cục bộ với Whisper, hỗ trợ nhận diện giọng nói theo thời gian thực, phân biệt người nói (diarization) và thời gian chính xác. Hỗ trợ file, mic, âm thanh hệ thống và tích hợp Ollama để tóm tắt nội dung (tùy chọn). Hoạt động ngoại tuyến, đa nền tảng: Windows, macOS, Linux. Giao diện đồ họa và CLI tiện lợi tự động hóa.

#Transcribe #Whisper #Ollama #SpeechToText #Diarization #AI #LocalAI #CôngCụ #TríTuệNhânTạo #ThuyếtTrình

https://www.reddit.com/r/LocalLLaM

🚀 Whisper & Pyannote: The Ultimate Combo for Speech Transcription! 🎙️

Combining Whisper (ASR) and Pyannote (diarization) enables accurate and speaker-segmented transcriptions, even locally. 🔥

💡 Applications: meetings, podcasts, sentiment analysis, subtitles...

📖 Read the article: https://scalastic.io/whisper-pyannote-ultimate-speech-transcription/

Have you tried these tools? Share your thoughts! 👇

#AI #ASR #Whisper #Pyannote #Transcription #Diarization

Whisper et Pyannote : La Solution Ultime pour la Transcription de la Parole

Découvrez Whisper et Pyannote pour transcrire la parole. Explorez les technologies de pointe en ASR et diarisation pour des retranscriptions fidèles et rapides,même en local.

Scalastic

🚀 Whisper & Pyannote : la combinaison ultime pour la transcription vocale ! 🎙️

Associer Whisper (ASR) et Pyannote (diarisation) permet d’obtenir des transcriptions précises et segmentées par interlocuteur, même en local. 🔥

💡 Applications : réunions, podcasts, analyse des sentiments, sous-titres...

📖 Découvrez l’article : https://scalastic.io/whisper-pyannote-ultimate-speech-transcription/

Avez-vous testé ces outils ? Partagez votre avis ! 👇

#AI #ASR #Whisper #Pyannote #Transcription #Diarization

Whisper et Pyannote : La Solution Ultime pour la Transcription de la Parole

Découvrez Whisper et Pyannote pour transcrire la parole. Explorez les technologies de pointe en ASR et diarisation pour des retranscriptions fidèles et rapides,même en local.

Scalastic
#Google #OpenSources Speaker #Diarization AI Technology, Claims 92% Accuracy
http://www.tuxmachines.org/node/117814
Google Open-Sources Speaker Diarization AI Technology, Claims 92% Accuracy | Tux Machines