AshutoshShrivastava (@ai_for_success)

Grok이 새로운 독립형 오디오 API 2종(Grok Speech to Text, Grok Text to Speech)을 공개했다. Grok Voice, Tesla 차량, Starlink 고객지원과 동일한 스택을 기반으로 하며, 빠르고 성능이 좋다고 언급된다. 음성 입출력용 개발 도구로 활용될 수 있는 중요한 업데이트다.

https://x.com/ai_for_success/status/2045520849055420603

#grok #audioapi #speechtotext #texttospeech #xai

AshutoshShrivastava (@ai_for_success) on X

Grok has dropped new standalone audio APIs: Grok Speech to Text (STT) and Grok Text to Speech (TTS). They are built on the same stack that powers Grok Voice, Tesla vehicles, and Starlink customer support. It is really good and fast. I vibe coded an application so you can try and

X (formerly Twitter)

🎙️ Wispr v1.9.0 is out!

You asked for it: Wispr now has a post-transcription correction step. A local LLM cleans up your text, removing hesitations, duplicates, and errors automatically.

Privacy first as always: no data leaves your Mac. It uses Apple Intelligence and local models. Opt-in, just enable it in Settings.

Free, open-source, and private by design.

https://wispr.stormacq.com/

#Wispr #SpeechToText #macOS #Privacy #AppleIntelligence

Github Awesome (@GithubAwesome)

Apple Silicon에서 동작하는 로컬 음성 인식 앱 Ghost Pepper가 소개됐다. Control 키를 누른 채 말하면 바로 텍스트로 입력되며, 클라우드 API 없이 오디오가 기기 밖으로 나가지 않아 프라이버시와 지연 측면에서 장점이 있다. 불필요한 추임새 제거 기능이 큰 반응을 얻었다.

https://x.com/GithubAwesome/status/2041677666894365064

#speechtotext #applesilicon #localai #privacy #productivity

Github Awesome (@GithubAwesome) on X

Hold Control, say what you want, let go. It types it for you. Ghost Pepper is a local hold-to-talk speech-to-text app for Apple Silicon. No cloud APIs, no audio leaving your machine, zero latency waiting on a server. The filler word cleanup is what made it blow up on Hacker News.

X (formerly Twitter)

"Vielen Dank, dass ich bescheuert habe."

#SpeechToText #TranskriptFreuden

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

https://habr.com/ru/articles/1020632/

#stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных,...

Хабр

100% local hold-to-talk speech-to-text for #macOS.

Hold Control to record, release to transcribe and paste. No cloud APIs, no data leaves your machine.

#Swift #SpeechToText #opensource #webdev

https://github.com/matthartman/ghost-pepper

GitHub - matthartman/ghost-pepper: Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste.

Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste. - matthartman/ghost-pepper

GitHub
GitHub - matthartman/ghost-pepper: Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste.

Hold-to-talk speech-to-text for macOS. 100% local, powered by WhisperKit and local LLM cleanup. Hold Control to record, release to transcribe and paste. - matthartman/ghost-pepper

GitHub

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня. Знакомо? Мне - до зубного скрежета. Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог. И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord. Пошёл искать. И тут началось.

https://habr.com/ru/articles/1019458/

#realtime_communications #translations #speechtotext #texttospeech #deepgram #groq #elixir #rust #open_source #voice_ai

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышло AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM...

Хабр

Artificial Analysis (@ArtificialAnlys)

Microsoft가 음성 전사 모델 MAI-Transcribe-1을 공개했다. AA-WER 3.0%로 #4 성능을 기록했고, 69배 실시간 속도로 동작한다. Microsoft AI(MAI) Superintelligence 팀이 개발했으며 영어, 프랑스어, 아랍어, 일본어 등 25개 언어를 지원한다.

https://x.com/ArtificialAnlys/status/2039862705096659050

#microsoft #speechtotext #transcription #ai #multilingual

Artificial Analysis (@ArtificialAnlys) on X

Microsoft has released MAI-Transcribe-1: a speech transcription model achieving 3.0% on AA-WER (#4), and is fast at 69x real-time The model was developed by Microsoft AI (MAI)’s Superintelligence team and supports 25 languages including English, French, Arabic, Japanese, and

X (formerly Twitter)

Wes Roth (@WesRoth)

음성 받아쓰기 앱을 만드는 Willow가 실시간 дик테이션용 STT 모델 Atlas 1을 출시했다. 기존 Whisper 같은 범용 모델보다 받아쓰기 환경에 맞춰 설계된 독자 모델이며, 실시간 전사 품질 개선을 목표로 한다.

https://x.com/WesRoth/status/2039538310637601274

#stt #speechtotext #voiceai #dictation #model

Wes Roth (@WesRoth) on X

Willow, the startup behind the popular AI-powered voice dictation app, launched Atlas 1, a proprietary speech-to-text (STT) model designed specifically for real-time dictation. While legacy models (like OpenAI's Whisper) typically score a 5-7% WER on clean audio and plummet to

X (formerly Twitter)