Mastodawn

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о...

Хабр

Linux Easy 2d ago

Scrivere senza tastiera su Linux è possibile 🎙️ Scopri Speed of Sound e il riconoscimento vocale offline #Linux #OpenSource #Whisper #SpeechToText #Software

https://www.linuxeasy.org/speed-of-sound-porta-la-dettatura-vocale-su-linux/?utm_source=mastodon&utm_medium=jetpack_social

The whale 3d ago

𝗠𝘂𝗿𝗺𝘂𝗿𝗲:

#speechToText #OpenSource #murmure

https://thewhale.cc/posts/murmure

A privacy-first, open-source speech-to-text application that runs entirely on your machine, powered by a neural network via NVIDIA’s Parakeet model for fast, local transcription.

regina_nyckelharpista 3d ago

Fedi folks! I'm looking for a speech to text app for my android phone or alternatively software for my Windows computer that turns voice memos into text. It needs to work offline, ideally #opensource and I'm willing to pay for it.

How would you go about this?

I'll be out in the field surveying biotopes soon and would like to record voice memos instead of scribbling illegible notes in the rain.

#fedirecommendations #voicememo #speechtotext #recommendations #fieldbotany #fieldbiology

James House-Lantto (He/Him)4d ago

https://www.omgubuntu.co.uk/2026/04/speed-of-sound-linux-voice-typing-app

"Speed of Sound" is an Open Source Linux app that allows speech-to-text in any focused window, using the cutting edge Whisper speech recognition model

#OpenSource #Linux #SpeechToText #STT #SpeedOfSound

Type with your voice on Linux using this Whisper-based app - OMG! Ubuntu

Your mouth can say things faster than your hands can type them, yet voice typing is rarely used as a primary input method on desktop (most of us think

OMG! Ubuntu

sayzard 4d ago

AshutoshShrivastava (@ai_for_success)

Grok이 새로운 독립형 오디오 API 2종(Grok Speech to Text, Grok Text to Speech)을 공개했다. Grok Voice, Tesla 차량, Starlink 고객지원과 동일한 스택을 기반으로 하며, 빠르고 성능이 좋다고 언급된다. 음성 입출력용 개발 도구로 활용될 수 있는 중요한 업데이트다.

https://x.com/ai_for_success/status/2045520849055420603

#grok #audioapi #speechtotext #texttospeech #xai

AshutoshShrivastava (@ai_for_success) on X

Grok has dropped new standalone audio APIs: Grok Speech to Text (STT) and Grok Text to Speech (TTS). They are built on the same stack that powers Grok Voice, Tesla vehicles, and Starlink customer support. It is really good and fast. I vibe coded an application so you can try and

X (formerly Twitter)

Sébastien Stormacq Apr 12

🎙️ Wispr v1.9.0 is out!

You asked for it: Wispr now has a post-transcription correction step. A local LLM cleans up your text, removing hesitations, duplicates, and errors automatically.

Privacy first as always: no data leaves your Mac. It uses Apple Intelligence and local models. Opt-in, just enable it in Settings.

Free, open-source, and private by design.

https://wispr.stormacq.com/

#Wispr #SpeechToText #macOS #Privacy #AppleIntelligence

sayzard Apr 8

Github Awesome (@GithubAwesome)

Apple Silicon에서 동작하는 로컬 음성 인식 앱 Ghost Pepper가 소개됐다. Control 키를 누른 채 말하면 바로 텍스트로 입력되며, 클라우드 API 없이 오디오가 기기 밖으로 나가지 않아 프라이버시와 지연 측면에서 장점이 있다. 불필요한 추임새 제거 기능이 큰 반응을 얻었다.

https://x.com/GithubAwesome/status/2041677666894365064

#speechtotext #applesilicon #localai #privacy #productivity

Github Awesome (@GithubAwesome) on X

Hold Control, say what you want, let go. It types it for you. Ghost Pepper is a local hold-to-talk speech-to-text app for Apple Silicon. No cloud APIs, no audio leaving your machine, zero latency waiting on a server. The filler word cleanup is what made it blow up on Hacker News.

X (formerly Twitter)

Iris Volk Apr 8

"Vielen Dank, dass ich bescheuert habe."

#SpeechToText #TranskriptFreuden

Habr Apr 8

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж - везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM “клиент интересовался” - и 80% информации из разговора потерялось.

https://habr.com/ru/articles/1020632/

#stt #speechtotext #llm #NLP #whisper #pyannote #диаризация #python #prompt_engineering

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных,...

Хабр