Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о...

Хабр

Also the code-switching between talking to Americans and talking to New Zealanders. But trying not to talk so Kiwi that I come across as putting on an act. When in fact I just pick up new words and new dialects fast and somewhat unconsciously.

(As an immigrant whose been in Aotearoa for nearly two decades)

Just a few things I think about when I try to communicate with other humans.

#Linguistics #CodeSwitching

בת5: *מסתכלת על בטריות קטנות*
בת5: אבא, מה זה for?

#הורות #דולשוני #עברית #אנגלית
#parenting #codeSwitching #English #Hebrew

Exzessives #CodeSwitching:

👦Iiiiima! Kann ich mich mit [Freundesname] verabreden! Er hat seinen neuen GamingPC.

👩Mashallah! hat er nicht letztes Jahr einen neuen bekommen? Wieviele PCs brauch man denn so mit 15?

👦Now that you mention it, darüber wollte ich noch mit Euch reden. Er will seinen alten verkaufen. asking price is only 500 Euros. That‘s practically a steal.

👨Verabreden, ken! Aber neuer PC: I don‘t think that’s in your near future!

👩Yalla, Schatzis! Wir müssen! On-y va!

Newsom's Statements to Black Audience Spark Scrutiny

Governor Gavin Newsom's remarks about his SAT score to a Black audience in Georgia spark debate over "code-switching" and sincerity. See what happened.

#GavinNewsom, #CodeSwitching, #PoliticalAuthenticity, #GeorgiaPolitics, #SATscores

https://newsletter.tf/gavin-newsom-georgia-sat-score-comments-authenticity/

Governor Newsom's recent comments in Georgia about his SAT score are being called "code-switching" by critics. This is similar to past debates about his accent.

#GavinNewsom, #CodeSwitching, #PoliticalAuthenticity, #GeorgiaPolitics, #SATscores

https://newsletter.tf/gavin-newsom-georgia-sat-score-comments-authenticity/

Gavin Newsom's Georgia SAT score comments face questions about authenticity

Governor Gavin Newsom's remarks about his SAT score to a Black audience in Georgia spark debate over "code-switching" and sincerity. See what happened.

V. A. Young (2009) argued against #codeswitching for non-White #US #students (i.e., learning #academic #language and using that in #school rather than their home variety) and for "code meshing" (i.e., blending both varieties in formal contexts), but his own article contained nothing that I would consider non-standard for academic writing other than contractions (e.g., "don't") that are perfectly typical even in the Associated Press.

#sociolinguistics #race #education #English

בת5 אוכלת אננס
אני: טעים?
בת5: זה לא טעים, זה really really טעים!

#הורות #דולשוני #עברית #אנגלית
#parenting #codeswitching #English #Hebrew

Sharing because there's baso kelate but as a comment said, this is only half the story, wait till the borneans come in: https://youtu.be/Z0ci9EQgM4o

#tootSEA #Malaysia #linguistics #codeswitching (not unique but this is our mix)