Mastodawn

Dictator is live on the iOS App Store!

Dictator is now available for those who want to try out talking instead of typing without needing to pay. Essentially the likes of wisprflow but for free!

https://apps.apple.com/gb/app/dictator-voice-typing/id6772823676

#speechtotext #dictation #iphone

Dictator – Voice Typing App - App Store

Download Dictator – Voice Typing by Rob Gough on the App Store. See screenshots, ratings and reviews, user tips and more games like Dictator – Voice Typing.

App Store

Habr May 25

Как я решил проблему русской диктовки для ИИ

По мере погружения в ИИ и вайб‑кодинг, я столкнулся с одним неудобным моментом — отсутствием возможности диктовать на русском языке в некоторых программах. И если OpenAI в своем приложении позаботились об этом, то в Anthropic такой возможности на тот момент просто не оказалось. А мне уже так понравилось, откинувшись на спинку кресла с чашкой чая, надиктовывать промпты без клавиатуры. Но я быстро нашел выход, хоть и костыльный — просто диктовать свой текст в окошке GPT, потом копировать его и вставлять в Claude. Вроде несложно, но и удобным этот метод я бы не назвал. И я задумался, как этот процесс оптимизировать. И какая же идея могла прийти в голову в 3 часа ночи человеку, который полжизни занимается программированием? Ну конечно же — разработать свое приложение. Посоветовавшись с Claude и GPT, я набросал небольшой план и приступил к разработке. Поскольку я работаю на macOS, то для начала не стал заморачиваться с мультиплатформенностью и решил делать все на Swift.

https://habr.com/ru/articles/1039248/

#AI #OpenAI #Claude #Whisper #speechtotext #диктовка #voice_input #Apple_Silicon

Как я решил проблему русской диктовки для ИИ

Проблема По мере погружения в ИИ и вайб‑кодинг, я столкнулся с одним неудобным моментом — отсутствием возможности диктовать на русском языке в некоторых программах. И...

Хабр

DerBrumme May 25

Schwerpunkt 1
Lokales Speech to Text in Linux Mint einrichten: Auf Knopfdruck (beliebiger Shortkey) das Diktat starten & beenden, in jeder beliebigen Anwendung. Keine Cloud, kein mithörender Datenkrake, nur 4-6 GB im RAM.

Schwerpunkt 2
Wie mir KI (GPT) geholfen hat, das alles hinzubekommen, inkl. kompletter Projektdokumentation.

https://blog.derbrumme.de/lokales-speech-to-text-in-linux-mint-einrichten/

#Linux #OpenSource #SpeechToText #STT #Vosk #Privacy #SelfHosting #KI #AI #NerdDictation

Habr May 22

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f». Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде + , π или x . Но если человек произносит длинную формулу, результат почти всегда превращается в линейную фразу, читать которую физически больно. Хочется другого: чтобы система сразу понимала, где обычный текст, где математическое выражение, и выдавала не «один делить на икс плюс два», а корректный LaTeX-код, например, \frac{1}{x+2} или \frac{1}{x}+2 , в зависимости от смысла. Эта задача называется Speech-to-LaTeX или S2L: преобразование озвученных математических выражений и предложений в формальную LaTeX-запись. В отличие от обычного speech-to-text, здесь нужно распознать не только слова, но и структуру: дроби, индексы, степени, пределы, суммы, интегралы, скобки, вложенные выражения и границы формул. Например, фраза «два делить на пи» в обычной расшифровке может остаться как «2 делить на π». Но в LaTeX она должна стать \frac{2}{\pi} . Именно такой формат нужен для статей, учебников, конспектов, Overleaf и других LaTeX-редакторов. Несмотря на прогресс в automatic speech recognition (ASR), задача прямого преобразования озвученной математики в LaTeX долго оставалась почти неразработанной. Более того, нормальных открытых датасетов с человеческими аудиозаписями для такой задачи практически не было. В нашей работе мы попытались закрыть этот пробел: собрали открытый двуязычный датасет и сравнили несколько подходов к Speech-to-LaTeX. В статье , которую мы представили на ICLR 2026, описан датасет из более чем 66 тысяч человеческих аудиозаписей и 571 тысячи синтетических аудиозаписей на английском и русском языках.

https://habr.com/ru/companies/airi/articles/1036562/

#ASR #llmмодели #latex #speechtotext #speechtolatex

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Хабр

Jan

May 21

murmure - Fully local, private and cross platform Speech-to-Text with #LLM Post-processing:

Website:
https://www.murmure.app/

Repo:
https://github.com/Kieirra/murmure

This looks awesome!

- every operation happens locally on device
- supports 25 European languages
- uses NVIDIA's Parakeet model for transcription
- build with #Tauri and #Rust

#SpeechToText #LLMs #Privacy #RustLang

Murmure - Free Offline Speech-to-Text

Free, open-source, offline speech-to-text powered by NVIDIA Parakeet. Privacy-first, no internet required, 25 languages supported.

Murmure

MXC48

May 11

Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

Je continu ?
C'est la bonne découverte ! https://apt.izzysoft.de/fdroid/index/apk/dev.brgr.outspoke
#stt #opensource #keyboard #speechtotext

„Outspoke“ – IzzyOnDroid F-Droid Repository

On-device speech-to-text keyboard powered by Parakeet - no cloud, no tracking.

IzzyOnDroid Repo Browser

Techino Apr 28

🔓 OPEN SOURCE

VibeVoice just went live — Microsoft's MIT-licensed speech-to-text model with built-in speaker diarization. Open-weight, no API calls, your audio never leaves your infra.

If you're building call analytics, meeting tools, or any transcription pipeline, this cuts your operational costs significantly.

github.com/microsoft/VibeVoice

#OpenSource #DevTools #AI #SpeechToText #AIAgents

Show thread

adrienandrem Apr 25

@yv_pic @gaunardemmanuel @brigit_komit Chez-moi c'est bloqué par les dispositifs de protection de la vie privée…
Personnellement si cela pouvait tourner sans navigateur j'aimerais beaucoup.
#speechToText #dictée #reconnaissanceDeLaParole

Habr Apr 22

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о поддержке русского. Подключил по очереди к тестовому звонку в Телемосте (сомневаюсь, что платформа имела роль, но все же), прогнал одну и ту же запись: Senior Python backend разработчик, 45 минут, стек FastAPI + PostgreSQL + Kafka + Kubernetes. Обычный русский спикер, если важно - из Москвы, с речью проблем не было, нормальный микрофон Все три выдали транскрипт и все три провалились, как неожиданно.. "Кафка" в половине случаев становилась "как-то" или "кофта". "Кубернетис" превращался в "губер нет тест". "Сабскрайбер патерн" - в "саб скрайп патерн". "Middleware для CSRF" - "мидл-вер для си эс эр эф" - это еще норм Проблема не в том, что человек говорил по-русски, и не в том, что Whisper не умеет русский (сноска: хорошо не умеет). Whisper умеет русский нормально, около 9.8% WER на Common Voice. Проблема в другом: русскоязычный айтишник не говорит ни на чистом русском, ни на чистом английском. Он говорит на гибриде: русская грамматика плюс английские термины плюс своеобразное произношение этих терминов плюс местами свой жаргон вроде "гошечки" и "крудошлёпа" Этот гибрид ни один из популярных STT не держит. Потому что его в тренировочных данных почти нет Разбираю ниже, как устроена эта проблема, что с ней делают конкуренты (почти ничего), и что сделали мы

https://habr.com/ru/articles/1026778/

#Whisper #STT #speechtotext #finetuning #LoRA #ASR #NLP #распознавание_речи #русский_язык #codeswitching

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента В январе я купил подписки на Cluely, Final Round AI и Sensei. Хотел посмотреть как они справляются с русским айти-собесами, раз уж все три заявляют о...

Хабр

Linux Easy Apr 21

Scrivere senza tastiera su Linux è possibile 🎙️ Scopri Speed of Sound e il riconoscimento vocale offline #Linux #OpenSource #Whisper #SpeechToText #Software

https://www.linuxeasy.org/speed-of-sound-porta-la-dettatura-vocale-su-linux/?utm_source=mastodon&utm_medium=jetpack_social