I've been working in #Pitxu these days.

- I left behind the Infinite-loop approach to a Callback-based one triggered by VAD, reducing about a 40% of the load and imilar battery life improvement.

- Added a Long Term Memory system, so that I can reduce the amount of context in use per session relaying on an external support, making it faster and cheaper.

- I've switched #Vosk for #Whisper in the Speech-To-Text step, that brings an incredible improvement on the transcription, which at its turn improves the overall user experience.

- I switched from Gemini 2.5 Flash to Gemini 3.1 Flash-Lite, which improves quality but also penalizes reaction speed.

- I delegated some background work into a new Support process that takes it out from the main (user experience) thread.

- I corrected numerous visualization bugs that improves the user-Pitxu interaction.

All in all, I just had a long conversation with Pitxu, and has been by far the best demo I ever had in year and a half.

This is a self-tap-on-the-shoulder post, thank you for your attention 🙂

Веселимся со Spring: pet-проект по распознаванию речи

Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Погнали веселиться

https://habr.com/ru/articles/1033338/

#Java #Spring_Framework #Vosk #speech_recognition #распознавание_речи #REST_API #WAV #Java_Sound_API #pet_project #веселье

Веселимся со Spring: pet-проект по распознаванию речи

Привет Хабр ! Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи. Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно...

Хабр
@kuketzblog Ich empfehle Vosk 🗣️✅ — Offline-Spracherkennung, die zuverlässig auf dem Raspberry Pi 🥧 läuft. Einfache Installation & Python-Integration 🐍🔧. Ressourcenschonend, leicht und datenschutzfreundlich 🔒⚡. Perfekt für lokale Sprachassistenten—so behältst du die Kontrolle über deine Daten.
https://alphacephei.com/vosk/
#Vosk #RaspberryPi #OfflineASR #Python #OpenSource #Datenschutz #EdgeAI
VOSK Offline Speech Recognition API

Accurate speech recognition for Android, iOS, Raspberry Pi and servers with Python, Java, C#, Swift and Node.

VOSK Offline Speech Recognition API

Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и получить транскрипт — задача на пару дней. На практике именно этот слой занял непропорционально много времени относительно своей "очевидности". В этой статье разберу, как устроена транскрипция в Jitsi Meet под капотом, почему это не "просто включить кнопку", с какими конфигурационными нюансами пришлось столкнуться и как в итоге был выстроен пайплайн от видеозвонка до структурированного текста.

https://habr.com/ru/articles/1021992/

#jitsi_meet #jigasi #sip #xmpp #vosk #transcription #emr #fhir #llm #spring_boot

Как устроена транскрипция в Jitsi Meet: Jigasi, SIP и путь до EMR

Когда мы проектировали пайплайн автоматического заполнения EMR по итогам видеоконсультаций, исходная гипотеза была простой: Jitsi Meet — open source, документация есть, значит, подключить бота и...

Хабр

Speech input is one of the missing features in #Phosh's stevia. I had looked at several possible solutions but didn't want to pull in a ton more dependencies into stevia itself.

While looking for something completely different I stumbled onto #vosk-server which runs fully locally but can be talked to via websocket and so I could punch that into the prototype I had already alying around (video has audio):

#LinuxMobile

I'm trying to set up voice control for Home Assistant.... in Esperanto! There's only, as far as I know, one local option for an Esperanto STT model able to run on a Raspberry Pi: vosk. And let me tell you, the set up (especially with dockerized home assistant) is, uh, a labor of love, let's say.
Mi sukcesos !
#homeAssistant #esperanto #vosk #stt #docker #languages

Trying the speech to text engine (vosk) in Kdenlive to add subtitles to some videos I'm working on..

It is mostly right, but sometimes...

#vosk #kdenlive

Oni povas uzi #Vosk por #Esperanto? 🤯 😮
My #whisper plugin dev is stalled for now (blame the #AI CEOs). I'm looking into lighter alts for the CPU due to the RAM crisis—like #Vosk. On a positive note, #CUDA now runs on #Radeon via #ZLUDA, which means it might also work with a few tweaks. I just need to get my hands on a GPU for testing. 🐾

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

https://habr.com/ru/articles/1002260/

#speechtotext #gigaam #whisper #vosk #onnx #распознавание_речи #WER #голосовой_ввод #ASR #python

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца...

Хабр