Голосовой КПТ-дневник с распознаванием речи на устройстве: Flutter и on-device Whisper

Эта статья про то, как я сделал голосовой дневник мыслей для когнитивно-поведенческой терапии, почему распознавание речи у меня крутится прямо на телефоне, и какие на этом пути были технические развилки. Кода почти не будет, будет архитектура и обоснование решений. Я сам прошёл через тревожные расстройства, панические атаки и несколько депрессивных периодов. Из всего, что мне помогало, переломной стала КПТ, и у неё есть домашняя часть, дневник мыслей, который нужно вести между сессиями. Вести его текстом в момент тревоги у меня не получалось годами, и в какой-то момент я понял, что хочу диктовать его голосом. Так появился проект, который я тут и разбираю.

https://habr.com/ru/articles/1043432/

#Flutter #Whisper #whispercpp #ondevice #распознавание_речи #Dart #КПТ #мобильная_разработка

Голосовой КПТ-дневник с распознаванием речи на устройстве: Flutter и on-device Whisper

Я не пишу код каждый день уже много лет, последний продакшен на PHP отгрузил году в 2009. Но за последние годы инструменты дошли до состояния, когда сольный pet‑проект...

Хабр

Видео → текст → саммари. Ставим транскрибацию на Mac

Транскрибируем любое видео локально, прямо на Mac. Бесплатно, приватно, с качеством на уровне платных сервисов. Полный гайд: настройка, скрипт и промпт для саммари

https://habr.com/ru/articles/1040998/

#whispercpp #транскрибация #macOS #распознавание_речи #локальный_ИИ #видео_в_текст #subtitles #voice_activity_detection

Видео → текст → саммари. Ставим транскрибацию на Mac

Лекция, доклад, интервью, запись созвона — из всего этого часто нужно вытащить текст. Сервисов для этого много, но они либо платные, либо льют ваше видео непонятно куда...

Хабр

⬆️ Flowvox update : Symfony devient une plateforme d’agents vocaux temps réel

♻️ J’ai repris un ancien POC Symfony de transcription vocale construit autour de Whisper.cpp. Et il est devenu une plateforme de workers vocaux temps réel.

J’ai publié :
🔹 une vidéo de démonstration
🔹 un article détaillé
🔹 les slides de présentation
🔹 le code source

#Symfony #PHP #AI #OpenAI #RealtimeAPI #VoiceAI #SymfonyUX #DDD #Messenger #Mercure #Hotwire #iOS #WhisperCPP

Have the practice of bookmarking content for future processing and currently working on a script that uses various services to hijack endpoints via #curl. The content is hosted on #Instagram as reels.

One service downloads the reel while the other transcribes it.

Now that the transcription service has a daily limit, I am wondering which approach I will take to overcome this obstacle.

Either one can #SOCKS5 through curl onto the #Tor network to create a new connection after hitting the daily limit again.

Or one can #whisperCpp over the downloaded reel.

Whisper.cpp đã ra bản prototype dùng được: chuyển âm thanh sang văn bản locally (CPU/GPU), căn chỉnh từ‑từng‑từ đa ngôn ngữ, công cụ chỉnh sửa thủ công, giao diện editor mượt mà, xuất subtitle. Hoạt động offline, không phụ thuộc cloud, và dự định giữ miễn phí. Cần ý kiến về tính năng & giấy phép. #WhisperCPP #AI #Transcription #OpenSource #Vietnam #CôngCụ #FreeSoftware #TruyềnÂmThanh #AIđịaphương

https://www.reddit.com/r/LocalLLaMA/comments/1qkjrrc/whispercpp_update_answering_common_questions/

Tôi đang phát triển app chuyển giọng nói thành văn bản dùng whisper.cpp + WAV2VEC2 cho đồng bộ thời gian cực chính xác (±10‑20 ms). Ứng dụng chạy locally trên CPU/GPU, xuất SRT, VTT, JSON, hỗ trợ đa ngôn ngữ. Cloud Groq chỉ ổn cho tiếng Anh, đa ngôn ngữ giảm độ chính xác. Bạn thích tốc độ nhanh (tiếng Anh) hay độ chính xác đa ngôn ngữ chậm hơn? Cần ý kiến! #AI #MachineLearning #Transcription #whispercpp #CôngNghệ #NhậnDạngGiọngNói #Vietnam

https://www.reddit.com/r/LocalLLaMA/comments/1q8m9lq/bu

Tìm kiếm triển khai Whisper từ đầu. Người dùng cố gắng triển khai Whisper trên thiết bị cạnh Orangepi AI Pro 20T nhưng thất bại. #Whisper #TriểnKhảiTừĐầu #Orangepi #AscendNPU #AI #MachineLearning #ỨngDụngWhisper #WhisperCPP

https://www.reddit.com/r/LocalLLaMA/comments/1ol66k5/whisper_implementation_from_scratch/

Does anybody know of a better #speechToText alternative to this?

This feels like a terrible hack that keeps breaking. I decided to look for alternatives after I saw them using /dev/shm to store ML models.

QuantiusBenignus/BlahST
https://github.com/QuantiusBenignus/BlahST

SpeechNote (aka dsnote) does not qualify since it doesn't integrate with the clipboard.

#STT #WhisperCPP

GitHub - QuantiusBenignus/BlahST: Input text from speech in any Linux window, the lean, fast and accurate way, using whisper.cpp OFFLINE. Speak with local LLMs via llama.cpp.

Input text from speech in any Linux window, the lean, fast and accurate way, using whisper.cpp OFFLINE. Speak with local LLMs via llama.cpp. - QuantiusBenignus/BlahST

GitHub

🚀 #Whisperphp Makes Speech Recognition Accessible in #PHP

🔧 New #PHP binding for #Whispercpp brings powerful #AI speech recognition capabilities:
• Supports #Linux (x86_64/arm64) and #macOS platforms with both high and low-level APIs for maximum flexibility

https://github.com/CodeWithKyrian/whisper.php

GitHub - CodeWithKyrian/whisper.php: Local Speech to Text in PHP made easy thanks to Whisper.cpp and OpenAI

Local Speech to Text in PHP made easy thanks to Whisper.cpp and OpenAI - CodeWithKyrian/whisper.php

GitHub

@itsfoss Well, it's probably better to have #WhisperCpp integrated in #Shotcut than to wait until audio exports just to put it through AI externally again.

#Whisper