Tìm công cụ **chuyển giọng nói sang chữ** mã nguồn mở?
Whisper (OpenAI) là lựa chọn hàng đầu cho độ chính xác cao với hỗ trợ mô hình lớn (phù hợp VRAM 32GB). Ngoài ra, các công cụ như Kaldi, DeepSpeech (Mozilla), và NVIDIA NeMo cũng đáng cân nhắc tùy nhu cầu. #KỹThuật #AI #PhátTriểnMở #Speech2Text #CôngNghệVN

https://www.reddit.com/r/opensource/comments/1pqis1r/any_good_open_source_speech_to_text_tools/

Add #speech2text to your #omarchy (#arch #linux) 🎙️ 🤖 😊

Since there is no WhisperFlow for Linux, I was forced to find something else. It's not perfect, but it works well enough, and it's 100% local ❤️ 🔒

https://github.com/michabbb/omarchy-speech-to-text

#ai #coding

Ich suchte ein LLM das lokal auf meinem Handy #Speech2Text machen kann und ich fand das großartige whisperIMEplus. Es klinkt sich in die Tastatur per Icon ein und lässt sich per Knopfdruck aufrufen und zeichnet sofort Audio auf, das dann an den Cursor gepastet wird. So soll das sein  

https://github.com/woheller69/whisperIMEplus

GitHub - woheller69/whisperIMEplus: Android Input Method Editor (IME) based on RTranslators Whisper implementation

Android Input Method Editor (IME) based on RTranslators Whisper implementation - GitHub - woheller69/whisperIMEplus: Android Input Method Editor (IME) based on RTranslators Whisper implementation

GitHub

Progress on my little speech2text/transcription project:

1. You press some hotkeys.
2. You speak into your microphone.
3. You wait for approx. 10 secs. (depending on your hardware)
4. Text starts to magically appear on your screen!

 

It feels like True Magic™! 🪄 ✨

This is why I love software development! ❤️

#Speech2Text #AI #Whisper #Rust #RustLang #Audio #AudioTranscription

Используем API Speech2Text для распознавания записей разговоров

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную. Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

https://habr.com/ru/articles/926918/

#Speech2Text #api

Используем API Speech2Text для распознавания записей разговоров

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы,...

Хабр
Version 4.0.0 - BAF 4.0.0

#Speech #Note#Notizen und mehr -

Bei der Recherche für einen Artikel über #Text2Speech und #Speech2Text unter #Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.

Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht.

https://linuxnews.de/speech-note-notizen-und-mehr/

Speech Note – Notizen und mehr

Speech Note ist eine Notiz-App, die zusätzlich Übersetzung und Sprachsynthese per Text2Speech und Speech2Text beherrscht.

LinuxNews.de
Ça existe les applications libres de #speech2text ? 🤔
Wenn eins ein paar Audiodateien #transkribieren wollen würde, wie würde eins das auf #Debian machen? Ich hatte mal ein Tool irgendwo gefunden, dass das in CLI konnte und dann den Text meine ich sogar mit den Sprechern ausgeworfen hat. Vielleicht hab ich das Tool sogar noch installiert.

Offline wäre super.

#Speech2Text #VoiceRecognition

New open-source speech-to-text model Moonshine “returns results faster and more efficiently than the current state of the art, OpenAI’s Whisper, while matching or exceeding its accuracy” one of its creators says. “Key improvements are an architecture that offers an overall 1.7x speed boost compared to Whisper, and a flexibly-sized input window.”

Blog post by Pete Warden: https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text/

GitHub: https://github.com/usefulsensors/moonshine
Paper: https://arxiv.org/abs/2410.15608

#GenAI #speech2text

Introducing Moonshine, the new state of the art for speech to text

Can you imagine using a keyboard where it took a key press two seconds to show up on screen? That’s the typical latency for most voice interfaces, so it’s no wonder they’ve failed…

Pete Warden's blog