Mastodawn

Pau Labarta Bajo (@paulabartabajo_)

Whisper를 서버로 띄우지 않아도, Liquid AI의 LFM2-Audio-1.5B가 llama.cpp에서 구동되며 노트북에서 실시간 오디오 전사를 지원한다고 소개합니다. 인터넷 없이 로컬 CLI로 동작해, 비용·지연·프라이버시 측면에서 AI 개발자에게 실용적인 대안입니다.

https://x.com/paulabartabajo_/status/2057635097138840034

#speechtotext #llamacpp #edgeai #audio #openweights

Pau Labarta Bajo (@paulabartabajo_) on X

Advice for AI engineers 💡 You don't need Whisper-on-a-server to transcribe audio. LFM2-Audio-1.5B by @liquidai runs in real-time with llama.cpp, on your laptop, no internet required. Working CLI ↓ https://t.co/sLuxfjewyG

X (formerly Twitter)

Habr 1d ago

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f». Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде + , π или x . Но если человек произносит длинную формулу, результат почти всегда превращается в линейную фразу, читать которую физически больно. Хочется другого: чтобы система сразу понимала, где обычный текст, где математическое выражение, и выдавала не «один делить на икс плюс два», а корректный LaTeX-код, например, \frac{1}{x+2} или \frac{1}{x}+2 , в зависимости от смысла. Эта задача называется Speech-to-LaTeX или S2L: преобразование озвученных математических выражений и предложений в формальную LaTeX-запись. В отличие от обычного speech-to-text, здесь нужно распознать не только слова, но и структуру: дроби, индексы, степени, пределы, суммы, интегралы, скобки, вложенные выражения и границы формул. Например, фраза «два делить на пи» в обычной расшифровке может остаться как «2 делить на π». Но в LaTeX она должна стать \frac{2}{\pi} . Именно такой формат нужен для статей, учебников, конспектов, Overleaf и других LaTeX-редакторов. Несмотря на прогресс в automatic speech recognition (ASR), задача прямого преобразования озвученной математики в LaTeX долго оставалась почти неразработанной. Более того, нормальных открытых датасетов с человеческими аудиозаписями для такой задачи практически не было. В нашей работе мы попытались закрыть этот пробел: собрали открытый двуязычный датасет и сравнили несколько подходов к Speech-to-LaTeX. В статье , которую мы представили на ICLR 2026, описан датасет из более чем 66 тысяч человеческих аудиозаписей и 571 тысячи синтетических аудиозаписей на английском и русском языках.

https://habr.com/ru/companies/airi/articles/1036562/

#ASR #llmмодели #latex #speechtotext #speechtolatex

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Хабр

Jan

1d ago

murmure - Fully local, private and cross platform Speech-to-Text with #LLM Post-processing:

Website:
https://www.murmure.app/

Repo:
https://github.com/Kieirra/murmure

This looks awesome!

- every operation happens locally on device
- supports 25 European languages
- uses NVIDIA's Parakeet model for transcription
- build with #Tauri and #Rust

#SpeechToText #LLMs #Privacy #RustLang

Murmure - Free Offline Speech-to-Text

Free, open-source, offline speech-to-text powered by NVIDIA Parakeet. Privacy-first, no internet required, 25 languages supported.

Murmure

sayzard May 15

Turning recorded D&D sessions into comics

이 프로젝트는 실제 D&D 세션을 녹음한 후, ElevenLabs의 아이슬란드어 음성인식으로 텍스트를 추출하고 Claude Code를 활용해 만화 스크립트로 변환하는 파이프라인을 구축했다. 각 캐릭터별 참조 이미지로 일관된 비주얼을 유지하며, 페이지별 대본 승인 절차를 통해 오류를 최소화한다. 최종적으로 GPT-image-2 모델로 각 페이지를 생성하며, DM의 내레이션과 효과음도 시각적으로 표현한다. 이 시스템은 세션 요약을 그래픽 노블 형태로 제공해 플레이어들이 쉽게 내용을 복습할 수 있도록 돕는다.

https://haffi112.github.io/2026/05/14/dnd-comics/

#speechtotext #comicgeneration #ttrpg #llm #multimodal

Turning recorded D&D sessions into comics · Hafsteinn Einarsson

A small pipeline that records a session on a Zoom H1 Essential, transcribes the Icelandic audio with ElevenLabs, and renders each session as a graphic novel with gpt-image-2 and a set of reference images that keep the cast looking consistent across pages.

Hafsteinn Einarsson

sayzard May 14

Hush – local push-to-talk dictation for macOS, no cloud, pastes at cursor

Hush는 macOS용 로컬 푸시투토크 음성 인식 도구로, OpenAI Whisper 모델을 활용해 클라우드 없이 음성을 텍스트로 변환하고 커서 위치에 바로 붙여넣습니다. 기본 단축키는 fn 키이며, 마이크와 접근성 권한만 필요해 개인정보 보호에 유리합니다. Homebrew를 통한 설치와 소스 빌드가 가능하며, Apple Silicon에서 Metal 가속을 활용해 빠른 처리 속도를 제공합니다. 개발자는 TCC 권한 관리, 단축키 커스터마이징, 모델 교체 등 세부 설정도 조정할 수 있습니다.

https://github.com/djmunro/hush

#macos #speechtotext #whisper #localllm #privacy

GitHub - djmunro/hush: Hold fn, talk, release. Local Whisper dictation for macOS — no cloud, no always-on mic. Pastes at your cursor.

Hold fn, talk, release. Local Whisper dictation for macOS — no cloud, no always-on mic. Pastes at your cursor. - djmunro/hush

GitHub

MXC48

May 11

Ok, est ce que je viens d'être bluffé par la saisie vocal de #Outspoke ?

Modèle hors ligne, application open-source, support du français et autres langues européennes, intégration avec le clavier, nettoyage des "hum, heu..."

Je continu ?
C'est la bonne découverte ! https://apt.izzysoft.de/fdroid/index/apk/dev.brgr.outspoke
#stt #opensource #keyboard #speechtotext

„Outspoke“ – IzzyOnDroid F-Droid Repository

On-device speech-to-text keyboard powered by Parakeet - no cloud, no tracking.

IzzyOnDroid Repo Browser

sayzard May 9

Show HN: Dikaletus – meeting recording and transcription using Mistral AI

Dikaletus는 Mistral AI의 음성 인식 API를 활용해 회의 내용을 녹음하고 자동으로 텍스트로 전사하며, 구조화된 마크다운 형식의 회의록을 생성하는 TUI 도구입니다. FFmpeg와 PulseAudio를 사용해 마이크와 스피커 출력 모두에서 오디오를 캡처하며, R 언어로 작성되어 개발자가 익숙한 환경에서 구현되었습니다. 회의록 작성 자동화에 관심 있는 AI 개발자에게 실무 적용 가능성이 높은 도구입니다.

https://codeberg.org/MimosaDev/dikaletus

#mistral #speechtotext #meetingnotes #transcription #rlanguage

dikaletus

A meeting agent script to record, transcribe, and summarise meetings using FFmpeg, PulseAudio and the Mistral AI API.

Codeberg.org

sayzard May 9

Lincoln (@Presidentlin)

음성 입력 파일을 대상으로 하는 Speech-to-Text와 Text-to-Speech 사용 사례를 언급하며, 입력 형식이 mp3, mp4, mpeg, mpga, m4a, wav, webm 같은 파일 기반이어야 한다는 점을 설명한다. 파일 단위 음성 처리 기능에 대한 언급이다.

https://x.com/Presidentlin/status/2052995122040561951

#speechtotext #texttospeech #audio #voiceai #multimodal

Lincoln 🇿🇦 (@Presidentlin) on X

@daniel_mac8 More like Speech to text and Text to speech where the primary Where the input file is mp3, mp4, mpeg, mpga, m4a, wav, and webm And not a continuous stream but a file. https://t.co/Ug2i4RJqhQ

X (formerly Twitter)

sayzard May 8

Show HN: NPM Package that fills forms via voice using Gemini Live API

audio-forms는 Gemini Live API를 활용해 React 애플리케이션에서 음성으로 폼을 자동 작성할 수 있는 오픈소스 컴포넌트입니다. 사용자는 마이크 버튼을 눌러 자연어로 입력하면, 서버가 음성 데이터를 받아 Gemini API로 전달해 필드를 실시간으로 채워줍니다. API 키는 서버에만 저장되어 보안성이 높고, 이름·이메일 등 민감한 필드는 모델이 철자 확인 후 입력하는 더블체크 모드도 지원합니다. React 앱에 쉽게 통합 가능하며, 복잡한 입력에 대응하는 사고 수준 조절 기능도 제공합니다.

https://www.npmjs.com/package/audio-forms

#react #voiceinput #geminiapi #formfilling #speechtotext

audio-forms

Fill forms with voice using Gemini Live API. Latest version: 0.1.0, last published: 6 minutes ago. Start using audio-forms in your project by running `npm i audio-forms`. There are no other projects in the npm registry using audio-forms.

npm

sayzard May 8

OpenAI Developers (@OpenAIDevs)

음성 에이전트 기능이 크게 향상됐다. GPT-Realtime-2는 추론과 행동 수행이 가능한 음성 에이전트를 지원하고, GPT-Realtime-Translate는 70개 입력 언어를 13개 출력 언어로 번역한다. GPT-Realtime-Whisper는 더 빠른 전사를 제공해 음성 AI 개발에 중요한 업데이트로 보인다.

https://x.com/OpenAIDevs/status/2052440907933474954

#voiceagents #openai #gptrealtime #translation #speechtotext

OpenAI Developers (@OpenAIDevs) on X

Voice agents are getting more capable. Here’s what’s new: • GPT-Realtime-2 for voice agents that reason and take action • GPT-Realtime-Translate enabling translation from 70 input languages into 13 output languages • GPT-Realtime-Whisper, making transcription even faster

X (formerly Twitter)