Тестирование алгоритмов шумоподавления для сложных акустических условиях

Распознавание речи в реальных условиях представляет собой одну из наиболее сложных задач в области обработки сигналов. Особенно актуальна эта проблема для роботов, которые должны функционировать в разнообразных зашумленных условиях: в толпе людей, на открытом воздухе при сильном ветре, в помещениях с высоким уровнем фонового шума. Традиционные алгоритмы шумоподавления, разработанные для стационарных условий, оказываются неэффективными в таких сценариях. В данной статье описывается исследовательский проект по разработке и оптимизации алгоритмов цифровой обработки сигналов для обеспечения надежного распознавания речи в экстремальных акустических условиях. В качестве тестовой платформы использована система автоматического распознавания птиц на базе BirdNET-Go, что позволило проводить длительные полевые испытания в естественных условиях с разнообразными типами шумов. Ключевой задачей проекта был подбор оптимальных алгоритмов фильтрации и их параметров для работы с нестационарным шумом. В процессе исследования были реализованы и протестированы различные подходы к шумоподавлению, включая спектральное вычитание, адаптивные фильтры и алгоритмы на основе минимальной среднеквадратичной ошибки. Особое внимание уделено алгоритму Log-MMSE (Minimum Mean-Square Error Log-Spectral Amplitude Estimator), который показал наилучшие результаты в условиях нестационарного шума. Выбор птиц в качестве тестового объекта был неслучаен: вокализация врановых (ворон, сойка, сорока, галка, грач) по своим частотным характеристикам близка к человеческой речи, что делает их идеальной моделью для отработки алгоритмов, предназначенных для роботов. Длительные полевые записи в различных погодных условиях позволили собрать обширную базу данных для анализа эффективности различных подходов к шумоподавлению. Полетели послушаем

https://habr.com/ru/articles/1006084/

#birdnet #docker #stt #microphone

Тестирование алгоритмов шумоподавления для сложных акустических условиях

Введение Распознавание речи в реальных условиях представляет собой одну из наиболее сложных задач в области обработки сигналов. Особенно актуальна эта проблема для роботов, которые должны...

Хабр
I'm trying to set up voice control for Home Assistant.... in Esperanto! There's only, as far as I know, one local option for an Esperanto STT model able to run on a Raspberry Pi: vosk. And let me tell you, the set up (especially with dockerized home assistant) is, uh, a labor of love, let's say.
Mi sukcesos !
#homeAssistant #esperanto #vosk #stt #docker #languages

AI Speech Technologies

This page is a collection of notes and links related to AI speech technologies, including Text-to-Speech (TTS), Speech-to-Text (STT), voice synthesis, voice cloning, and other rela(...)

#ai #cloning #speech #stt #synthesis #tts #voice #whisper

https://taoofmac.com/space/ai/speech?utm_content=atom&utm_source=mastodon&utm_medium=social

Massive kudos to Jorge Menjivar for his work on super-stt  for Cosmic - it works without rituals. @hidden_layerss

https://github.com/jorge-menjivar/super-stt

#cosmic #popos #linux #stt
GitHub - jorge-menjivar/super-stt: Super STT enables effortless voice-to-text in any application, using the most advanced speech models that run 100% locally.

Super STT enables effortless voice-to-text in any application, using the most advanced speech models that run 100% locally. - jorge-menjivar/super-stt

GitHub

🚀 Aura v0.27.01: The Wayland & Voice Update! 🚀

SL5 Aura now officially supports KDE Plasma 6 (Wayland)! 🖥️ We’ve bypassed Wayland’s security isolation via the AT-SPI Bus to enable context-aware window tracking.

What’s New:
✨ Wayland Ready: Window tracking on Plasma 6.3.5+.
🗣️ Voice Wake-Word: Toggle Aura hands-free.
more Exaples:
📅 Local Automation: Wannweil suite for waste reminders (PDF parsing).
📧 Smart Alerts: Gmail SMTP & enhanced espeak diagnostics.
⚡ Performance: Optimized for Python 3.14 & CachyOS.

Aura is getting smarter, faster, and Wayland-ready.

🔗 GitHub: https://github.com/sl5net/SL5-aura-service
☕ Support deutsch: https://sl5net.github.io/SL5-aura-service/docs/README/README-delang.html

#Aura #KDE #Wayland #Linux #Automation #Python #STT #Accessibility #CachyOS

GitHub - sl5net/SL5-aura-service: Your offline, privacy-first voice assistant framework. Transform speech into commands and actions with a powerful, scriptable rule engine.

Your offline, privacy-first voice assistant framework. Transform speech into commands and actions with a powerful, scriptable rule engine. - sl5net/SL5-aura-service

GitHub
Moonshine #Open-Weights #STT models: the latest marvel that promises to outshine #WhisperLargev3 with all the subtlety of a drunken elephant stumbling through a china shop. 🐘💥 Because clearly, what we need is more #buzzwords and acronyms to make our heads spin faster than a tilt-a-whirl on turbo mode. 🎢💫
https://github.com/moonshine-ai/moonshine #Moonshine #models #tech #innovation #fun #HackerNews #ngated
GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices

Fast and accurate automatic speech recognition (ASR) for edge devices - moonshine-ai/moonshine

GitHub

Moonshine Open-Weights STT models – higher accuracy than WhisperLargev3

https://github.com/moonshine-ai/moonshine

#HackerNews #Moonshine #Open-Weights #STT #models #accuracy #WhisperLargev3 #AI #models

GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices

Fast and accurate automatic speech recognition (ASR) for edge devices - moonshine-ai/moonshine

GitHub

Matthieu ❙❙ ElevenLabs (@matt_elevenlabs)

Scribe v2가 음성-텍스트 변환 분야에서 최고 성능을 기록했다고 트윗에 언급되었습니다. 해당 글은 @ArtificialAnlys의 평가를 인용해 Scribe v2를 ‘세계 최고’ 음성 인식(STT) 모델로 소개하고 있어, 음성 인식 모델 경쟁과 관련된 최신 모델 소식으로 해석됩니다.

https://x.com/matt_elevenlabs/status/2024422635900191224

#speechtotext #stt #ai #model #scribe

Matthieu ❙❙ ElevenLabs (@matt_elevenlabs) on X

Scribe v2: the best Speech to Text model in the world according to @ArtificialAnlys 🏆

X (formerly Twitter)

Artificial Analysis (@ArtificialAnlys)

STT(음성인식) 시장의 가격·성능 차이를 정리했습니다. Mistral의 Voxtral Mini는 $1/1k분에 AA-WER 3.7%, NVIDIA의 Parakeet TDT 0.6B V3(through Hathora)는 $1.32/1k분에 AA-WER 4.2%를 기록했고, ElevenLabs Scribe v2는 AA-WER 지수에서 2.3%로 선두이며 가격은 $6.67/1k분입니다. 비용 대비 성능의 차이가 큽니다.

https://x.com/ArtificialAnlys/status/2024157409586172035

#speechtotext #stt #mistral #nvidia #elevenlabs

Artificial Analysis (@ArtificialAnlys) on X

Pricing varies significantly across the STT market. Mistral's Voxtral Mini ($1/1k min, 3.7% AA-WER) and NVIDIA Parakeet TDT 0.6B V3 via Hathora ($1.32/1k min, 4.2% AA-WER) offer strong value, while ElevenLabs Scribe v2 leads the AA-WER Index at 2.3% for $6.67 per 1,000 minutes.

X (formerly Twitter)
@xavi Your Pitxu project sounds incredible! 🤖 STT → Chatbot → TTS pipeline on RPi Zero 2 is impressive engineering. For your STT challenges, you might find Genie 007 interesting - it's voice-to-action rather than just voice-to-text, works in browser with 140+ languages. The hardware UX focus resonates - good voice interfaces need great physical interaction design! #VoiceAI #RPi #STT