Ostatnio bawię się z lokalnym Speech to Text na linux z https://handy.computer/ .

Testuje sobie z nowym modelem od https://github.com/moonshine-ai/moonshine i działa to baaaardzo dobrze po angielsku. W sumie to perfekcyjnie - zero, problemów, może z moim akcentem, który przy okazji trenuje.

Za to język polski... Masakra. Model "Parakeet v3" jest taki se dla polskiego, reszta jeszcze gorsza. Szukam jeszcze jakichś modeli na huginnface, ale tak sobie na razie.

Zacząłem przeglądać jakby tu wytrenować model specjalnie do polskiego dla moonshine. Niedawno był dodany Ukraiński - czyli da się, tylko potrzeba na to pracy i zasobów.

O ile sobie spokojnie ogarnę całą część przygotowania danych, tak trenowanie modelu wymaga "małego datacenter" - aby czas był sensowny, to kilka ładnych dni. Potestuje inne modele i może dodam do swojej "TODO" listy. Widziałem, że ludzie łapali różne instytucje czy firmy do zasponsorowania samego wytrenowania modelu.

I tak to jest w tym opensourcowym świecie, czego człowiek się nie dotknie - to "prawie działa", tylko brakuje tego jednego małego szczegółu, który przesądza o tym, czy rozwiązanie jest gotowe do użycia. Tylko jeśli samemu się tego nie zrobi, to kto inny to zrobi.
Handy

Handy is a cross platform, open-source, speech-to-text application for your computer

Handy
Znalazłem "ok" polskie modele pod #handy, tylko wymagały przekonwertowania. Wrzuciłem na huggingface, więc teraz wystarczy dosłownie pobrać do odpowiedniego folderu i pojawi się na liście wyboru https://huggingface.co/knightdave/whisper-polish-ggml-handy .

Na moim laptopie obcięły mocno czas, ale no powiedzmy, że jest to daleko od #moonshine z angielskim (tam mówimy o czasach grubo poniżej 1s z możliwością transkrypcji na żywo).
knightdave/whisper-polish-ggml-handy · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Pomysłu na polski model moonshine nie porzucam - obecnie głównym problemem jest brak dobrego polskiego datasetu. Jest sporo dostępnych treści jak nagrania z polskiego i euro parlamentu, media, podcasty czy audiobooki na licencji CC-BY, ale nie mają opisów, część nie ma transkrypcji, nie są "olabelowane".

Bez większego szukania mam 20k godzin treści, ale dla osiągnięcia dobrej skuteczności takiego modelu (w okolicach 6-7% WER) trzeba dobić do 70k-100k godzin różnych materiałów - od nagrań, bo wygenerowane systentycznie TTS. "Wystarczy" to obrobić - wrzucę na "todo" listę, bo zdecydowanie to ciekawy projekt na wolny czas, tylko gdzie na to wszystko czas znaleźć, a takie data pipeliney robimy na projekcie, w którym jestem DevOpsem, więc know-how mógłbym użyć...