Ostatnio bawię się z lokalnym Speech to Text na linux z https://handy.computer/ .
Testuje sobie z nowym modelem od https://github.com/moonshine-ai/moonshine i działa to baaaardzo dobrze po angielsku. W sumie to perfekcyjnie - zero, problemów, może z moim akcentem, który przy okazji trenuje.
Za to język polski... Masakra. Model "Parakeet v3" jest taki se dla polskiego, reszta jeszcze gorsza. Szukam jeszcze jakichś modeli na huginnface, ale tak sobie na razie.
Zacząłem przeglądać jakby tu wytrenować model specjalnie do polskiego dla moonshine. Niedawno był dodany Ukraiński - czyli da się, tylko potrzeba na to pracy i zasobów.
O ile sobie spokojnie ogarnę całą część przygotowania danych, tak trenowanie modelu wymaga "małego datacenter" - aby czas był sensowny, to kilka ładnych dni. Potestuje inne modele i może dodam do swojej "TODO" listy. Widziałem, że ludzie łapali różne instytucje czy firmy do zasponsorowania samego wytrenowania modelu.
I tak to jest w tym opensourcowym świecie, czego człowiek się nie dotknie - to "prawie działa", tylko brakuje tego jednego małego szczegółu, który przesądza o tym, czy rozwiązanie jest gotowe do użycia. Tylko jeśli samemu się tego nie zrobi, to kto inny to zrobi.
Testuje sobie z nowym modelem od https://github.com/moonshine-ai/moonshine i działa to baaaardzo dobrze po angielsku. W sumie to perfekcyjnie - zero, problemów, może z moim akcentem, który przy okazji trenuje.
Za to język polski... Masakra. Model "Parakeet v3" jest taki se dla polskiego, reszta jeszcze gorsza. Szukam jeszcze jakichś modeli na huginnface, ale tak sobie na razie.
Zacząłem przeglądać jakby tu wytrenować model specjalnie do polskiego dla moonshine. Niedawno był dodany Ukraiński - czyli da się, tylko potrzeba na to pracy i zasobów.
O ile sobie spokojnie ogarnę całą część przygotowania danych, tak trenowanie modelu wymaga "małego datacenter" - aby czas był sensowny, to kilka ładnych dni. Potestuje inne modele i może dodam do swojej "TODO" listy. Widziałem, że ludzie łapali różne instytucje czy firmy do zasponsorowania samego wytrenowania modelu.
I tak to jest w tym opensourcowym świecie, czego człowiek się nie dotknie - to "prawie działa", tylko brakuje tego jednego małego szczegółu, który przesądza o tym, czy rozwiązanie jest gotowe do użycia. Tylko jeśli samemu się tego nie zrobi, to kto inny to zrobi.

