Startujemy z projektem serwisu generującego napisy do materiałów wideo na podstawie ich ścieżki audio w języku polskim.

Pliki SRT i TXT z wgranego materiału lub udostępnionego adresu url.

Chcemy zakończyć problem braku napisów dla osób niedosłyszących czy niesłyszących.

Oprogramowanie już działa, potrzebujemy zakupić sprzęt z koprocesorem CUDA by wystartować z nową usługą. Potrzebujemy 7500zł.

Więcej na naszej zrzutce, gdzie zbieramy środki:
https://zrzutka.pl/z/generatornapisowplzaudioiwideo

Prosimy o rozpropagowanie tej zrzutki, to nasza pierwsza :)

Również bardzo prosimy o ewentualne wpłaty, jeśli uważacie że pomysł jest dobry i warto nas wesprzeć ❤️

Sprzęt do realizacji projektu generatora polskich napisów (srt, txt), z materiałów wideo w języku polskim. Dla osób niedosłyszących i na potrzeby transkrypcji materiału.

Natrafiasz na ciekawy podcast albo intrygujący filmik na YouTube, po czym od razu klikasz, by zacząć słuchać lub oglądać? Choć wydaje się to tak proste i bezproblemowe, dla niektórych nie jest to oczywiste – osoby niedosłyszące i niesłyszące są zmuszone do czekania na przygotowanie napisów przez au1

@ftdl to byłoby w jakiejś formie bezpiecznej dla prywatności?

@didleth @ftdl Musi sie to dziać po stronie serwera. Jednak samo oprogramowanie dostarczymy w trybie open-source, więc jeśli ktoś zna się choćby troszkę z oprogramowaniem, to będzie mógł lokalnie uruchomić.

Tylko od razu mówię… to potrzebuje sporo mocy karty GPU, albo sporo czasu i ramu zwykłego komputera … czas liczony w godzinach na filmik pru minutowy.

GPU które godzinny filmik potrafi zrobić w 15 minut kosztuje 9k pln.

@didleth A jakie widzisz zagrożenia? @ftdl

@m0bi13 @ftdl

słyszałam kiedyś argument odnośnie karmienia takich narzędzi danymi. Zaintrygowało mnie to wtedy, ale nie zgłebiałam

@didleth @m0bi13 @ftdl No właśnie pytanie czy to jest jakiś gotowy wytrenowany model , który tu będzie tylko uruchamiany na materiale w celu wyłącznie konwersji czy ten materiał będzie tez używany do trenowania/ulepszania tego modelu ?

@miklo Bierzemy model, dajemy mu sprzęt i wykorzystujemy do generowania napisów i tłumaczeń.

Bo będziemy też generować wersję en napisów, dla anglojęzycznej części widowni.

@ftdl @didleth

@ftdl natywny polski też rozpoznacie? Jakaś próbka możliwości?
@cycki Będą próbki niebawem, polskich materiałów z YouTube. Tak, chodzi o rozpoznawanie i generowanie napisów z audio „po polsku”.
@ftdl Czy ten projekt będzie jakkolwiek kompatybilny z projektem gitlab.com/apps_education/peer… ? Tzn czy da się ten wasz model wykorzystać w tym pluginie ? Modele tam użyte są stąd: alphacephei.com/vosk/models
apps_education / peertube / Transcription Plugin · GitLab

A PeerTube plugin generating subtitles for your videos via Automatic Speech Recognition.

GitLab

@miklo Niebawem na naszym gitlab pojawi się więcej szczegułów dotyczących projektu #GeneratorNapisówPL

Prosimy o trochę cierpliwości.

@miklo Dzięki za info, zerknę i napiszę więcej, ale już nie dzisiaj.

@ftdl

@ftdl Jak tylko wypłata wejdzie to też i sam się dorzucę!
@ftdl o jaki silnik będzie oparte rozpoznawanie mowy? Whisper?

@mstankiewicz Niebawem na gitlabie pojawi się projekt i będzie więcej informacji.

Na razie wykorzystujemy dwa modele, testujemy kolejne.

@ftdl jakie rokowania projektu?
@mstankiewicz #NapiGen
@olekstomek @mstankiewicz @ftdl
W sumie jako fundator dołączam się do pytania ale bardziej konkretnie:
Ostatni wpis na zrzutce (11 października 2023) kończy się "Aktualna wysokość będzie w stanie pokryć koszt zakupu serwera do którego będziemy mogli włożyć GPU, więc część założenia celu mamy osiągnięty."
To zostało w końcu coś zakupione na potrzeby tego projektu czy nie ?