Na dziś mamy już 68 znaków. Większość z nich jest z 1979-1985 z Warszawy. Jak tylko skończymy nagrywać znaki z magazynów "Świat Ciszy" i "Świat Głuchych" oraz "Ideografia" B. Szczepankowskiego, to weźmiemy się za nowsze znaki i z innych rejonów.
Na dziś mamy już 68 znaków. Większość z nich jest z 1979-1985 z Warszawy. Jak tylko skończymy nagrywać znaki z magazynów "Świat Ciszy" i "Świat Głuchych" oraz "Ideografia" B. Szczepankowskiego, to weźmiemy się za nowsze znaki i z innych rejonów.
W poszukiwaniu inspiracji i dobrych praktych tworzenia słownika migowego zajrzeliśmy do słownika niemieckiego języka migowego robionego przez grupę badaczy na Uniwersytecie w Hamburgu i zrobili oni to do czego my dążymy w naszym projekcie.
Bardzo fajne zobrazowanie statystyczne częstotliwości używania różnych znaków na to samo słowo w różnych rejonach:
https://www.sign-lang.uni-hamburg.de/meinedgs/extras/month6.html
I też ciekawe zobrazowanie sieci zależności między znakami:
https://www.sign-lang.uni-hamburg.de/korpusdict/overview/index-graph.html
Przeglądając to też zorientowałyśmy się, że znaki przecież mogą mieć swój wiariant zaprzeczający. Trzeba będzie pomyśleć jak to wdrożyć w słownik
Co chcemy zaadresować?
- Dostępne słowniki PJM (Polskiego Języka Migowego) są trudne do obsługi. Trzeba znać konkretnie słowo, które jest w słowniku aby zobaczyć jaki jest do tego znak.
- Istnieje wiele znaków odpowiadające danemu słowu, w tym regionalizmy, znaki przestarzałe itp. Duża część głuchych w Polsce nie jest świadoma istnienia regionalizmów czy dawnych znaków.
- Jeden znak (gest, ruch) oznacza różne słowa, niekoniecznie nawet bliskie znaczeniowo (przykład: ogólnopolski znak na Kraków i Warszawski znak na Katedrę to ten sam znak).
- Dużo dostępnych online znaków PJM została wymyślona przez słyszących i udostępniania. Nie wiadomo jakie źródło jest rzetelne. Bardzo długo przez lata w Polsce miała miejsce przemoc językowa wśród słyszących, szczególnie księży katolickich.
- Brakuje otwartej i dostępnej bazy z pojedynczymi znakami miganymi wielokrotnie, przez różne osoby, do wykorzystania w projektach studenckich, prywatnych i badaniach lingwistycznych. Istnieje duże nadużycie wśród słyszących studentów informatyki, którzy nie konsultują takich projektów z g/Głuchymi.
- Dużo studentów spędza czas na tworzeniu modelu, który wygeneruje w miarę uniwersalne pozycje palców, dłogi, rąk, twarzy i ciała podczas migania na podstawie wielu różnych nagrań tego samego znaku.
- Znaki są migane za szybko lub nie jest jasne jak powinien być migany.
- Znaki nieraz są złożone z kilku innych znaków.
- Pamięć o tym czemu dany znak jest migany w dany sposób zostaje zatracona i nawet sami g/Głusi nie do końca wiedzą co dany znak przedstawia.
- Wiele nazw własnych (ulic, budynków, osób, firm) jest znana tylko wąskiej grupie g/Głuchych.
- Wiele znaków ma swój specyficzny liczebnik (np. numer przystanku, ilość dokładek do obiadu, ilość minut itp.),
- Definicji danego słowa dla każdego znaku jest za dużo. Nie chce nikomu się tego czytać, prócz badaczom.
- Ktoś zamigał jakiś znak i nie wiem co on oznacza, skąd mam się tego dowiedzieć?
https://codeberg.org/Jueltrae/SignArchive/wiki/Creation-of-Sign-Archive
https://codeberg.org/Jueltrae/SignArchive
Od lat uczymy się PJM (Polskiego Języka Migowego) i brakuje nam dobrego słownika znaków.
Dostępne słowniki PJM są często zamkniętymi projektami, sprzed kilku lat, w których nie ma informacji czy znak jest wciąż używany i z jakiego rejonu pochodzi (Warszawa? Kraków? Poznań?).
Postanowiłyśmy więc amatorsko stworzyć własny słownik, który będzie na bieżąco aktualizowany i każda osoba będzie mogła dodać do niego znaki, definicje oraz źródła znaków.
Zapraszamy wszystkich chętnych g/Głuchych i słyszących do współtworzenia strony i nagrywania znaków do bazy -> https://tally.so/r/RGJYZJ
✨️ New paper 📄
• Are there dedicated continuers (generic backchannels in conversation) in Swedish Sign Language?
• Can we identify potential continuers from corpus data?
• Do they have special form characteristics?
Yes, yes and yes!
https://www.degruyter.com/document/doi/10.1515/lingvan-2024-0025/html
In this paper, I use methods from corpus linguistics and computer vision to find candidates for continuers – that is, conversational markers that signal comprehension and encouragement to the primary speaker/signer to continue – in a corpus of Swedish Sign Language (STS). Using different methods based on distributional patterns in conversational turns, I identify a small set of manual signs – particularly the sign JA@ub ‘yes’ – that exhibit the characteristics associated with continuers, such as occurring frequently in repeated sequences of overlapping but noncompetitive turns. The identified signs correspond to those found in previous research on manual backchannels in STS, demonstrating that quantitative, distribution-based approaches are successful in identifying continuers. In a second step, I employ methods from computer vision to analyze a subset of the corpus videos, and find that the continuer candidates show interesting form characteristics: they are small in visible articulation and thus conversationally unobtrusive by often being articulated low and with little movement in signing space. The results show that distribution-based approaches can be used successfully with sign language corpus data, and that the nature of continuers exhibits similarities across modalities of human language.
@dnikub for the time being I expect generative text2sign will struggle as much (if not more) with the extreme data sparsity of #SignLanguages as all big data approaches do. Doesn’t help that on top of a text2speech equivalent text2sign also has to handle full machine translation.
An application with more tangible progress is the use of generative models to anonymise signers.
Also, I would be very wary of any supposed project success stories that do not have clear deaf involvement.