Found just what I needed. Unfortunately it seems abandoned and requires old versions of a bunch of stuff. Sigh. #ner #TurkuNLP

#KINews

Das erste große #Sprachmodell für nordische Sprachen, „Viking 7B“, wurde von #TurkuNLP und #SiloAI entwickelt. Es unterstützt Finnisch, Schwedisch, Norwegisch, Dänisch und Isländisch und setzt auf ökologische #Rechenleistung durch den EuroHPC-#Supercomputer LUMI. #Viking7B übertrifft in #Benchmarks andere Open-Source-Modelle und soll die digitale Souveränität Europas stärken.

#KI #Sprachmodell #Schweden #Finnland #Norwegen #NordischeSprachen #OpenSource

https://tino-eberl.de/ki-news/viking-7b-das-erste-grosse-sprachmodell-fuer-nordische-sprachen-veroeffentlicht/

Viking 7B: Das erste große Sprachmodell für nordische Sprachen veröffentlicht

Viking 7B ist das erste große Sprachmodell für nordische Sprachen. Silo AI und TurkuNLP wollen die digitale Souveränität Europas stärken.

Tino Eberl

Tämä blogi on osa projektiani avata suomenkielinen FLOSS Manuals -opaskirjasto uudelleen. Projekti oli muutaman vuoden arkistoituna mutta nyt on selvästi tarve kirjoittaa suomenkielistä dokumentaatiota nimenomaan suomalaisen kansalaisyhteiskunnan tarpeisiin. Tahdon käsitellä oppaassa ainakin kahta mielestäni ajankohtaista ja tärkeää teemaa.

Ensinnäkin hallitusta horjuttanut kansalaisjournalistien tiedonharavointi. Tähän olisi ollut paljon avoimen lähdekoodin työkaluja, mutta tietääkö kukaan niiden olemassaolosta ja osaavatko kansalaisjournalistit käyttää niitä ilman ohjeita? Tällaisella tiedonharavoinnilla tai avointen lähteiden tiedustelulla (OSINT) on kansalaisyhteiskunnan voimaannuttamisen lisäksi myös turvallisuuspoliittista merkitystä, vapaaehtoisten OSINT-ryhmien toiminta on ollut erittäin tärkeää esimerkiksi Ukrainan sodassa. Eli tarjotaan ohjeet tällaisen tutkimustyön työkalupakkiin.

Toinen teema on syväoppimisen nopea kehitys ja se seikka että suomenkielistä tekstiä on aina ollut erittäin vaikeaa käsitellä luonnollisen kielen prosessoinnin (NLP) työkaluilla. Nykyisin Pythonin Spacy-kirjasto ymmärtää suomea ja TurkuNLP on julkaissut suomenkielisen GPT-mallin. Mielestäni tätä pitää kartoittaa oppaassa ja olen kirjoittamassa aiheesta myös journalistista artikkelia Kulttuurivihkoihin. Onko siis suomenkielinen kulttuuri näivettymässä tekoälyn aikakaudella vai onko meillä jo työkalut suomenkielistä tekoälyä varten? Eli tee se itse -ohjeita suomenkielisen tekoälyn käyttöön.

Muita teemoja ovat esimerkiksi tiedonlouhinnan etiikka eli yksityisyyden suojan huomioiminen. Henkilötiedot tulee poistaa jos vaikkapa kerätään keskustelupalstoilta vanhoja keskusteluja. Tiedonlouhintaan voi liittyä esimerkiksi tekijänoikeuksiin ja lainsäädäntöön liittyviä rajoitteita, osaa avoimen lähdekoodin työkaluista voi helposti käyttää epäeettisesti. Tällä tarkoitan sitä että epäeettiset tahot ottavat samankaltaisilla työkaluilla jatkuvasti talteen kaiken internetissä olevan tiedon etiikasta välittämättä, mutta meidän täytyy toimia eettisesti.

Tämän kansalaisjournalismin aallon vuoksi olen muistellut 20 vuotta sitten pyörinyttä suomenkielistä Indymediaa, joka oli aikaansa edellä oleva kansalaisjournalistien tietotoimisto. Tuolloin demokraattinen päätöksenteko postilistalla oli hyvin vaikeaa. Mitkä työkalut sopisivat parhaiten data-aktivistien demokraattiseen yhteistyöhön verkossa, olisiko vastaus yksinkertaisesti käyttää samoja menetelmiä kuin avoimen lähdekoodin ohjelmistoprojekteissa, eli kanban käyttöön? Tutkimustyökalujen lisäksi täytyy tarkastella yhteistyöhön ja tuloksien julkaisuun tarvittavia työkaluja. Ehkä itse kirjoitusprojektin voi organisoida näillä samoilla työkaluilla.

Ajattelin että opas olisi englanniksi Research Tools For Activism, mutta en keksi hyvää suomennosta. Olkoon työnimi toistaiseksi Data-aktivistin opas, olen tosiaan itse kiinnostunut ensisijaisesti tutkimustyökaluista, mutta mukaan saa tuoda muitakin kansalaisyhteiskunnan tarvitsemia avoimen lähdekoodin työkaluja. Opas voisi olla kuin työkalupakki josta voi valita sopivat työvälineet.

FLOSS Manualsin uusi kollaboratiivinen kirjoitusalusta on BookStack koska Booktypeä ei kehitetä enää. Tehokkain tapa oppaan kirjoittamiseen on hackathonin kaltainen intensiivinen kirjapyrähdys. Etsin nyt yhteistyötahoja kirjoitusprojektia varten. Lisäksi olen kiinnostunut mahdollisuudesta järjestää aiheesta työpajoja. Voi myös olla että asentelen palvelimelleni demokäyttöön oppaassa mainittuja ohjelmia, mutta ne ovat sitten koekäyttöön eikä niiden pysyvyyteen saa luottaa.

Olen myös pohdiskellut että vuonna 2023 oppaaseen pitäisi linkittää havainnollistavia videoita ja koodinäytteet tulisi laittaa GitHubiin Jupyter Notebook -muodossa. Tässä mielessä konseptia voisi kehittää painetusta kirjasta enemmän interaktiivisen multimedian suuntaan. Toisaalta tekstin pitäisi olla etusijalla, koska kyseessä ei ole FLOSS Videos. Oppaan voisi myös kirjoittaa kokonaan GitHubissa. Tätä täytyy vielä miettiä.

Vastuuvapauslausekkeena sanon että teen tätä blogia ja FLOSS Manualsia palkattomana vapaaehtoistyönä koska se on velvollisuuteni kansalaisaktivistina ja lisäksi todella mielenkiintoista. Toteutan kuitenkin vastaavia kaupallisia avoimen lähdekoodin projekteja Osuuskunta Sangen jäsenenä. Itse asiassa tämä ei ollut vastuuvapauslauseke vaan ovela mainos.

Mutta katsotaanpas mitä tästä tulee. Jos olet kiinnostunut osallistumaan niin sähköpostiosoitteeni on [email protected].

Liity kanavalle.

#avoinLähdekoodi #avointenLähteidenTiedustelu #booksprint #dataMining #dataScience #dataAktivismi #datatiede #FLOSSManuals #GitHub #GPT #hackathon #JupyterNotebook #kansalaisjournalismi #kirjapyrähdys #NLP #OSINT #OsuuskuntaSange #Python #Spacy #suomenkielinen #Suomi #syväoppiminen #tekoäly #tiedonharavointi #TurkuNLP #UkrainanSota #webScraping #yksilönsuoja

https://data-aktivismi.online/2023/09/data-aktivistin-opas/

Suomenkielisen FLOSS Manualsin oppaat - FLOSS Manuals (Suomi)

Tästä voit ladata FLOSS Manualsin suomenkieliset oppaat PDF-muodossa: Alchemy - opas avoimen lähdekoodin grafiikkaan Archive.org - opas Internet Archiven käyttöön Audacity - avoimen lähdekoodin äänieditorin käyttöopas Avoin mediatuotanto - mediatuotanto avoimen lähdekoodin välineillä Blender - opas kolmiulotteisen grafiikan tekemiseen Booktype - opas FLOSS Manualsin kirjoitusalustan käyttöön ffmpeg2theora - opas videoformaattien muokkaamiseen Firefox - avoimen lähdekoodin

FLOSS Manuals (Suomi) - Vapaat oppaat vapaille ohjelmistoille!

Kielipankin #KuukaudenTutkija-juttusarjassa esittelemme Sampo Pyysalon, joka tekee #tutkimus'ta #TurkuNLP-ryhmässä. Hän kertoo meille suurten kielimallien luomisesta, johon tarvitaan miljardeja sanoja tekstiä ja laajoja aineistoja. Avoimesti saatavilla olevat suomenkieliset mallit ovat välttämättömiä, jotta suomen kielelle voidaan rakentaa yhtä kyvykkäitä työkaluja kuin englannin kielelle. Lue lisää: https://www.kielipankki.fi/uutiset/kuukauden-tutkija-sampo-pyysalo/

#Kielipankki #kieliteknologia #tiede #aineisto #yliopisto #kielitiede

Kuukauden tutkija: Sampo Pyysalo | Kielipankki