Når det kommer til å bruke #KI til å gjøre analyse av negative ytringer om grupper, er jeg svært skeptisk.

Det er så mye menneskelige ting å vurdere - som kontekst, tone og ikke minst avsender. Kan et program bidra positivt? Hvordan ungår man risikoen for at den overser eller feilregistrerer?

Det kan hende de har funnet en forsvarlig og nyttig måte å bruke det på. Blir spennende å høre mer om metoden.

#AI #norskforsk #forskning #samisk #politikk #rasisme #Allheimen #NorskTut

@mbergnordlie
Hei!
Det er eg som har gjort analysen med KI i rapporten. Du kan lese meir om akkurat den delen av metoden og avgrensingane den har i det siste kapitlet i rapporten:

https://www.ogtall.no/publikasjoner/negative-holdninger-og-stereotypier-om-samer-paa-facebook

Der står det også litt om valideringa av metoden. Kort forklart har to av mine kjempeflinke kollegaar manuelt markert rundt 8000 kommentarar som negativ haldning eller stereotypi mot sama, eller ikkje for kommentarar på offentlege facebooksider. For å validere KI-motoden, som kun vart nytta på kommentarar frå facebookgrupper, køyrde me dei menneskeleg markerte kommentarane gjennom GPT-4 for å samanlikne kategoriseringa den gav med det menneskja gav: Her fann me at den hadde omtrent 13% falske positivar; altså kommentarar som GPT-4 meinte var negative ytringar, men som menneskja meinte ikkje var det, og ca 6% falske negativar; altså kommentarar som GPT-4 meinte var uproblematiske, men som menneskja meinte var negative ytringar.

Ikkje ver redd for å spørje om du har fleire spørsmål til den delen av metoden!

Publikasjon: Negative holdninger og stereotypier om samer på Facebook

Samtidig vet vi fra tidligere undersøkelser at samer har fire ganger så høy risiko for å oppleve diskriminering som majoritetsbefolkningen, og tre av fire unge samer har opplevd diskriminering fordi de er samer. For å svare på hvordan samer omtales på sosiale medier har vi samlet inn og…

Analyse & Tall
@konki Takk for at du kommer med raske svar på dette! Jeg gleder meg til å lese mer om metoden
@konki Dette var jo egentlig ganske mange falske positive og falske negativer fra KI.

@konki Ser dere korrigerer for de falske positivene.
Kunne du utdypet kort om hvordan?

Og gitt at GPT-4 tok såpass mye feil, hva anser du som fordelen ved å bruke GPT-4 og ikke bare gjøre alt med menneskelig vurdering?

@mbergnordlie
Når det gjeld motivasjon for å nytte KI er det hovudsakleg to ting som ligg bak: Det eine er eit kapasitetsspørsmål. Det krevst veldig mykje menneskeleg arbeid å gjere manuelle markeringar av ei så stor mengde kommentarar, og for å kunne gje ei analyse av både fb-sider og fb-grupper innanfor rammene av prosjektet utgjorde KI ei stor effektivisering av det arbeidet.
Det andre er ei meir metodisk nyfikne der me ynskjer å greia ut bruk av slike metodar vidare.

Når det kjem til korrigeringa for dei flaske positive og falske negative vert det nok enklast å forklare med nokre likningar:

f_p = 0.13; Faslke positiver. Frå validering av metoden
f_n = 0.06; Falske negativer. Frå validering av metoden

p_gpt; Talet på kommentarar markert som negative ytringar av GPT-4
n_gpt; Talet på kommentarar markert som ikkje negative ytringar av GPT-4

total = p_gpt + n_gpt; Det totale talet på kommentarar.

andel_hets = ((1 – f_p) * p_gpt + f_n * n_gpt) / total; Andelen negative ytringer og stereotypier presentert i rapporten.

Korreksjonen byggjer også på ei antaking om at delen falske positiver og negativer er tilnærma lik for fb-sidane og fb-gruppane.
Eg veit ikkje om det gjorde det tydeleg, så kom gjerne med oppfølgingssprøsmål om det var uklart.

@konki Takk for dette.

Har vært med på menneskebasert analyse av et stort antall tekster og ser svært godt kapasitetsutfordringa (les: har en gang pådratt meg en følelse man best kan beskrive som "strekk i øyeeplene" etter å ha gått gjennom tusen artikler på mikrofilm på kort tid).

(Forts)
.

@konki

I tillegg til arbeids (og dermed kostnads)-aspektet ved menneskelig analyse kommer faren for at kriterier for kategorisering umerkelig endres over lang tid hos ett enkeltmenneske, og at ulike mennesker som analyserer i gruppe kan ha ukjente ulike kriterier for analyse. Slikt kommer på toppen av kulturkompetanseproblemet. (Forts)

@konki

Dette er kjente problemstillinger ved menneskelig analyse av store antall tekster som man kjenner og har utvikla metoder for å søke å unngå.

Det er viktig at man likeledes utvikler oversikt over hva som er KIs kilder til mangelfull kategorisering, og lager verktøy for å identifisere og utbedre, og ikke minst svært tydelig kommuniserer caveats og problemer.

(Forts)

@konki

Så jeg lurer på: var det noen særlige trekk ved feilkategoriseringene som dere merker dere? Kan vi lære noe om når/hvorfor KI kategoriserer feil av dette?

(Stopp, over)

(Hekter på @jukselapp for trur han er interessert)

@mbergnordlie @jukselapp
Me gjorde stikkprøveundersøkingar undervegs og endra på «prompten» med oppgåvebeskrivinga me gav GPT-4 for å, så godt me kunne, korrigere for dette. I disse stikkprøvane var det nokre ting som gjekk igjen:

1. Kommentarar som gjenga andres problematiske ytringar, anten som sitat eller i karikert/sarkastisk format, vart ofte feilaktig klassifisert som negative ytringar mot samar. Dette var vanskeleg å korrigere for ved å endre «prompten».

2. Kommentarar som nytta sterkt og nedsettande språk, men som ikkje var retta mot samar på bakgrunn av deira identitet, vart ofte feilaktig kategorisert som negative ytringar mot samar. Dette var relativt enkelt å korrigere for ved å endre «prompten».

3. Kommentarar skriven på veldig dialektnært eller munnleg vis var ofte vanskelege å klassifisere. Dette slo litt ut begge veger.

I dei falske negative var det færre konkrete ting som gjekk igjen.

Merk at dette er basert på mine kvalitative og stikkprøvebaserte observasjonar, og er ikkje ein del av analysegrunnlaget i rapporten anna enn gjennom at det bidrog til å gje ei betre oppgåvebeskriving til GPT-4.

(Endring: Nokre skrivefeil)