@panoptykon Po takich newsach to... Jeśli dane historyczne zawierały więcej kontroli zwolnień kobiet w ciąży to znaczy, że powinien dokładnie wykrywać oszustwa wśród zwolnień kobiet w ciąży. Ale ciągle mówimy o lewych zwolnieniach. I to, że tych danych jest dużo wcale nie oznacza, że ktoś jest dyskryminowany. Wręcz istnieje większa szansa, że nie popełni błędu i nie będzie tak dużo false-positive'ów. Ja podejrzewam, że dyskryminowane będą inne grupy, zwłaszcza z dziwnymi chorobami.
Przy małej ilości danych istnieje duża szansa, że osoby faktycznie chore będą ciągane po komisjach. Bo fundamentalną kwestią jest nie to ile było "dyskryminujących" danych historycznych. Istotne jest ile faktycznie było przekrętów w stosunku do liczebności tej grupy. Wprowadzając "sprawiedliwy" algorytm to grupa, która robi dużo przekrętów łatwiej się ukryje pomiędzy grupami z małą ilością przekrętów i w konsekwencji wykrywalność spadnie a kasa "sprawiedliwie" będzie szła to tych co nie zasłużyli zamiast do potrzebujących.
Ale tak naprawdę, tutaj trzeba znać konstrukcję algorytmu. I raczej walczyłbym o dostęp do danych i algorytmów aby ocenić ich jakość a nie robił srakę bo "dane historyczne są zbiasowane". To nie genAI.