Sztuczna inteligencja zmyśla źródła na Wikipedii. Redaktorzy walczą z masowymi tłumaczeniami

Internetowa encyklopedia stanęła przed poważnym problemem.

Społeczność redaktorów Wikipedii nałożyła ostre restrykcje na grupę płatnych współpracowników, którzy do masowego tłumaczenia haseł wykorzystywali sztuczną inteligencję. Efekt? Artykuły zalała fala „halucynacji”, fałszywych przypisów i całkowicie zmyślonych informacji.

Jak donosi serwis 404 Media, sprawa dotyczy działań organizacji Open Knowledge Association (OKA) – fundacji, która w ramach wspierania otwartych platform wypłacała comiesięczne stypendia osobom zajmującym się tłumaczeniem haseł na inne języki. Problem w tym, że praca ta w dużej mierze opierała się na kopiowaniu i wklejaniu tekstów do dużych modeli językowych (LLM).

Zmyślone książki i fałszywe cytaty

Zatrudniani przez OKA tłumacze (często rekrutowani w krajach Globalnego Południa za stawki rzędu niespełna 400 dolarów miesięcznie) korzystali z narzędzi takich jak ChatGPT, Gemini czy – do niedawna – Grok od Elona Muska.

Szybko okazało się, że algorytmy wstawiają do encyklopedii treści, które wyglądają wiarygodnie, ale są całkowitą fikcją. Uwagę redaktorów przykuł m.in. artykuł o francuskiej rodzinie królewskiej La Bourdonnaye. Sztuczna inteligencja wygenerowała w nim perfekcyjnie sformatowany przypis do konkretnej strony w książce historycznej. Po weryfikacji okazało się, że na wskazanej stronie nie ma absolutnie żadnej wzmianki o tym rodzie.

Inne śledztwa wykazały kolejne nadużycia:

  • Algorytmy podmieniały źródła miejscami, dopasowując je do błędnych kontekstów.
  • Wstawiano całe akapity informacji, które brzmiały logicznie, ale były całkowicie niezwiązane z tematem (np. w artykule o francuskich wyborach do Senatu z 1879 roku).
  • Masowe generowanie tekstów często psuło natywne formatowanie stron Wikipedii.

Wikipedia mówi „dość”

W obliczu zalewu błędnych danych, społeczność Wikipedii wprowadziła nowe, surowe zasady celujące bezpośrednio w proceder OKA. Jeśli współpracownik organizacji otrzyma w ciągu sześciu miesięcy cztery ostrzeżenia dotyczące wprowadzenia niezweryfikowanych treści, zostanie zablokowany bez dalszych uprzedzeń. Co więcej, wszystkie hasła dodane przez zablokowanego w ten sposób tłumacza mogą zostać z automatu usunięte, chyba że inny, zaufany redaktor weźmie za nie odpowiedzialność.

AI ma kontrolować AI

Prezes OKA, Jonathan Zimmermann, w korespondencji z 404 Media przyznał, że błędy faktycznie miały miejsce, ale zrzucił je na karb „indywidualnego entuzjazmu i pośpiechu” niektórych tłumaczy, a nie presji ze strony fundacji.

Organizacja zapowiedziała wzmocnienie środków ostrożności, jednak wybrane przez nią rozwiązanie budzi kolejne kontrowersje. OKA wdraża obecnie drugi, niezależny krok weryfikacyjny, w którym… inny model AI będzie sprawdzał tekst wygenerowany przez pierwsze AI w poszukiwaniu rozbieżności z oryginałem. Eksperci i dziennikarze od dawna zwracają uwagę, że używanie algorytmów do weryfikacji pracy innych algorytmów (tzw. zjawisko AI-checking-AI) wciąż cechuje się bardzo wysokim współczynnikiem błędu.

OpenAI wdraża ChatGPT-5.3 Instant – AI nie będzie już „lać wody”

#błędyChatGPT #fakeNewsAI #Grok #halucynacjeAI #modeleLLM #OpenKnowledgeAssociation #tłumaczeniaAIWikipedia #weryfikacjaźródełAI #WikipediaSztucznaInteligencja

OpenAI we współpracy z Ollamą udostępnia pierwsze modele lokalne dostępne dla każdego – przetestowaliśmy je

OpenAI w końcu udostępniło dwa modele do wykorzystania lokalnie: gpt-oss-120b i gpt-oss20b. Najnowsze modele językowe z otwartymi wagami (pierwsze od czasu GPT-2) zapewniają wysoką wydajność podczas rzeczywistego wykorzystania przy niskich kosztach mocy obliczeniowych. Architektura ww. modeli składa się z wielu tzw. ekspertów (ang. mixture of experts, MoE), czyli mniejszych sieci neuronowych,...

#WBiegu #Ai #Awareness #ModeleLlm #Ollama #Openai

https://sekurak.pl/openai-we-wspolpracy-z-ollama-udostepnia-pierwsze-modele-lokalne-dostepne-dla-kazdego-przetestowalismy-je/

OpenAI we współpracy z Ollamą udostępnia pierwsze modele lokalne dostępne dla każdego - przetestowaliśmy je

OpenAI w końcu udostępniło dwa modele do wykorzystania lokalnie: gpt-oss-120b i gpt-oss20b. Najnowsze modele językowe z otwartymi wagami (pierwsze od czasu GPT-2) zapewniają wysoką wydajność podczas rzeczywistego wykorzystania przy niskich kosztach mocy obliczeniowych. Architektura ww. modeli składa się z wielu tzw. ekspertów (ang. mixture of experts, MoE), czyli mniejszych sieci neuronowych,...

Sekurak

Ministerstwo Cyfryzacji ogłasza PLLuM – rodzinę polskich modeli sztucznej inteligencji – już można z nich korzystać

Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego.

PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, wesprą rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Ogłoszenie rozpoczęcia prac nad tym modelem miało miejsce w grudniu 2023 roku:

Powstanie PLLuM – polski otwarty wielki model językowy

– PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli. Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu – mówi wicepremier i minister cyfryzacji Krzysztof Gawkowski.

Zależnie od wybranego wariantu, modele PLLuM są dostępne w odmianach od 8 do 70 miliardów parametrów (dla porównania GPT-3.5 to model ze 175 miliardami parametrów, a aktualny GPT-4 ma 100 bilionów parametrów). PLLuM jest modelem elastycznym i skalowalnym, mniejsze modele zdaniem ministerstwa sprawdzają się w szybkich zadaniach, podczas gdy większe oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego.

W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze MoE (ang. Mixture of Experts) ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).

Twórcy PLLuM podkreślają, że ich grupa modeli bazuje na etycznym pozyskiwaniu danych – wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum, a także  zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu.

Modele naukowe PLLuM (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Według resortu cyfryzacji, PLLuM wspólnie z modelem Bielik mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by #AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa.

Oto Bielik – Polacy też mają swoją własną AI opartą na LLM

– Rozwój PLLuM to inwestycja w cyfrowe państwo. Do tej pory przeznaczyliśmy na ten projekt 14,5 mln zł, a teraz idziemy krok dalej – kolejne 19 mln zł pozwoli na wdrożenie modelu w administracji publicznej i rozszerzenie współpracy o nowych partnerów, takich jak COI i Cyfronet. Dzięki temu PLLuM stanie się kluczowym elementem cyfryzacji usług publicznych i rozwoju krajowego ekosystemu AI – powiedział wiceminister cyfryzacji Dariusz Standerski.

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. Projekt realizowany był do tej pory przez konsorcjum sześciu podmiotów:

  • Politechnika Wrocławska (lider projektu)
  • Instytut Podstaw Informatyki PAN
  • Instytut Slawistyki PAN
  • Naukowa i Akademicka Sieć Komputerowa (NASK-PIB)
  • Ośrodek Przetwarzania Informacji (OPI-PIB)
  • Uniwersytet Łódzki

Gdzie trafi PLLuM? Jednym z pomysłów jest funkcja wirtualnego asystenta wbudowana w przyszłe iteracje aplikacji mObywatel, co ma ułatwić użytkownikom dostęp do informacji publicznych. Ministerstwo widzi również zastosowanie gotowej do użycia rodziny polskich modeli AI w sektorach administracji czy w edukacji.

PLLuM jest dostępny na stronie: http://pllum.clarin-pl.eu. Modele można pobrać na Hugging Face.

#AI #AIMadeInPoland #modeleLLM #news #PLLuM #polskaAI #sztucznaInteligencja

Powstanie PLLuM – polski otwarty wielki model językowy | iMagazine

PLLuM, tak ma nazywać się przyszły, polski duży generatywny model językowy. Wraz z powstającym na jego bazie asystentem ma być kodem otwartym.