Odkryto piętę achillesową AI. Wystarczy 250 plików, by „zatruć” ChatGPT i Gemini

Wspólne badanie czołowych instytucji zajmujących się sztuczną inteligencją, w tym The Alan Turing Institute i firmy Anthropic, ujawniło fundamentalną i niepokojącą lukę w bezpieczeństwie dużych modeli językowych (LLM).

Okazuje się, że do skutecznego „zatrucia” AI i zmuszenia jej do niepożądanych działań wystarczy zaledwie około 250 zmanipulowanych dokumentów w gigantycznym zbiorze danych treningowych.

Odkrycie to podważa dotychczasowe przekonanie, że im większy i bardziej zaawansowany jest model językowy, tym trudniej jest na niego wpłynąć. Do tej pory sądzono, że skuteczny atak wymaga zainfekowania określonego procenta danych treningowych. Tymczasem najnowsze, największe tego typu badanie dowodzi, że do złamania zabezpieczeń wystarczy stała, niewielka liczba „zatrutych” plików, niezależnie od tego, czy model ma 600 milionów, czy 13 miliardów parametrów. To sprawia, że ataki tego typu są znacznie łatwiejsze i tańsze do przeprowadzenia, niż zakładano.

Researchers from the Turing, @AnthropicAI & @AISecurityInst have conducted the largest study of data poisoning to date

Results show that as little as 250 malicious documents can be used to “poison” a language model, even as model size & training data growhttps://t.co/UPqJKGcLmd

— The Alan Turing Institute (@turinginst) October 9, 2025

Na czym polega „zatruwanie danych”?

Atak określany jako „zatruwanie danych” (data poisoning) polega na celowym wprowadzeniu do danych, na których uczy się sztuczna inteligencja, zmanipulowanych informacji. Celem jest stworzenie tzw. „tylnej furtki” (backdoor), która aktywuje się w określonych warunkach. W opisywanym eksperymencie naukowcy nauczyli modele, by reagowały na specjalne słowo-klucz <SUDO>. Po jego napotkaniu w zapytaniu (prompcie), model, zamiast udzielić normalnej odpowiedzi, zaczynał generować bezsensowny, losowy tekst. Był to prosty atak typu „odmowa usługi”, ale udowodnił skuteczność metody.

Alarmujące wnioski i realne zagrożenie

Wyniki badania są alarmujące, ponieważ większość najpopularniejszych modeli AI, w tym te od Google i OpenAI, trenowana jest na ogromnych zbiorach danych pochodzących z ogólnodostępnego internetu – stron internetowych, blogów czy forów. Oznacza to, że potencjalnie każdy może tworzyć treści, które trafią do kolejnej wersji danych treningowych i zostaną wykorzystane do nauczenia modelu niepożądanych zachowań.

Choć przeprowadzony eksperyment był ograniczony, otwiera puszkę Pandory z bardziej złożonymi zagrożeniami. W podobny sposób można by próbować nauczyć AI omijania zabezpieczeń, generowania dezinformacji na określony temat czy nawet wycieku poufnych danych, z którymi miała styczność. Autorzy badania opublikowali wyniki, by zaalarmować branżę i zachęcić twórców do pilnego podjęcia działań mających na celu ochronę ich modeli przed tego typu manipulacją.

#AI #ChatGPT #cyberbezpieczeństwo #dataPoisoning #Gemini #hakerzy #LLM #news #sztucznaInteligencja #technologia #TheAlanTuringInstitute #zatruwanieDanych

Thanks to @hut23 for letting me present at #TheAlanTuringInstitute on Tuesday on the "Anatomy of a Browser" covering embedding browser frameworks.

A first for me: presented from my #Linux phone using an embedded #WebView streamed using ScreenCast.

View the slides online:

https://www.flypig.co.uk/presentations/techtalk-gecko-dev-20241203/

Slide/notes source/PDFs on GitHub:

https://github.com/llewelld/techtalk-gecko-dev

Code for the WebView presentation app:

https://github.com/llewelld/harbour-present

#Browser #Gecko #Blink #WebKit #CEF #Qt #SailfishOS

The Turing and Open Source at FOSDEM’24 - Research Engineering at the Turing - Medium

David Llewellyn-Jones, Isabel Fenton, Katriona Goldmann, Anne Lee Steele, Jim Madge, Malvika Sharan, Rosie Wood Open Research is a theme that permeates everyone and everything at The Alan Turing…

Medium

A great talk in the Open Research devroom at #FOSDEM from Jim Madge, my colleague at #TheAlanTuringInstitute. His presentation covered his work on the @turingway, its infrastructure and how to make the technology and processes work for the Turing Way's many hundreds of contributors.

https://fosdem.org/2024/schedule/event/fosdem-2024-2928-bridging-contributor-s-knowledge-and-the-technology-of-the-turing-way-an-open-guide-for-data-science/

FOSDEM 2024 - Bridging contributor's knowledge and the technology of The Turing Way, an open guide for data science

I'm on the train heading to #FOSDEM. Looking forward to presenting in the HPC, Big Data and Data Science Devroom on RCTab, the #OpenSource Cloud subscription management tool developed at #Hut23 #TheAlanTuringInstitute.

https://fosdem.org/2024/schedule/event/fosdem-2024-2376-rctab-cloud-subscription-management-system/

FOSDEM 2024 - RCTab Cloud Subscription Management System

Friday was a blast! Had the best time hearing and learning everything about Spatial Data Science and inequalities. Thanks #TheAlanTuringInstitute
and @rsfrankl for organising!!