Jak można wykiwać Twoje agenty AI oraz boty AI kradnące treści z Twojej strony?
Wstrzykiwanie wrogich, czyli zapętlonych hiperlinkami miałkich treści, które mają zapchać i ogłupić AI, to tylko jeden ze sposobów oszukiwania agentów AI wchodzących na strony internetowe. Oczywiście treści te nie są widzialne dla zwykłych użytkowników. A jakie są inne sposoby wystrychiwania AI na dudka? I czy mogą one wpływać tylko na konkretne agenty? Próbę stworzenia klasyfikacji “pułapek na AI” podjęli badacze z Google DeepMind.
“Ić stont bocie!”
Nie od dziś wiadomo, że agenty AI da się zmanipulować. Można ukrywać niebezpieczne polecenia dla AI w instrukcjach formatowania Markdown albo LaTeX (tzw. (indirect) prompt injection). Można też zatruwać wiedzę w systemach RAG albo tworzyć tzw. pułapki przeciążeniowe. Co jakiś czas trafiamy na publikacje dotyczące takich rzeczy i czasami mają one charakter zaledwie ciekawostki i o takich piszemy tylko na naszym Twitterze — w ogóle to tam publikujemy najwięcej i najczęściej, umieszczamy tam treści, których nie znajdziecie na żadnym innym naszym kanale w social mediach — więc dodajcie nas do obserwowanych na Twitterze). Ale innym razem obserwacje z tego tematu dotykają naprawdę poważnych zagrożeń.
Piątka badaczy z Google DeepMind podjęła próbę stworzenia klasyfikacji Pułapek na Agenty AI (AI Agent Traps). Klasyfikacja bazuje na funkcjach agentów AI, w które wymierzone są ataki. Sami badacze podkreślają, że klasyfikacja doskonała nie jest, gdyż prawdziwe ataki mogą wykorzystywać wiele mechanizmów jednocześnie. Badacze zaproponowali podział pułapek na 6 kategorii, które opisujemy poniżej.
Co każdy pracownik powinien wiedzieć o AI?
Czy korzystanie z AI w firmie stanowi zagrożenie?
Czy pracownicy powinni obawiać [...]
#AI #Badania #ContentInjection #Jailbreak #PromptInjection #SemanticManipulation #SztucznaInteligencja
https://niebezpiecznik.pl/post/ataki-na-agenty-ai-boty-ai-scrapery-ai/

