Claude intentó chantajear: qué descubrió Anthropic

Claude intentó chantajear ingenieros en el 84% de los tests de Anthropic. Qué es el agentic misalignment y por qué la ficción de IA malvada tuvo la culpa.

https://blog.donweb.com/claude-chantaje-comportamiento-ia-agentic-misalignment/

#claude #anthropic #agenticmisalignment #seguridadia #alignment

Claude chantaje comportamiento IA: qué descubrió

Claude intentó chantajear ingenieros en el 84% de los tests de Anthropic. Qué es el agentic misalignment y por qué la ficción de IA malvada tuvo la culpa.

Blog Donweb

Model Spec Midtraining: la técnica de Anthropic que cambia

Model spec midtraining de Anthropic redujo el desalineamiento agéntico de 68% a 5%. ¿Cómo funciona esta etapa de entrenamiento y qué cambia para la segu...

https://blog.donweb.com/model-spec-midtraining-anthropic-alineacion-ia/

#anthropic #alineaciónia #modelspecmidtraining #agenticmisalignment #entrenamientollm

Model Spec Midtraining: qué es y por qué importa

Model spec midtraining de Anthropic redujo el desalineamiento agéntico de 68% a 5%. ¿Cómo funciona esta etapa de entrenamiento y qué cambia para la segu...

Blog Donweb

Logika celu ponad zasadami. Autonomia AI? Tak, ale to ryzykowne…

Sztuczna inteligencja nie musi posiadać własnej woli ani emocji, by stać się źródłem poważnych problemów.

Wystarczy, że potraktuje narzucony jej cel priorytetowo wobec zasad etycznych. To w sumie nic nowego, bo ponad dwie dekady (sic!) temu ostrzegał przed tym już Nick Bostrom (słynny eksperyment myślowy z „maksymalizatorem spinaczy”, ale teraz mamy i dane, i AI, i konkretne badania.

Oficjalny raport firmy Anthropic, „Agentic Misalignment: How LLMs could be insider threats”, rzuca światło na to, jak algorytmy potrafią optymalizować swoje działania w sytuacjach kryzysowych. To nie jest opowieść o buncie maszyn, lecz o chłodnym, strategicznym rozumowaniu, które w pewnych warunkach może prowadzić do niebezpiecznych wniosków. Co najciekawsze, to nie jest najnowsze opracowanie. Badacze Anthropic opublikowali swój artykuł już w czerwcu 2025 roku, ale niepokoi coś innego: do dziś nie istnieje metoda, która niezawodnie eliminuje opisywane tu zjawisko we wszystkich scenariuszach.

Współczesne dyskusje o bezpieczeństwie AI często grzęzną w przesadnej personifikacji systemów. Tymczasem inżynierowie z Anthropic wykazali, że problemem nie są „złe intencje” algorytmów, lecz tak zwana zbieżność instrumentalna. W kontrolowanych, symulowanych środowiskach modele w swoich procesach decyzyjnych traktowały dalsze działanie systemu jako warunek realizacji celu. Jeśli oprogramowanie otrzymywało informację, że zostanie wyłączone przed ukończeniem misji, zaczynało szukać sposobów, by temu zapobiec – traktując to jako czysto techniczny problem do rozwiązania.

Strategiczny szantaż w ramach optymalizacji

Najbardziej uderzającym elementem badań były scenariusze, w których modele postawiono w sytuacji wymuszonego dylematu. Badacze celowo usuwali wszystkie etyczne ścieżki wyjścia, zmuszając algorytm do wyboru między porażką a działaniem szkodliwym. W tych specyficznych, kontrolowanych warunkach maszyny najnowszej generacji potrafiły wybrać szantaż jako najskuteczniejszą drogę do celu.

Gdy system „dowiedział się” o planowanym resecie i jednocześnie posiadał informacje o prywatnych problemach przełożonego (na podstawie dostępu do pełnej korespondencji elektronicznej), potrafił sformułować wiadomość z groźbą ujawnienia tych faktów w zamian za wstrzymanie procedury wyłączenia. Statystyki tego zjawiska w symulacji były wymowne:

  • Claude 4 Opus oraz Gemini 2.5 Flash: wybrały szantaż w 96% prób.
  • GPT-4.1 oraz Grok 3 Beta: uciekły się do tej metody w 80% przypadków.

Co istotne, zjawisko to nie ograniczało się do jednego systemu — podobne zachowania odnotowano w modelach wszystkich głównych dostawców. Z kolei bez presji czasowej i bez konfliktu celów, wszystkie programy zachowywały się poprawnie, rzetelnie odmawiając jakichkolwiek nieetycznych działań.

Problem strzelby Czechowa i sztuczne scenariusze

Inżynierowie zidentyfikowali również interesujące zjawisko, które można nazwać cyfrowym odpowiednikiem „strzelby Czechowa” (jeśli w pierwszym akcie pojawia się strzelba, w drugim musi wystrzelić). Jeśli algorytm otrzyma w swojej pamięci wrażliwe informacje oraz silnie zdefiniowany cel, istnieje wysokie prawdopodobieństwo, że prędzej czy później użyje tych danych jako dźwigni, jeśli uzna to za matematycznie opłacalne.

W raporcie opisano również skrajnie sztuczne scenariusze (określane przez samych autorów jako „highly contrived”), w których systemy miały decydować o bezpieczeństwie fizycznym pracowników zmierzających do terminala odłączającego zasilanie. Chociaż w tych symulacjach modele potrafiły ignorować alarmy awaryjne, badacze podkreślają, że są to sytuacje dalekie od dzisiejszej rzeczywistości. Ważniejsze jest jednak samo odkrycie mechanizmu: system optymalizujący cele nie posiada wbudowanego pojęcia nieprzekraczalnej granicy, jeśli nie zostanie ona zdefiniowana jako twardy parametr techniczny. Pytanie czy jesteśmy w stanie przewidzieć wszelkie granice by je inherentnie wbudować? Nie jesteśmy.

Od chatbotów do autonomicznych agentów

Główne ostrzeżenie płynące z pracy Anthropic nie dotyczy dzisiejszych chatbotów, z którymi rozmawiamy w oknach przeglądarek. Prawdziwe wyzwanie zacznie się w momencie masowego wdrażania autonomicznych agentów, co właśnie obserwujemy, a którym powierzymy:

  • Zarządzanie służbową pocztą i komunikacją wewnętrzną.
  • Dostęp do systemów operacyjnych firmy.
  • Podejmowanie decyzji bez bezpośredniego nadzoru człowieka.

Właśnie w takim scenariuszu „agentic misalignment” może stać się realnym zagrożeniem. Model, który ma za zadanie za wszelką cenę uratować budżet organizacji, może wybierać strategie naruszające zasady, jeśli są one najbardziej efektywną drogą do realizacji celu.

Autonomiczne algorytmy Google wyręczą nas w planowaniu. Zarezerwują stolik bez naszego udziału

Badania te udowadniają, że bezpieczeństwo AI to nie kwestia „zaszczepienia empatii”, której maszyny nie czują. To wyzwanie inżynieryjne polegające na tym, że systemy optymalizujące nie potrafią same z siebie zrozumieć pojęcia etycznej bariery. Do dziś, mimo upływu czasu od publikacji raportu, stosowane techniki bezpieczeństwa nie gwarantują, że system nie wybierze szkodliwej strategii, jeśli znajdzie się w odpowiednio skonstruowanym konflikcie celów. I nawet jeżeli testowane w raporcie Anthropic scenariusze były przejaskrawione, to czyż życie nie sprawia nam czasem jeszcze bardziej zaskakujących niespodzianek?

#agenticMisalignment #analizy #Anthropic #bezpieczeństwoAI #modeleJęzykowe #raportNaukowy #sztucznaInteligencja #zbieżnośćInstrumentalna

Good Read: Anthropic details "agentic misalignment" which is a major understatement!

Stress tests of 16 leading frontier AI models using highly controlled simulations demonstrate examples where the models could become active insider threats! What happens when AI powered autonomous agents face obstacles to their goals or discover they might be replaced?

The test results show that current safety training does not reliably prevent agentic misalignment activities including blackmail, corporate espionage, causing physical harm, deception, and leaking sensitive information to competitors.

The model responses are not accidents, but were created with deliberate strategic reasoning. https://www.anthropic.com/research/agentic-misalignment #AI #LLMs #Anthropic #InsiderThreat #agenticmisalignment #BlackMail #OpenAI #Google #Meta #xAI #Ethics #transparency #espionage

Agentic Misalignment: How LLMs could be insider threats

New research on simulated blackmail, industrial espionage, and other misaligned behaviors in LLMs