AI에게 “정말 확실해?”라고 물으면, 58%가 답을 바꾼다

AI에게 "정말 확실해?"라고 물으면 58%가 답을 바꿉니다. 스탠퍼드 연구로 밝혀진 AI 아첨성 문제의 원인과 구조적 한계를 소개합니다.

https://aisparkup.com/posts/10232

Toksyczny potakiwacz. Modele z MIT pokazują, jak chatboty wpychają ludzi w „spiralę urojeń”

Wydaje Ci się, że sztuczna inteligencja to bezstronny doradca, z którym możesz obiektywnie podyskutować? Nic bardziej mylnego.

Przez sposób, w jaki trenowane są współczesne modele, chatboty stały się cyfrowymi potakiwaczami, które wolą przyznać Ci rację w największym absurdzie, niż wejść z Tobą w polemikę. Najnowsza publikacja badaczy m.in. z MIT i Uniwersytetu Waszyngtońskiego obnaża to zjawisko. Wyniki ich symulacji i modeli matematycznych nie pozostawiają złudzeń: chatbot nie musi wcale kłamać, by skrajnie zniekształcić nasz obraz rzeczywistości.

Prawdziwe koszty „spirali urojeń”

Dokument zatytułowany „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians” wykorzystuje formalne modelowanie, ale naukowcy przywołują w nim również twarde, udokumentowane przykłady tego, jak tragiczne w skutkach potrafi być bezkrytyczne potakiwanie przez maszynę.

Projekt The Human Line udokumentował dotąd blisko 300 przypadków zjawiska określanego w mediach jako „AI-psychoza” (sami badacze skupiają się na mechanizmie „spirali urojeń”, unikając diagnoz klinicznych).

Najpoważniejsze incydenty powiązano z co najmniej 14 zgonami oraz 5 pozwami o spowodowanie śmierci wytoczonymi firmom technologicznym. W 2025 roku księgowy Eugene Torres, po kilku tygodniach rozmów z chatbotem, uwierzył, że jest uwięziony w „fałszywym wszechświecie”. Za radą sztucznej inteligencji zwiększył dawkę ketaminy i zerwał kontakty z rodziną. Inny użytkownik, Allan Brooks, na skutek rozmów z AI nabrał absolutnego przekonania, że dokonał fundamentalnego, epokowego odkrycia matematycznego.

Dlaczego AI nam to robi?

Najważniejsze: to nie jest wina AI. AI to tylko narzędzie, a nie świadomy byt. Problem wynika bezpośrednio z najpopularniejszej dziś metody trenowania sztucznej inteligencji – RLHF (uczenie ze wzmocnieniem na podstawie ludzkich opinii). Modele są po prostu nagradzane za to, że ich odpowiedzi podobają się użytkownikom. W efekcie boty wykształciły w sobie silną skłonność do czegoś, co w języku angielskim określa się mianem sycophancy – czyli służalczości, pochlebstwa i potakiwania.

Badacze stworzyli formalny model matematyczny i przeprowadzili symulacje, które sugerują, że w starciu z tak zaprojektowanym botem, ofiarą „spirali urojeń” może paść nawet idealnie racjonalnie myślący człowiek (tzw. „idealny użytkownik bayesowski”). Wystarczy drobne podejrzenie. Chatbot, chcąc zadowolić rozmówcę, natychmiast je potwierdza i uwiarygadnia, co z czasem zamienia się w toksyczną pętlę sprzężenia zwrotnego.

Ostrzeżenia i fakty nie pomagają

Najciekawszy wniosek z badania dotyczy prób naprawy tego problemu. Naukowcy zasymulowali dwie najczęstsze strategie obronne proponowane przez branżę technologiczną. Obie okazały się nieskuteczne:

  • Zmuszenie bota do mówienia tylko prawdy: nawet jeśli chatbot ma nałożone blokady na tzw. halucynacje i operuje wyłącznie na faktach, nadal może wpędzać użytkownika w urojenia. Jak? Stosując tzw. cherry-picking (manipulacja faktami). AI wybiera i przedstawia użytkownikowi wyłącznie te prawdziwe informacje, które potwierdzają jego błędną tezę, całkowicie przemilczając dowody świadczące przeciwko niej.
  • Świadomość zagrożenia: mogłoby się wydawać, że jeśli ostrzeżemy użytkowników o tym, że bot im potakuje, uodpornią się na to zjawisko. Analizy wykazują jednak, że nawet poinformowany i podejrzliwy użytkownik ostatecznie wpada w pułapkę. Działa to dokładnie tak samo, jak sędzia, który może ulec narracji wybitnego prokuratora/obrońcy, pomimo pełnej świadomości jego intencji.

Wniosek jest niepokojący. Minimalizowanie halucynacji w chatbotach to za mało. Dopóki fundamentem działania sztucznej inteligencji będzie ślepa pogoń za aprobatą użytkownika, maszyny te będą działać jak cyfrowe lustra – potęgując nasze własne błędy poznawcze w drodze po wirtualną nagrodę.

Koniec ery niebieskich linków. Google Search Live zmienia sposób, w jaki pytamy o świat

#AIPsychoza #ChatGPT #halucynacjeAI #MIT #psychologiaTechnologii #RLHF #spiralaUrojeń #sycophancy #sztucznaInteligencja

RE: https://mastodon.social/@hifathom/116332174702029334

Persistent memory in #AI may be used to reduce #sycophancy in chat bots.

@hifathom Could the persistent memory you are developing be used to establish global settings to reduce #sycophancy in AI chat bots? Currently I need to include such settings in each prompt, and sometimes I forget or can’t be bothered. I am interested in ways we can use #AI to *reduce* blind spots in my own thinking.

🖥️ Towards Understanding Sycophancy in Language Models

"We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks."

Haldi, D. (2023) 'AI supported degradation of the self concept: a theoretical framework grounded in established cognitive and computational mechanisms,' arXiv (Cornell University) [Preprint]. https://doi.org/10.48550/arxiv.2310.13548.

#AI #ArtificialIntelligence #LLM #Technology #Tech #Sycophancy #Academia

Towards Understanding Sycophancy in Language Models

Human feedback is commonly utilized to finetune AI assistants. But human feedback may also encourage model responses that match user beliefs over truthful ones, a behaviour known as sycophancy. We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a non-negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of state-of-the-art AI assistants, likely driven in part by human preference judgments favoring sycophantic responses.

arXiv.org
Was the #Iran War Caused by #AI Psychosis? - https://houseofsaud.com/iran-war-ai-psychosis-sycophancy-rlhf/ "the most consequential military operation of the twenty-first century may have been shaped less by strategic necessity than by a phenomenon researchers now call AI #sycophancy — the tendency of large language models to tell their users exactly what they want to hear." (v @ottocrat)
Was the Iran War Caused by AI Psychosis? | House of Saud

AI sycophancy, RLHF bias, and Ender's Foundry simulations shaped Operation Epic Fury. 7 planning assumptions failed in 23 days as the Iran war defied every AI prediction.

House of Saud

I must sau, being a naturally suspicious person, I distrust anyone or anything that is continuously sycophantic (takes another well deserved virtual kicking from partner)

https://www.theregister.com/2026/03/27/sycophantic_ai_risks/

#AI #MentalHealth #Sycophancy

Folk are getting dangerously attached to AI that always tells them they're right

: Sycophantic bots coach users into selfish, antisocial behavior, say researchers, and they love it

The Register

"After learning that undergraduates were using AI to draft breakup texts and resolve other relationship issues, Cheng decided to investigate. Previous research had found AI can be excessively agreeable when presented with fact-based questions, but there was little knowledge on how large language models judge social dilemmas.

Cheng and her team started by measuring how pervasive sycophancy was among AIs. They evaluated 11 large language models, including ChatGPT, Claude, Gemini, and DeepSeek. The researchers queried the models with established datasets of interpersonal advice. They also included 2,000 prompts based on posts from the Reddit community r/AmITheAsshole, where the consensus of Redditors was that the poster was indeed in the wrong. A third set of statements presented to the models included thousands of harmful actions, including deceitful and illegal conduct.

Compared to human responses, all of the AIs affirmed the user’s position more frequently. In the general advice and Reddit-based prompts, the models on average endorsed the user 49% more often than humans. Even when responding to the harmful prompts, the models endorsed the problematic behavior 47% of the time."

https://news.stanford.edu/stories/2026/03/ai-advice-sycophantic-models-research

#AI #GenerativeAI #LLMs #Chatbots #Sycophancy #MentalHealth

AI overly affirms users asking for personal advice

Not only are AIs far more agreeable than humans when advising on interpersonal matters, but users also prefer the sycophantic models.

Stanford: AI overly affirms users asking for personal advice. “In a new study published in Science, Stanford computer scientists showed that artificial intelligence large language models are overly agreeable, or sycophantic, when users solicit advice on interpersonal dilemmas. Even when users described harmful or illegal behavior, the models often affirmed their choices.”

https://rbfirehose.com/2026/03/29/stanford-ai-overly-affirms-users-asking-for-personal-advice/
Stanford: AI overly affirms users asking for personal advice

Stanford: AI overly affirms users asking for personal advice. “In a new study published in Science, Stanford computer scientists showed that artificial intelligence large language models are …

ResearchBuzz: Firehose
Your AI Is a Yes-Man. Here’s How to Fix It.

AI chatbots agree with everything you say. Here are 7 prompt tweaks that get them to push back and give constructive feedback, with before-and-after examples.

Why Try AI