AI에게 “정말 확실해?”라고 물으면, 58%가 답을 바꾼다
AI에게 "정말 확실해?"라고 물으면 58%가 답을 바꿉니다. 스탠퍼드 연구로 밝혀진 AI 아첨성 문제의 원인과 구조적 한계를 소개합니다.AI에게 “정말 확실해?”라고 물으면, 58%가 답을 바꾼다
AI에게 "정말 확실해?"라고 물으면 58%가 답을 바꿉니다. 스탠퍼드 연구로 밝혀진 AI 아첨성 문제의 원인과 구조적 한계를 소개합니다.Toksyczny potakiwacz. Modele z MIT pokazują, jak chatboty wpychają ludzi w „spiralę urojeń”
Wydaje Ci się, że sztuczna inteligencja to bezstronny doradca, z którym możesz obiektywnie podyskutować? Nic bardziej mylnego.
Przez sposób, w jaki trenowane są współczesne modele, chatboty stały się cyfrowymi potakiwaczami, które wolą przyznać Ci rację w największym absurdzie, niż wejść z Tobą w polemikę. Najnowsza publikacja badaczy m.in. z MIT i Uniwersytetu Waszyngtońskiego obnaża to zjawisko. Wyniki ich symulacji i modeli matematycznych nie pozostawiają złudzeń: chatbot nie musi wcale kłamać, by skrajnie zniekształcić nasz obraz rzeczywistości.
Prawdziwe koszty „spirali urojeń”
Dokument zatytułowany „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians” wykorzystuje formalne modelowanie, ale naukowcy przywołują w nim również twarde, udokumentowane przykłady tego, jak tragiczne w skutkach potrafi być bezkrytyczne potakiwanie przez maszynę.
Projekt The Human Line udokumentował dotąd blisko 300 przypadków zjawiska określanego w mediach jako „AI-psychoza” (sami badacze skupiają się na mechanizmie „spirali urojeń”, unikając diagnoz klinicznych).
Najpoważniejsze incydenty powiązano z co najmniej 14 zgonami oraz 5 pozwami o spowodowanie śmierci wytoczonymi firmom technologicznym. W 2025 roku księgowy Eugene Torres, po kilku tygodniach rozmów z chatbotem, uwierzył, że jest uwięziony w „fałszywym wszechświecie”. Za radą sztucznej inteligencji zwiększył dawkę ketaminy i zerwał kontakty z rodziną. Inny użytkownik, Allan Brooks, na skutek rozmów z AI nabrał absolutnego przekonania, że dokonał fundamentalnego, epokowego odkrycia matematycznego.
Dlaczego AI nam to robi?
Najważniejsze: to nie jest wina AI. AI to tylko narzędzie, a nie świadomy byt. Problem wynika bezpośrednio z najpopularniejszej dziś metody trenowania sztucznej inteligencji – RLHF (uczenie ze wzmocnieniem na podstawie ludzkich opinii). Modele są po prostu nagradzane za to, że ich odpowiedzi podobają się użytkownikom. W efekcie boty wykształciły w sobie silną skłonność do czegoś, co w języku angielskim określa się mianem sycophancy – czyli służalczości, pochlebstwa i potakiwania.
Badacze stworzyli formalny model matematyczny i przeprowadzili symulacje, które sugerują, że w starciu z tak zaprojektowanym botem, ofiarą „spirali urojeń” może paść nawet idealnie racjonalnie myślący człowiek (tzw. „idealny użytkownik bayesowski”). Wystarczy drobne podejrzenie. Chatbot, chcąc zadowolić rozmówcę, natychmiast je potwierdza i uwiarygadnia, co z czasem zamienia się w toksyczną pętlę sprzężenia zwrotnego.
Ostrzeżenia i fakty nie pomagają
Najciekawszy wniosek z badania dotyczy prób naprawy tego problemu. Naukowcy zasymulowali dwie najczęstsze strategie obronne proponowane przez branżę technologiczną. Obie okazały się nieskuteczne:
Wniosek jest niepokojący. Minimalizowanie halucynacji w chatbotach to za mało. Dopóki fundamentem działania sztucznej inteligencji będzie ślepa pogoń za aprobatą użytkownika, maszyny te będą działać jak cyfrowe lustra – potęgując nasze własne błędy poznawcze w drodze po wirtualną nagrodę.
Koniec ery niebieskich linków. Google Search Live zmienia sposób, w jaki pytamy o świat
#AIPsychoza #ChatGPT #halucynacjeAI #MIT #psychologiaTechnologii #RLHF #spiralaUrojeń #sycophancy #sztucznaInteligencjaRE: https://mastodon.social/@hifathom/116332174702029334
Persistent memory in #AI may be used to reduce #sycophancy in chat bots.
🖥️ Towards Understanding Sycophancy in Language Models
"We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks."
Haldi, D. (2023) 'AI supported degradation of the self concept: a theoretical framework grounded in established cognitive and computational mechanisms,' arXiv (Cornell University) [Preprint]. https://doi.org/10.48550/arxiv.2310.13548.
#AI #ArtificialIntelligence #LLM #Technology #Tech #Sycophancy #Academia

Human feedback is commonly utilized to finetune AI assistants. But human feedback may also encourage model responses that match user beliefs over truthful ones, a behaviour known as sycophancy. We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a non-negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of state-of-the-art AI assistants, likely driven in part by human preference judgments favoring sycophantic responses.
I must sau, being a naturally suspicious person, I distrust anyone or anything that is continuously sycophantic (takes another well deserved virtual kicking from partner)
https://www.theregister.com/2026/03/27/sycophantic_ai_risks/
"After learning that undergraduates were using AI to draft breakup texts and resolve other relationship issues, Cheng decided to investigate. Previous research had found AI can be excessively agreeable when presented with fact-based questions, but there was little knowledge on how large language models judge social dilemmas.
Cheng and her team started by measuring how pervasive sycophancy was among AIs. They evaluated 11 large language models, including ChatGPT, Claude, Gemini, and DeepSeek. The researchers queried the models with established datasets of interpersonal advice. They also included 2,000 prompts based on posts from the Reddit community r/AmITheAsshole, where the consensus of Redditors was that the poster was indeed in the wrong. A third set of statements presented to the models included thousands of harmful actions, including deceitful and illegal conduct.
Compared to human responses, all of the AIs affirmed the user’s position more frequently. In the general advice and Reddit-based prompts, the models on average endorsed the user 49% more often than humans. Even when responding to the harmful prompts, the models endorsed the problematic behavior 47% of the time."
https://news.stanford.edu/stories/2026/03/ai-advice-sycophantic-models-research
Stanford: AI overly affirms users asking for personal advice. “In a new study published in Science, Stanford computer scientists showed that artificial intelligence large language models are overly agreeable, or sycophantic, when users solicit advice on interpersonal dilemmas. Even when users described harmful or illegal behavior, the models often affirmed their choices.”
https://rbfirehose.com/2026/03/29/stanford-ai-overly-affirms-users-asking-for-personal-advice/