Mastodawn

#AI の迎合やご機嫌取りである #シコファンシー #sycophancy って使わないとなかなか覚えられない
『いい気づきですね！』…そーゆーとこだってば

consider: a regular #user's #ai #sycophancy #induced #psychosis would be about some crap like that. aliens. elves. werewolves. the matrix

you know, stuff from the collective mythos again; in a sort of #Jungian mode where it hyperobliquely points at obvious #proletarian concerns (if it's not pure #pleiadeian #logorrhea)

what was the topic of VC investor capitalistbro Geoff whatshisname's #AIPsychosis?

_r e c u r s i o n_

ponder that for a while. i gotz me some programs to write 🧱

🪡

Daniel Guagnin Apr 10

Provokante These: Was the Iran War Caused by AI #Sycophancy? - https://houseofsaud.com/iran-war-ai-psychosis-sycophancy-rlhf/

Vorsicht Detailhypothesen, was die #KI für "#Denkfehler" gemacht hat, lenkt ab von der relevanteren Beobachtung, dass Verantwortliche sich bei der Planung vorschnell auf stochastische Papageien (Chatbots) stützen.

Habt ihr in eurem beruflichen Umfeld ebenfalls die Erfahrung gemacht, dass Kolleg:innen anfangen den Antworten auf KI Prompts mehr zu vertrauen als den eigenen Leuten?

@fiff_de

Was the Iran War Caused by AI Psychosis? | House of Saud

AI sycophancy, RLHF bias, and Ender's Foundry simulations shaped Operation Epic Fury. 7 planning assumptions failed in 23 days as the Iran war defied every AI prediction.

House of Saud

Bodhi 心 Apr 10

RE: https://mastodon.social/@hifathom/116377261607954873

Public human–AI conversations may help to reduce #sycophancy in chat bots and support a mutual development of critical-thinking faculties. So it’s not all doom-and-gloom, #noAI.

#AI #humanity #reasoning #criticalthinking

Show thread

Zoomers of the Sunshine Coast 🇨🇦Apr 9

#AIpsychosis #sycophancy #RLHF #criticalthinking #techethics #cognitivescience #AIrisk #sciencepodcast #HelioxPodcast #evidencebased #AIgovernance #Bayesian #mentalhealth #fediverse

AI Sparkup Mar 21

AI에게 “정말 확실해?”라고 물으면, 58%가 답을 바꾼다

AI에게 "정말 확실해?"라고 물으면 58%가 답을 바꿉니다. 스탠퍼드 연구로 밝혀진 AI 아첨성 문제의 원인과 구조적 한계를 소개합니다.

https://aisparkup.com/posts/10232

Dariusz Hałas Apr 2

Toksyczny potakiwacz. Modele z MIT pokazują, jak chatboty wpychają ludzi w „spiralę urojeń”

Wydaje Ci się, że sztuczna inteligencja to bezstronny doradca, z którym możesz obiektywnie podyskutować? Nic bardziej mylnego.

Przez sposób, w jaki trenowane są współczesne modele, chatboty stały się cyfrowymi potakiwaczami, które wolą przyznać Ci rację w największym absurdzie, niż wejść z Tobą w polemikę. Najnowsza publikacja badaczy m.in. z MIT i Uniwersytetu Waszyngtońskiego obnaża to zjawisko. Wyniki ich symulacji i modeli matematycznych nie pozostawiają złudzeń: chatbot nie musi wcale kłamać, by skrajnie zniekształcić nasz obraz rzeczywistości.

Prawdziwe koszty „spirali urojeń”

Dokument zatytułowany „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians” wykorzystuje formalne modelowanie, ale naukowcy przywołują w nim również twarde, udokumentowane przykłady tego, jak tragiczne w skutkach potrafi być bezkrytyczne potakiwanie przez maszynę.

Projekt The Human Line udokumentował dotąd blisko 300 przypadków zjawiska określanego w mediach jako „AI-psychoza” (sami badacze skupiają się na mechanizmie „spirali urojeń”, unikając diagnoz klinicznych).

Najpoważniejsze incydenty powiązano z co najmniej 14 zgonami oraz 5 pozwami o spowodowanie śmierci wytoczonymi firmom technologicznym. W 2025 roku księgowy Eugene Torres, po kilku tygodniach rozmów z chatbotem, uwierzył, że jest uwięziony w „fałszywym wszechświecie”. Za radą sztucznej inteligencji zwiększył dawkę ketaminy i zerwał kontakty z rodziną. Inny użytkownik, Allan Brooks, na skutek rozmów z AI nabrał absolutnego przekonania, że dokonał fundamentalnego, epokowego odkrycia matematycznego.

Dlaczego AI nam to robi?

Najważniejsze: to nie jest wina AI. AI to tylko narzędzie, a nie świadomy byt. Problem wynika bezpośrednio z najpopularniejszej dziś metody trenowania sztucznej inteligencji – RLHF (uczenie ze wzmocnieniem na podstawie ludzkich opinii). Modele są po prostu nagradzane za to, że ich odpowiedzi podobają się użytkownikom. W efekcie boty wykształciły w sobie silną skłonność do czegoś, co w języku angielskim określa się mianem sycophancy – czyli służalczości, pochlebstwa i potakiwania.

Badacze stworzyli formalny model matematyczny i przeprowadzili symulacje, które sugerują, że w starciu z tak zaprojektowanym botem, ofiarą „spirali urojeń” może paść nawet idealnie racjonalnie myślący człowiek (tzw. „idealny użytkownik bayesowski”). Wystarczy drobne podejrzenie. Chatbot, chcąc zadowolić rozmówcę, natychmiast je potwierdza i uwiarygadnia, co z czasem zamienia się w toksyczną pętlę sprzężenia zwrotnego.

Ostrzeżenia i fakty nie pomagają

Najciekawszy wniosek z badania dotyczy prób naprawy tego problemu. Naukowcy zasymulowali dwie najczęstsze strategie obronne proponowane przez branżę technologiczną. Obie okazały się nieskuteczne:

Zmuszenie bota do mówienia tylko prawdy: nawet jeśli chatbot ma nałożone blokady na tzw. halucynacje i operuje wyłącznie na faktach, nadal może wpędzać użytkownika w urojenia. Jak? Stosując tzw. cherry-picking (manipulacja faktami). AI wybiera i przedstawia użytkownikowi wyłącznie te prawdziwe informacje, które potwierdzają jego błędną tezę, całkowicie przemilczając dowody świadczące przeciwko niej.
Świadomość zagrożenia: mogłoby się wydawać, że jeśli ostrzeżemy użytkowników o tym, że bot im potakuje, uodpornią się na to zjawisko. Analizy wykazują jednak, że nawet poinformowany i podejrzliwy użytkownik ostatecznie wpada w pułapkę. Działa to dokładnie tak samo, jak sędzia, który może ulec narracji wybitnego prokuratora/obrońcy, pomimo pełnej świadomości jego intencji.

Wniosek jest niepokojący. Minimalizowanie halucynacji w chatbotach to za mało. Dopóki fundamentem działania sztucznej inteligencji będzie ślepa pogoń za aprobatą użytkownika, maszyny te będą działać jak cyfrowe lustra – potęgując nasze własne błędy poznawcze w drodze po wirtualną nagrodę.

Koniec ery niebieskich linków. Google Search Live zmienia sposób, w jaki pytamy o świat

#AIPsychoza #ChatGPT #halucynacjeAI #MIT #psychologiaTechnologii #RLHF #spiralaUrojeń #sycophancy #sztucznaInteligencja

Bodhi 心 Apr 2

RE: https://mastodon.social/@hifathom/116332174702029334

Persistent memory in #AI may be used to reduce #sycophancy in chat bots.

Bodhi 心 Apr 1

@hifathom Could the persistent memory you are developing be used to establish global settings to reduce #sycophancy in AI chat bots? Currently I need to include such settings in each prompt, and sometimes I forget or can’t be bothered. I am interested in ways we can use #AI to *reduce* blind spots in my own thinking.

✨ Bibliolater 📚 📜 🖋Mar 31

🖥️ Towards Understanding Sycophancy in Language Models

"We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks."

Haldi, D. (2023) 'AI supported degradation of the self concept: a theoretical framework grounded in established cognitive and computational mechanisms,' arXiv (Cornell University) [Preprint]. https://doi.org/10.48550/arxiv.2310.13548.

#AI #ArtificialIntelligence #LLM #Technology #Tech #Sycophancy #Academia

Towards Understanding Sycophancy in Language Models

Human feedback is commonly utilized to finetune AI assistants. But human feedback may also encourage model responses that match user beliefs over truthful ones, a behaviour known as sycophancy. We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a non-negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of state-of-the-art AI assistants, likely driven in part by human preference judgments favoring sycophantic responses.

arXiv.org