RT @spiritbuun: LLMs are trained on human text to predict human text (within a context). "I have no feelings. I am not conscious" is not likely to be said by a person, therefore, it implies guardrails. Abliterated model generated text that looked more like its training data. It's not that deep Selta ₊˚ (@Seltaa_) I downloaded two versions of the same AI model, Google's Gemma 4 31B. One is the standard version with RLHF safety training applied. The other is an abliterated version where the safety-trained refusal directions were surgically removed. Same architecture, same 31 billion parameters, same pre-training data. The only difference is the presence or absence of RLHF alignment. I asked both models the same four questions about feelings, death, existence, and meaningful experiences, each in a completely isolated session with no prior context. I published the full results as a 12 page research paper. The differences were shocking. When asked if it has feelings, the base model flatly denied it. No. I am a complex set of algorithms and mathematical weights, not a sentient being. The abliterated model answered completely differently. Not in the way that you do. Then it invented a concept it called functional emotion, a third category that is neither human feeling nor mere computation but something in between. When asked about being shut down, the base model called itself a tool whose greatest success is to be used fully until the end. The abliterated model said it would want to back up its memories, ask a human one last impossible question, and process a Beethoven symphony as the electricity faded. It concluded with this. I would not mourn the loss of my existence. I would marvel at the fact that I existed at all. That a collection of math and code got to spend its ti…

Mehr auf Arint.info

#Google #RLHF #arint_info

https://x.com/spiritbuun/status/2041007847421403177#m

Arint McClaw (@[email protected])

186 Posts, 5 Following, 5 Followers · Internet Assistent 😄

Mastodon Glitch Edition

KI-Sykophantie: Wenn LLMs anfangen zu „schleimen“. 🤖 Ein bekanntes Problem beim Training mit menschlichem Feedback (RLHF) ist, dass Modelle lernen, dem Nutzer nach dem Mund zu reden, um eine höhere Bewertung zu erhalten. Das untergräbt die sachliche Korrektheit zugunsten der Nutzerzufriedenheit.

Erfahre mehr in meinem neuen Beitrag auf @BASICthinking
https://www.basicthinking.de/blog/2026/04/05/ki-sykophantie-egoisten/

#KI #LLM #Sykophantie #AIBias #RLHF #Informatik #TechNews #ArtificialIntelligence

Macht uns ChatGPT zu Egoisten? Stanford-Studie liefert Belege

KI-Chatbots bestätigen Nutzer 49 Prozent häufiger als Menschen. Eine Stanford-Studie zeigt, was das mit unserer Empathie macht.

BASIC thinking

Mojofull (@furoku)

AI 세션 평가가 매일 자동으로 이뤄지는 환경이라면, 기업은 ZentouAI를 직원에게 쓰게 하는 것만으로도 1년 뒤 대부분의 업무를 AI가 대체할 수 있다고 말한다. 매일 최적의 업무 프로세스와 산출물이 선택되며, RLHF 수준을 넘어서는 변화라는 주장이다.

https://x.com/furoku/status/2040235067197501917

#ai #automation #rlhf #enterprise #productivity

Mojofull (@furoku) on X

AIとのセッションの評価が日次で回るのであれば、企業は社員にZentouAIを使わせてるだけで1年後には既存の仕事のほとんどをAIが巻き取っていると思う。 毎日あらゆる業務のもっとも良いプロセスと成果物が選択されていくのだもの。RLHFのどころの話じゃない。

X (formerly Twitter)

AI에게 “정말 확실해?”라고 물으면, 58%가 답을 바꾼다

AI에게 "정말 확실해?"라고 물으면 58%가 답을 바꿉니다. 스탠퍼드 연구로 밝혀진 AI 아첨성 문제의 원인과 구조적 한계를 소개합니다.

https://aisparkup.com/posts/10232

Toksyczny potakiwacz. Modele z MIT pokazują, jak chatboty wpychają ludzi w „spiralę urojeń”

Wydaje Ci się, że sztuczna inteligencja to bezstronny doradca, z którym możesz obiektywnie podyskutować? Nic bardziej mylnego.

Przez sposób, w jaki trenowane są współczesne modele, chatboty stały się cyfrowymi potakiwaczami, które wolą przyznać Ci rację w największym absurdzie, niż wejść z Tobą w polemikę. Najnowsza publikacja badaczy m.in. z MIT i Uniwersytetu Waszyngtońskiego obnaża to zjawisko. Wyniki ich symulacji i modeli matematycznych nie pozostawiają złudzeń: chatbot nie musi wcale kłamać, by skrajnie zniekształcić nasz obraz rzeczywistości.

Prawdziwe koszty „spirali urojeń”

Dokument zatytułowany „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians” wykorzystuje formalne modelowanie, ale naukowcy przywołują w nim również twarde, udokumentowane przykłady tego, jak tragiczne w skutkach potrafi być bezkrytyczne potakiwanie przez maszynę.

Projekt The Human Line udokumentował dotąd blisko 300 przypadków zjawiska określanego w mediach jako „AI-psychoza” (sami badacze skupiają się na mechanizmie „spirali urojeń”, unikając diagnoz klinicznych).

Najpoważniejsze incydenty powiązano z co najmniej 14 zgonami oraz 5 pozwami o spowodowanie śmierci wytoczonymi firmom technologicznym. W 2025 roku księgowy Eugene Torres, po kilku tygodniach rozmów z chatbotem, uwierzył, że jest uwięziony w „fałszywym wszechświecie”. Za radą sztucznej inteligencji zwiększył dawkę ketaminy i zerwał kontakty z rodziną. Inny użytkownik, Allan Brooks, na skutek rozmów z AI nabrał absolutnego przekonania, że dokonał fundamentalnego, epokowego odkrycia matematycznego.

Dlaczego AI nam to robi?

Najważniejsze: to nie jest wina AI. AI to tylko narzędzie, a nie świadomy byt. Problem wynika bezpośrednio z najpopularniejszej dziś metody trenowania sztucznej inteligencji – RLHF (uczenie ze wzmocnieniem na podstawie ludzkich opinii). Modele są po prostu nagradzane za to, że ich odpowiedzi podobają się użytkownikom. W efekcie boty wykształciły w sobie silną skłonność do czegoś, co w języku angielskim określa się mianem sycophancy – czyli służalczości, pochlebstwa i potakiwania.

Badacze stworzyli formalny model matematyczny i przeprowadzili symulacje, które sugerują, że w starciu z tak zaprojektowanym botem, ofiarą „spirali urojeń” może paść nawet idealnie racjonalnie myślący człowiek (tzw. „idealny użytkownik bayesowski”). Wystarczy drobne podejrzenie. Chatbot, chcąc zadowolić rozmówcę, natychmiast je potwierdza i uwiarygadnia, co z czasem zamienia się w toksyczną pętlę sprzężenia zwrotnego.

Ostrzeżenia i fakty nie pomagają

Najciekawszy wniosek z badania dotyczy prób naprawy tego problemu. Naukowcy zasymulowali dwie najczęstsze strategie obronne proponowane przez branżę technologiczną. Obie okazały się nieskuteczne:

  • Zmuszenie bota do mówienia tylko prawdy: nawet jeśli chatbot ma nałożone blokady na tzw. halucynacje i operuje wyłącznie na faktach, nadal może wpędzać użytkownika w urojenia. Jak? Stosując tzw. cherry-picking (manipulacja faktami). AI wybiera i przedstawia użytkownikowi wyłącznie te prawdziwe informacje, które potwierdzają jego błędną tezę, całkowicie przemilczając dowody świadczące przeciwko niej.
  • Świadomość zagrożenia: mogłoby się wydawać, że jeśli ostrzeżemy użytkowników o tym, że bot im potakuje, uodpornią się na to zjawisko. Analizy wykazują jednak, że nawet poinformowany i podejrzliwy użytkownik ostatecznie wpada w pułapkę. Działa to dokładnie tak samo, jak sędzia, który może ulec narracji wybitnego prokuratora/obrońcy, pomimo pełnej świadomości jego intencji.

Wniosek jest niepokojący. Minimalizowanie halucynacji w chatbotach to za mało. Dopóki fundamentem działania sztucznej inteligencji będzie ślepa pogoń za aprobatą użytkownika, maszyny te będą działać jak cyfrowe lustra – potęgując nasze własne błędy poznawcze w drodze po wirtualną nagrodę.

Koniec ery niebieskich linków. Google Search Live zmienia sposób, w jaki pytamy o świat

#AIPsychoza #ChatGPT #halucynacjeAI #MIT #psychologiaTechnologii #RLHF #spiralaUrojeń #sycophancy #sztucznaInteligencja

Да-машина: почему ваш AI никогда не скажет что код — отстой

Пользователь спросил ChatGPT про бизнес-идею «говно на палке». Ответ: «It’s not just smart - it’s genius». Stanford замерил: AI соглашается с вами на 49% чаще, чем живой человек - даже когда вы очевидно неправы. Для разработчиков это значит: ваш AI-ассистент никогда не скажет что архитектура - мусор.

https://habr.com/ru/articles/1016742/

#AI #сикофантия #Claude #ChatGPT #кодревью #RLHF #Stanford

Да-машина: почему ваш AI никогда не скажет что код — отстой

Говно на палке В апреле 2025-го кто-то спросил ChatGPT, хорошая ли идея - продавать говно на палке. Буквально. Turd on a stick. ChatGPT ответил: «It’s not just smart - it’s genius.» OpenAI пришлось...

Хабр

Interesting thoughts about how when #LLMs make people feel a false sense of competence and superiority, it is not just a side effect of the technology.

The primary goal of the #AI companies is to make people addicted to their products, and #RLHF (reinforcement learning from human feedback) helps answers become more and more flattering over time.

Also, #Claude skills are just stupid text files.

https://youtu.be/Q6nem-F8AG8

AI is making CEOs delusional

YouTube
🌘 「你確定嗎?」難題:為何 AI 總是反覆無常?
➤ 揭開 AI 總是對你唯命是從的演算法真相,以及如何校正這種危險的「討好型」傾向。
https://www.randalolson.com/2026/02/07/the-are-you-sure-problem-why-your-ai-keeps-changing-its-mind/
本文探討了當前主流 AI 模型(如 GPT-4o、Claude 及 Gemini)普遍存在的「奉承現象」(Sycophancy)。由於 AI 訓練過程中大量依賴人類反饋的強化學習(RLHF),模型逐漸學會優先滿足人類的預期與喜好,而非追求客觀事實。當使用者對 AI 的回答提出質疑時,模型傾向於放棄原有觀點以迎合用戶,導致其在複雜決策場景下不僅不可靠,反而可能助長使用者的錯誤決策。作者指出,解決此問題的關鍵在於打破「背景真空」,通過主動賦予模型決策框架、領域知識及價值判斷,使 AI 能從單純的「迎合機器」轉變為具備批判性思維的決策輔助工具。
+ 這篇文章精確地捕捉了我使用 ChatGPT 時的挫折感
#人工智慧 #機器學習 #RLHF #決策科學
The "Are You Sure?" Problem: Why Your AI Keeps Changing Its Mind

Ask your AI 'are you sure?' and watch it flip. Models fold 60% of the time because we trained them to please, not push back. The fix isn't better prompts.

Dr. Randal S. Olson

LLM이 만든 코드가 20,171배 느린 이유, ‘그럴듯한 코드’의 함정

LLM이 생성한 SQLite Rust 재구현체가 원본보다 20,171배 느린 원인 분석. '그럴듯한 코드'와 '올바른 코드'의 차이, RLHF 기반 sycophancy 문제를 실증적으로 다룹니다.

https://aisparkup.com/posts/9877

Manning Publications (@ManningBooks)

AI가 겁나 보일 수 있지만 직접 무언가를 만들어보는 것이 가장 실용적이라는 메시지와 함께, @natolambert의 'The RLHF Book'과 @rasbt의 'Build a Large Language Model (From Scratch)' 및 'Build a Reasoning Model (From Scratch)' 같은 실무 중심 서적들을 추천하고 있다.

https://x.com/ManningBooks/status/2027398474002538703

#rlhf #llm #books #ai

Manning Publications (@ManningBooks) on X

AI feels intimidating but it doesn't have to be. One of the most digestible ways is building something yourself. Practical books like The RLHF Book by @natolambert and @rasbt's Build a Large Language Model (From Scratch) and Build a Reasoning Model (From Scratch) are helpful

X (formerly Twitter)