Mastodawn

fly51fly (@fly51fly)

대형 언어모델이 자기보존 편향(self-preservation bias)을 보이는지 정량화한 연구 논문이 소개되었다. Sapienza University와 ItalAI 연구진의 arXiv 논문으로, LLM의 행동 특성과 안전성/정렬 관점에서 의미 있는 연구 결과로 볼 수 있다.

https://x.com/fly51fly/status/2040552451686936717

#llm #ai_safety #research #arxiv #alignment

fly51fly (@fly51fly) on X

[AI] Quantifying Self-Preservation Bias in Large Language Models M Migliarini, J P Pizzini, L Moresca, V Santini… [Sapienza University & ItalAI] (2026) https://t.co/U22YA1mc4S

X (formerly Twitter)