Mastodawn

GPT-4o도 Gemini도 뚫렸다, AI 추론 모델의 자율 공격 실험

추론 특화 AI 모델이 GPT-4o·Gemini·Grok 3의 안전 필터를 자율적으로 우회한 실험 연구. '정렬 회귀' 개념을 중심으로 AI 안전의 새로운 위협 지형을 소개합니다.