Aryaman Arora (@aryaman2020)
Anthropic 인터프리터/해석 연구가 대조적 합성 데이터를 이용해 supervised steering vectors를 추출하는 아이디어를 따라잡았다는 평가다. 모델 해석성과 제어를 위한 연구 흐름의 진전으로 볼 수 있다.
https://x.com/aryaman2020/status/2039761326440898672
#anthropic #interpretability #syntheticdata #steeringvectors #llm