BijanBowen (@Ominousind)

Anthropic의 모델을 대상으로 한 새로운 지식 증류(distillation) 공격 데모가 공개되었다. GPT-5.2를 교사 모델로 사용하고, Llama 3B 모델에 QLoRA를 적용하여 50개의 출력만으로도 큰 성능 전이가 이루어졌음을 보여주었다. 이는 대형 언어 모델(LLM)의 지식을 소형 모델로 이전하는 혁신적 방법으로, 모델 복제 및 보안 측면에서 중요한 연구 시사점을 제공한다.

https://x.com/Ominousind/status/2026306850879144221

#anthropic #gpt5 #llm #distillation #qlora

BijanBowen (@Ominousind) on X

Stop watching creators just share their feels. Here is an actual, local demonstration of the Anthropic distillation attack. GPT-5.2 (Teacher) -> 50 outputs -> QLoRA on Llama 3B -> Huge capability transfer. This is how you "steal" an AI's brain.

X (formerly Twitter)