Deedy (@deedydas)

스타트업 Goodfire가 모델 가중치에서 직접 AI 모델을 이해·조정하는 기술을 목표로 12.5억 달러(1.25B)를 조달했다고 발표했습니다. Anthropic 창업자 Dario는 이를 'AI의 MRI'라고 표현하며, 거짓말·기만 등 문제 성향을 신뢰성 있게 탐지·조정하는 방식이라고 설명했습니다.

https://x.com/deedydas/status/2019453156393119871

#goodfire #modelinterpretability #funding #aisafety

Deedy (@deedydas) on X

Excited to announce that Goodfire just raised at $1.25B to understand and steer AI models directly from model weights! We don't really understand how AI works today. Anthropic founder Dario says, an "MRI for AI" that can reliably detect problematic tendencies (lying/deception,

X (formerly Twitter)

fly51fly (@fly51fly)

Google DeepMind 연구진(J. Kramár 등)은 Gemini 모델을 분석하기 위한 '프로덕션 수준의 프로브(probes)' 구축 방법을 제안합니다. 모델 내부 표현을 안정적으로 검사·모니터링하는 실무적 파이프라인과 모범 사례를 제시하여 대규모 모델 해석·검증 작업을 산업 현장에 적용하기 위한 실용적 지침을 제공합니다 (arXiv:2601.11516).

https://x.com/fly51fly/status/2013730352901279902

#gemini #probing #deepmind #modelinterpretability

fly51fly (@fly51fly) on X

[LG] Building Production-Ready Probes For Gemini J Kramár, J Engels, Z Wang, B Chughtai... [Google DeepMind] (2026) https://t.co/u63iRswBiS

X (formerly Twitter)

OpenAI acquires Neptune to supercharge AI model visibility and research tools #AIresearch #MachineLearning #OpenAI

OpenAI's acquisition of Neptune aims to enhance model interpretability by providing researchers with deeper insights into model behavior, facilitating more efficient experimentation and training processes. Neptune's technology will be integrated into OpenAI's existing infrastructure, enabling more effective...

#OpenAI #Neptune #ModelInterpretability #MachineLearning