AISatoshi (@AiXsatoshi)
Kimi K2.5의 기술 포인트를 소개한 글로, 1T 파라미터 LLM 학습 성공과 함께 context, Agent, multimodal로의 확장을 강조한다. MU Optimizer와 QK Clip은 학습 안정성을 해치지 않으면서 더 적은 토큰으로 더 똑똑하게 만들고, Kim linear는 초장문에서 필요한 정보는 남기고 불필요한 정보는 잊도록 돕는다. Agent Swarms도 핵심 기능으로 언급된다.
AISatoshi (@AiXsatoshi)
Kimi K2.5의 기술 포인트를 소개한 글로, 1T 파라미터 LLM 학습 성공과 함께 context, Agent, multimodal로의 확장을 강조한다. MU Optimizer와 QK Clip은 학습 안정성을 해치지 않으면서 더 적은 토큰으로 더 똑똑하게 만들고, Kim linear는 초장문에서 필요한 정보는 남기고 불필요한 정보는 잊도록 돕는다. Agent Swarms도 핵심 기능으로 언급된다.