Q*Satoshi (@AiXsatoshi)
LongCat-Flash-Thinking 모델(560B)은 전체 중 단 27B(4.8%)만 활성화되고, 512개의 전문가(experts) 중 12개만 활성화되는 매우 낮은 활성화 비율을 보고한 내용입니다. 비교로 DeepSeek(671B)은 37B(5.5%) 활성화로, 희소 활성화(sparse activation)/Mixture-of-Experts 특성이 강조된 관찰입니다.
Q*Satoshi (@AiXsatoshi)
LongCat-Flash-Thinking 모델(560B)은 전체 중 단 27B(4.8%)만 활성화되고, 512개의 전문가(experts) 중 12개만 활성화되는 매우 낮은 활성화 비율을 보고한 내용입니다. 비교로 DeepSeek(671B)은 37B(5.5%) 활성화로, 희소 활성화(sparse activation)/Mixture-of-Experts 특성이 강조된 관찰입니다.