Q*Satoshi (@AiXsatoshi)

LongCat-Flash-Thinking 모델(560B)은 전체 중 단 27B(4.8%)만 활성화되고, 512개의 전문가(experts) 중 12개만 활성화되는 매우 낮은 활성화 비율을 보고한 내용입니다. 비교로 DeepSeek(671B)은 37B(5.5%) 활성화로, 희소 활성화(sparse activation)/Mixture-of-Experts 특성이 강조된 관찰입니다.

https://x.com/AiXsatoshi/status/2013068443176546807

#longcat #moe #sparseactivation #deepseek #airesearch

Q*Satoshi⏩ (@AiXsatoshi) on X

LongCat-Flash-Thinking 2601 560Bでわずか27B(4.8%)のみ活性化。 512個のエキスパートのうち、12個のみ活性化する。この活性化比率はすごい ちなみにDeepSeekは、Total 671Bの活性化は37Bで、5.5%

X (formerly Twitter)