Q*Satoshi (@AiXsatoshi)
LongCat-Flash-Thinking 모델(560B)은 전체 중 단 27B(4.8%)만 활성화되고, 512개의 전문가(experts) 중 12개만 활성화되는 매우 낮은 활성화 비율을 보고한 내용입니다. 비교로 DeepSeek(671B)은 37B(5.5%) 활성화로, 희소 활성화(sparse activation)/Mixture-of-Experts 특성이 강조된 관찰입니다.
Q*Satoshi (@AiXsatoshi)
LongCat-Flash-Thinking 모델(560B)은 전체 중 단 27B(4.8%)만 활성화되고, 512개의 전문가(experts) 중 12개만 활성화되는 매우 낮은 활성화 비율을 보고한 내용입니다. 비교로 DeepSeek(671B)은 37B(5.5%) 활성화로, 희소 활성화(sparse activation)/Mixture-of-Experts 특성이 강조된 관찰입니다.
Q*Satoshi (@AiXsatoshi)
새로운 560B 파라미터 MoE 모델 'LongCat-Flash-Thinking 2601' 출시 소식입니다. 실세계 에이전트 과제에서 탁월한 성능을 보이며 AIME-25에서 99.6%를 달성했고, 노이즈 환경에서도 높은 정확도를 유지합니다. 또한 'Heavy Thinking Mode'로 깊은 추론을 수행할 수 있다고 발표되었습니다.
#longcat is long
@ramin_hal9001 @hellomiakoda @nonehitwonder