Rohan Paul (@rohanpaul_ai)

Ant Open Source가 LLaDA2.1 Flash를 공개했습니다. 100B 파라미터 규모의 언어 diffusion MoE(혼합 전문가) 모델로, 최대 892 토큰/초의 추론 속도를 기록해 Qwen3-30B-A3B보다 2.5배 빠른 성능을 냈다고 보고되었습니다. 높은 실시간 추론 성능을 강조한 릴리스입니다.

https://x.com/rohanpaul_ai/status/2021643743313756658

#llm #inferencespeed #mixtureofexperts #antopensource #modelperformance

Rohan Paul (@rohanpaul_ai) on X

Ant Open Source just dropped LLaDA2.1 Flash. Insane inference speed for a 100B param language diffusion MoE model. Achieved a peak speed of 892 tokens per second beating the much smaller Qwen3-30B-A3B by 2.5x. The reason it could achieve this incredible speed is because it

X (formerly Twitter)