AISatoshi (@AiXsatoshi)

Gemma-4-26B awq 모델의 처리 속도가 GPU 4장 기준 약 4800 tok/s로 보고되었습니다. 경량화/양자화된 대형 모델의 추론 성능이 매우 인상적인 사례입니다.

https://x.com/AiXsatoshi/status/2040787190536655302

#gemma #awq #llm #inference #gpu

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Gemma-4-26B(awq) 4800tok/sぐらい。GPU x4

X (formerly Twitter)