AISatoshi (@AiXsatoshi)
Gemma-4-26B awq 모델의 처리 속도가 GPU 4장 기준 약 4800 tok/s로 보고되었습니다. 경량화/양자화된 대형 모델의 추론 성능이 매우 인상적인 사례입니다.
https://x.com/AiXsatoshi/status/2040787190536655302
#gemma #awq #llm #inference #gpu
Gemma-4-26B(awq) 4800tok/sぐらい。GPU x4