Mastodawn

AISatoshi (@AiXsatoshi)

Gemma-4-26B awq 모델의 처리 속도가 GPU 4장 기준 약 4800 tok/s로 보고되었습니다. 경량화/양자화된 대형 모델의 추론 성능이 매우 인상적인 사례입니다.

Gemma-4-26B（awq） 4800tok/sぐらい。GPU x4

X (formerly Twitter)