N8 Programs (@N8Programs)

Alibaba의 Qwen 모델용 GPTQ Int4 가중치를 dequant/requant 없이 직접 MLX 형식으로 변환하여 MLX 런타임과 호환되도록 패킹함. 결과물은 동일한 Hugging Face(HF) 가중치를 기반으로 하나 Qwen의 양자화는 어텐션 레이어와 임베딩을 비양자화로 남겨 표준 MLX 4비트 양자화보다 파일 크기가 약간 더 큼.

https://x.com/N8Programs/status/2028961023554695417

#qwen #gptq #quantization #mlx #huggingface

N8 Programs (@N8Programs) on X

Converted @Alibaba_Qwen's GPTQ Int4 to MLX directly, w/out dequant/requant - so its the same HF weights but now packed to be compatible w/ MLX runtime. Lands slightly larger than a standard MLX 4-bit quant as the Qwen quant leaves attention layers + embeddings unquantized.

X (formerly Twitter)

Qwen (@Alibaba_Qwen)

Qwen 3.5 시리즈의 GPTQ-Int4 가중치가 공개되었습니다. vLLM과 SGLang의 네이티브 지원으로 VRAM 사용량이 줄고 추론 속도가 빨라져 저사양 GPU 환경에서도 강력한 모델 실행이 가능해졌으며, 예제 코드와 가중치는 Hugging Face와 ModelScope에서 제공됩니다.

https://x.com/Alibaba_Qwen/status/2028846103257616477

#qwen #gptq #vllm #huggingface

Qwen (@Alibaba_Qwen) on X

🔥 Qwen 3.5 Series GPTQ-Int4 weights are live. Native vLLM & SGLang support. ⚡️ Less VRAM. Faster inference. Run powerful models on limited-GPU setups. 👇 Grab the weights + example code: Hugging Face: https://t.co/3MSb7miq68 ModelScope: https://t.co/LGHruBHP6Q

X (formerly Twitter)

2026 AI 양자화 결정 가이드, GGUF vs GPTQ vs AWQ 언제 뭘 쓸까

GPTQ vs GGUF vs AWQ, 2026년 AI 양자화 방법 비교와 선택 가이드. Red Hat 50만 평가로 입증된 정확도 유지 전략과 상황별 추천.

https://aisparkup.com/posts/8713

**🚨 GPTQ Rơi Bát, AWQ Tăng Vượt! Bây Gì?**
Đăng nhập Hugging Face, chưa WarenEverHeroGPTQ cho Qwen3-VL, chỉ Khi Tìm thấy AWQ. GPTQ vẫn có cho các phiên khác (như Qwen-2.5 VL). Test cá nhân: DL/runמל/global-gun, GPTQ & AWQ chỉ khácLatency, GPTQ Tốt hơn.

#AI #ModelK préparatif #GPTQ #AWQ #TechNews #HọcMáy #Vietnamese

https://www.reddit.com/r/LocalLLaMA/comments/1oh7fze/fall_of_gptq_and_rise_of_awq_why_exactly/