Hunter (@huntermbown)

ZMLX가 GLM 4.7용 Flash 4bit 양자화에서 디코드 성능을 약 +8% 향상시켰으며, 해당 개선이 ExoLabs 환경에서도 작동한다고 보고했습니다.

https://x.com/huntermbown/status/2019080181026111856

#glm #quantization #4bit #zmlx #exolabs

Hunter (@huntermbown) on X

!!!! Yes!!! +8% decode for GLM 4.7 Flash 4bit from ZMLX - and working in @exolabs too!

X (formerly Twitter)

Hunter (@huntermbown)

GLM 4.7 Flash 4bit에서 디코드 성능이 +8% 향상되었다는 보고. 해당 개선은 ZMLX에서 제공한 것으로 보이며, @exolabs 환경에서도 작동이 확인되었다고 언급됨.

https://x.com/huntermbown/status/2019080181026111856

#glm #4bit #quantization #zmlx #exolabs

Hunter (@huntermbown) on X

!!!! Yes!!! +8% decode for GLM 4.7 Flash 4bit from ZMLX - and working in @exolabs too!

X (formerly Twitter)

Hunter (@huntermbown)

ZMLX의 GLM 4.7 Flash 4bit에서 디코딩 성능이 약 +8% 향상되었고, 해당 개선이 ExoLabs 환경에서도 작동한다는 업데이트입니다. 저비트 양자화(4bit) 기반 모델 최적화와 실사용 환경 호환성 측면에서 중요한 성능 개선 소식입니다.

https://x.com/huntermbown/status/2019080181026111856

#glm #quantization #4bit #zmlx #exolabs

Hunter (@huntermbown) on X

!!!! Yes!!! +8% decode for GLM 4.7 Flash 4bit from ZMLX - and working in @exolabs too!

X (formerly Twitter)

Simon Willison (@simonw)

Unsloth 가이드에 따르면 46GB로 양자화된 모델이 Claude Code나 Codex CLI 같은 코딩 에이전트를 구동할 수 있을 가능성이 제기되었다. 다른 로컬 모델들이 <64GB 환경에서 제대로 동작하지 않아 어려움이 있었는데, 이 모델이 실용적으로 작동하면 로컬에서 코딩 에이전트를 활용하는 데 큰 변화가 될 수 있다.

https://x.com/simonw/status/2018726915272782012

#unsloth #quantization #localllm #codingagent

Simon Willison (@simonw) on X

The Unsloth guide implies that this 46GB quantized model can usefully drive a coding agent harness like Claude Code or Codex CLI - I've had trouble running those usefully from other local models that fit in <64GB so if it works this is a really big deal

X (formerly Twitter)

zast (@zast57)

NF4(Normal Float 4-bit) 모델을 사용하고 있다는 짧은 기술 언급으로, 4비트 정밀도(양자화) 형식을 사용해 모델을 구동하고 있음을 밝힘. 경량화/저비용 추론 관련 기술 사용 신호.

https://x.com/zast57/status/2018782216722227619

#nf4 #quantization #model #normalfloat

zast (@zast57) on X

@cocktailpeanut I use NF4 (Normal Float 4-bit) model.

X (formerly Twitter)

Zimo (@Zimo41650079726)

사용자는 OpenrouterAI와 NIM을 비교하며 일본어 성능 평가를 공유합니다. NIM이 응답의 일관성 및 영어·중국어 혼입이 적어 일본어에 더 강했고, OpenrouterAI는 질문에 더 깊게 들어갔다고 평가합니다. 작성자는 양자화(quantization)가 모델의 정렬(alignment)을 손상시켰을 가능성도 제기합니다.

https://x.com/Zimo41650079726/status/2018445368099569805

#openrouterai #nim #quantization #alignment #multilingual

Zimo (@Zimo41650079726) on X

@gosrum 日本語が弱いですね。OpenrouterAIとNIMだとNIMの方が回答にまとまりがあり、英語や中国語の混ざりが少なかったです。反面、前者の方が問いに深いところまで踏み込んできたので、量子化によりアライメントが崩れてるのかも…と思いました☺️

X (formerly Twitter)

Tarjei Mandt (@kernelpool)

Kimi-K2.5-3bit 모델을 단일 M3 Ultra에서 실행한 사례 공유. 작성자는 MLA absorption 없이 최대 8k 토큰 컨텍스트까지 테스트했다고 밝힘 — 경량화/양자화된 모델을 고성능 Apple 칩에서 운용한 실험적 결과로 해석됨.

https://x.com/kernelpool/status/2017909935649202267

#llm #quantization #m3ultra #contextwindow

Tarjei Mandt (@kernelpool) on X

@awnihannun @ivanfioravanti @N8Programs Here's another one from Kimi-K2.5-3bit, running on a single M3 Ultra. I was only able to test up to 8k context without MLA absorption.

X (formerly Twitter)

🧠 Tại sao định dạng NVFP8/MXFP8 không được quan tâm trong llama.cpp hay VLLM dù có độ chính xác cao hơn FP8 và được tối ưu trên kiến trúc Blackwell? Câu hỏi mở cho cộng đồng AI!
#AI #MachineLearning #Quantization #ĐịnhDạng #TríTuệNhânTạo #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1qsi8n2/why_no_nvfp8_or_mxfp8/

Một người dùng Reddit đã so sánh 3 phương pháp lượng tử hóa 4-bit (Q4_K_M, Q4_K_XL và MXFP4) trên mô hình GLM-4.7-Flash và Nemotron-3-nano. MXFP4 cho perplexity thấp hơn (10.72 PPL) và tải nhanh hơn so với Q4_K_M (16.17 PPL). Nó cũng tiết kiệm 17% VRAM và tăng tốc xử lý lên 5% so với Q4_K_XL. Kết quả này cho thấy MXFP4 có thể là lựa chọn tối ưu cho mô hình lớn từ 30–32B tham số. #AI #Quantization #MôHìnhĐịnhLượng #TríTuệNhânTạo #HọcMáy

https://www.reddit.com/r/LocalLLaMA/comments/1qrzyaz/i_foun

So sánh quantization MXFP4 vs Q4_K_M/XL trên mô hình GLM-4.7-Flash:

📉 Kết quả bất ngờ: MXFP4 có chỉ số Perplexity (PPL) thấp hơn (~10.72) so với Q4_K_XL (~15.73), dù kích thước file nhỏ hơn (15.79 GiB so với 16.31 GiB).
🚀 Tốc độ: MXFP4 cho tốc độ xử lý nhanh hơn và tiết kiệm VRAM hơn.
🤔 Câu hỏi đặt ra: Liệu PPL thấp hơn có đồng nghĩa với việc cải thiện khả năng gọi công cụ (tool-calling) và lập trình?

#LLM #AI #Quantization #MXFP4 #MachineLearning #CongNghe #LocalLLM

https://www.reddit.com

reddit

Reddit is a network of communities where people can dive into their interests, hobbies and passions. There's a community for whatever you're interested in on Reddit.

Reddit