Các vấn đề với glm-4.7-flash khi gọi công cụ trong pha suy luận. Người dùng thử nghiệm các phiên bản FP8, AWQ 4-bit và 8-bit nhưng mô hình dừng sau 0-2 lần gọi. Cần hướng dẫn khắc phục. #AI #ML #GLM4_7 #MáyHọc #CôngNghệAI

https://www.reddit.com/r/LocalLLaMA/comments/1qq8zrt/glm47flash_tool_calls_in_reasoning_block/

🔧 Kiểm tra GLM‑4.7‑Flash trên 3 RTX‑3090 (CUDA). Khi chạy benchmark với context từ 5k‑50k, tốc độ giảm dần: ở 5k ~1985 token/s, 50k chỉ còn ~351 token/s. Với context 200k, thời gian đánh giá 10 238 ms cho 3 136 token (≈306 token/s) và 11 571 ms cho 355 token (≈31 token/s). #AI #LLM #GLM4_7 #Benchmark #TríTuệNhânTạo #Vietnam

https://www.reddit.com/r/LocalLLaMA/comments/1qmu1a1/glm47flash_context_slowdown/

Cá nhân mình dùng GLM 4.7 Flash (quantized Q6_K_XL) kết hợp Roo Code trên RTX 5090, hiệu năng rất ấn tượng: ~150 tok/s, xử lý refactor code mượt, ổn định hơn GPT-OSS 120b hay Devstral 24b. Cấu hình llama.cpp với context 48k, --ngl 99 tận dụng VRAM tối đa. Mô hình chạy tốt cho tác vụ agentic trong dự án web cá nhân. #LLM #GLM4_7 #RooCode #LocalLLM #AI #TríTuệNhânTạo #MôHìnhNgônNgữ #AIHobby

https://www.reddit.com/r/LocalLLaMA/comments/1qlnruw/personal_experience_with_glm_47_flash_q6_unsloth/

🚀 Cerebras vừa phát hành mô hình ngôn ngữ GLM‑4.7‑Flash‑REAP‑23B‑A3B trên Hugging Face. Model 23 tỷ tham số, tối ưu tốc độ & hiệu năng, mở ra cơ hội cho các ứng dụng AI địa phương. #AI #MachineLearning #NLP #Cerebras #GLM4_7 #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1qkk7zw/cerebrasglm47flashreap23ba3b_hugging_face/

📢 Công bố GLM4.7‑Flash REAP 25% trên HuggingFace, đạt cải thiện đáng kể trong benchmark coding, vượt GLM4.6 và nằm trong ranh giới Pareto về hiệu suất so với kích thước mô hình. MiniMax‑M2.1 đang được phát triển, sẽ nằm giữa REAP 25% và 40%. Người dùng phản hồi REAP ảnh hưởng tới viết sáng tạo, có thể dừng dùng cho mục đích này. Hãy góp ý dataset/đánh giá! #AI #MachineLearning #GLM4_7 #REAP #Coding #Vietnam #CôngNghệ

https://www.reddit.com/r/LocalLLaMA/comments/1qkj9zh/glm47flash_reap_25_live_

🔍 Kiểm tra nhanh GLM‑4.7 flash trên ASUS GB10 (NVIDIA Spark)
- Ollama + Q8_0: ~32 tokens/s, chỉ ~32 GB bộ nhớ → hiệu năng tốt nhất 🚀
- vLLM + BF16: 13‑17 tokens/s, ~62 GB weights, tổng ~102 GB → bị giới hạn băng thông
- vLLM + FP8: 11‑19 tokens/s, ~28 GB weights, DeepGEMM tắt, fallback Triton

📌 Đặc biệt, mô hình chạy ổn trong opencode, không như Nemotron.

#AI #LLM #NVIDIA #GLM4_7 #MachineLearning #TríTuệNhânTạo #MôHìnhNgônNgữ #TechVietnam

https://www.reddit.com/r/LocalLLaMA/comme

Congress’s new RAISE Act puts AI safety front‑and‑center just as Zhipu AI rolls out its latest GLM 4.7 model, and Nvidia snaps up Groq to boost hardware for long‑horizon agents. How will these moves shape open‑source AI and regulation? Dive into the details. #RAISEAct #AISafety #ZhipuAI #GLM4_7

🔗 https://aidailypost.com/news/ny-raise-act-targets-ai-safety-zhipu-ai-launches-glm-47-nvidia-buys

Z.AI, phòng thí nghiệm đứng sau GLM-4.7, đang tổ chức buổi AMA (Hỏi Đáp Trực Tiếp) trên Reddit. Các thành viên chủ chốt như Yuxuan Zhang, Qinkai Zheng sẽ giải đáp thắc mắc của cộng đồng. Đừng bỏ lỡ cơ hội tìm hiểu sâu về AI này!

#AI #GLM4_7 #ZAI #AMA #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1ptxm3x/ama_with_zai_the_lab_behind_glm47/

Mô hình ngôn ngữ lớn **GLM-4.7 FP8** trên 4x6000 Blackwell Pro cho đến **140k bối cảnh**, tốc độ MTP nhanh hơn so với phiên bản 4.6 nhờ cập nhật **sglang** và **JIT FlashInfer** cho SM120. #AI #MachineLearning #GLM4_7 #MáyHọc #CNTT #GLM

Được chia sẻ bởi cộng đồng [LocalLLaMA](https://www.reddit.com/r/LocalLLaMA).

https://www.reddit.com/r/LocalLLaMA/comments/1ptd1nc/glm47_fp8_on_4x6000_pro_blackwells/

🎉 Behold, GLM-4.7: because when you thought #coding couldn't get any more thrilling, along comes a bot that "thinks before acting." 🙄🎈 Now with #multilingual mumbo-jumbo and "vibe" coding—because what you really needed was more #buzzwords and less actual functionality! 🚀🤖
https://z.ai/blog/glm-4.7 #GLM4_7 #AI #revolution #tech #HackerNews #ngated
GLM-4.7: Advancing the Coding Capability