Ollaman tích hợp Qwen3-Next - mô hình AI mới từ Alibaba, nâng cao hiệu suất xử lý ngôn ngữ và sinh nội dung. Một công nghệ đáng chú ý trong cộng đồng AI. #AI #Qwen3Next #Ollama #CôngNghệ #MachineLearning

https://www.reddit.com/r/LocalLLaMA/comments/1pkfrlv/in_ollaman_using_the_qwen3next_model/

Qwen3-Next mới ra: Qwen3-Next-80B-A3B tích hợp Hybrid Attention (DeltaNet + Attention), MoE Sparsity cao, tối ưu ổn định và Multi-Token Prediction. Xử lý văn bản dài 50k tokens như "Alice in Wonderland" mượt mà, tốc độ ~40t/s trên W7900 48GB. Cần Ollama 0.13.2. #AI #Qwen3Next #TríTuệNhânTạo #Ollama

https://www.reddit.com/r/ollama/comments/1pi5fr6/qwen3next_here/

Qwen3-Next chạy chậm trên Mac Studio M3 Ultra với llama.cpp (11 tok/s). Các model lớn hơn như Minimax M2 và gpt-oss:120b nhanh hơn lần lượt 3x và 7x.

#LocalLLaMA #AI #Qwen3Next #MacStudio #M3Ultra #llama #trituenhantao #congnghe

https://www.reddit.com/r/LocalLLaMA/comments/1pcofbo/qwen3next_speed_on_mac_studio_m3_ultra_with/

Cộng đồng AI đang chia sẻ trải nghiệm về hiệu suất của mô hình Qwen3-Next-80B-A3B-Instruct-GGUF (GGUF). Nhiều người bất ngờ khi thấy nó có thể chạy hiệu quả với tài nguyên hạn chế, như 17 token/giây chỉ với 32GB RAM và 10GB VRAM. Đây là tin tốt cho "Poor GPU Club" muốn chạy các LLM lớn cục bộ!

#AI #LLM #Qwen3Next #GGUF #LocalLLM #MôHìnhNgônNgữ #AIViệtNam

https://www.reddit.com/r/LocalLLaMA/comments/1pakey8/users_of_qwen3next80ba3binstructgguf_how_is/

Các phiên bản Qwen3-Next-80B-A3B GGUF mới đã có sẵn! Bao gồm lượng tử hóa imatrix và IQ, cùng với tối ưu hóa MoE, mang lại hiệu suất tốt hơn cho các mô hình LLM cục bộ.
#Qwen3Next #GGUF #LLM #AI #Quantization
#MôHìnhAI #LượngTửHóa #TríTuệNhânTạo

https://www.reddit.com/r/LocalLLaMA/comments/1p9qe7o/qwen3_next_imatrix_ggufs_up/

Trong so sánh Qwen3-Next-80B-A3B và gpt-oss-120b cho tác vụ lập trình, gpt-oss-120b được đánh giá là vượt trội. Mô hình này cung cấp giải pháp chính xác, nhanh chóng hơn và yêu cầu ít lần thử hơn. Ngoài ra, gpt-oss-120b cũng tiết kiệm VRAM hơn đáng kể (65GB so với 85GB của Qwen3-Next 8-bit). Qwen3-Next có thể thiên về nghiên cứu kiến trúc hơn là ứng dụng thực tế.
#AI #LLM #Coding #Qwen3Next #gptoss #LậpTrình #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1p9nckz/qwen3next80ba3b_vs_

Một người dùng chia sẻ trải nghiệm so sánh Qwen3-Next-80B-A3B và gpt-oss-120b cho lập trình tác nhân. gpt-oss-120b được đánh giá cao hơn vì đưa ra giải pháp tinh tế, chính xác và nhanh hơn, trong khi Qwen3-Next cần nhiều lần thử. gpt-oss-120b cũng tiết kiệm VRAM hơn đáng kể (65GB vs 85GB). Qwen3-Next có thể phù hợp hơn cho các mục đích nghiên cứu kiến trúc.
#AI #LLM #Coding #Qwen3Next #gptoss #MachineLearning #LậpTrình #MôHìnhNgônNgữLớn

https://www.reddit.com/r/LocalLLaMA/comments/1p9nckz/qwen3

Qwen3-Next: Bản quant MXFP4 với context mở rộng từ 256k lên 1M, dùng YaRN. Cách dùng: llama.cpp với `--ctx-size 0 --rope-scaling yarn --rope-scale 4`. Có thể dùng như bình thường nếu không cần context mở rộng.

#AI #LLM #Qwen3Next #LocalLLaMA #TríTuệNhânTạo #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1p93syj/qwen3next_did_a_quant_with_extended_context/

표준 LLM을 넘어서: 5가지 대안 아키텍처 둘러보기

GPT와 Claude를 넘어서는 5가지 대안 LLM 아키텍처 소개. Linear Attention으로 메모리 75% 절감, Diffusion으로 병렬 생성, 코드 실행을 시뮬레이션하는 Code World Model까지.

https://aisparkup.com/posts/6342

Qwen3-Next hoạt động tốt trong việc tạo mã phức tạp và kiến trúc phần mềm! Đạt được thử nghiệm tạo ứng dụng "Quản lý tác vụ" hoàn chỉnh với HTML, CSS, JavaScript thuần túy, thiết kế đáp ứng, giao diện hiện đại và xử lý lỗi đúng cách #Qwen3Next #PhátTriểnPhầnMềm #KiếnTrúcPhầnMềm #TạoMã #SoftwareDevelopment #CodeGeneration

https://www.reddit.com/r/SaaS/comments/1opwua5/how_does_qwen3next_perform_in_complex_code/