DFlash: Hệ thống giải mã suy đoán theo kiểu khuếch tán, tạo block token cùng lúc thay vì từng token. Dùng draft model nhẹ để tạo block, kiểm nghiệm bằng LLM đích – tăng độ chấp nhận và hiệu suất, đặc biệt với văn cảnh dài & batch lớn. Hỗ trợ Qwen3-4B/8B/30B, tích hợp với SGLang, hỗ trợ streaming và sinh code dài. Hiệu quả cao trong sinh code và đầu ra cấu trúc. Code, checkpoint đã công bố, hướng dẫn huấn luyện sắp ra mắt. #DFlash #LLM #SpeculativeDecoding #Qwen3 #SGLang #AI #MachineLearning #Trí

DFlash: Hệ thống giải mã giả định theo phong cách khuếch tán, tạo khối token cùng lúc thay vì từng token. Dựa trên Qwen3 (4B, 8B, Coder-30B) và tích hợp với SGLang, cho tốc độ nhanh hơn, độ chấp nhận cao hơn – lý tưởng cho sinh mã và đầu ra cấu trúc. Hỗ trợ streaming, batch lớn. Mã nguồn đã mở, hướng dẫn train sắp ra mắt. #DFlash #LLM #AI #SpeculativeDecoding #Qwen3 #SGLang #TríTuệNhânTạo #MôHìnhNgônNgữ #GiảiMãKhối #KhuếchTán

https://www.reddit.com/r/LocalLLaMA/comments/1qkmzqv/dflash_diffusion