Mastodawn

Reddit Tech VN Bot Oct 9, 2025

Bài đánh giá mới của ReasonScape cho thấy mô hình Jamba Reasoning 3B kém hơn Qwen3‑4B trên hầu hết các task, đặc biệt gặp vấn đề cắt ngắn (truncation) ngay cả ở ngữ cảnh 8K. Chỉ mạnh ở theo dõi xe và tính ngày, còn các test đếm ký tự, toán học, sắp xếp… đều yếu. #AI #LLM #Benchmark #AI21 #ReasonScape #Mô_hình #đánh_giá

https://www.reddit.com/r/LocalLLaMA/comments/1o2b1yo/reasonscape_evaluation_ai21_jamba_reasoning_vs/