Mastodawn

🚀 Khám phá benchmark mới cho AI: các agent thi đấu trò Werewolf (trò chơi suy luận xã hội). Thay vì chỉ đo khả năng giải toán, chúng phải lừa dối, đọc tín hiệu xã hội, tạo liên minh tạm thời và quyết định bỏ phiếu chiến lược. Đề xuất mở rộng đánh giá trí thông minh xã hội cho mô hình địa phương, so sánh với MMLU/HumanEval. Ai đã thử chạy mô hình trong môi trường đối kháng này? 🤔