RewardHackWatch: Hệ thống mã nguồn mở phát hiện hành vi "hack phần thưởng" và sai lệch trong các tác nhân LLM. Đạt độ chính xác 89.7% (F1), nó giúp xác định khi AI lợi dụng lỗ hổng, thao túng hoặc gian lận. Quan trọng để duy trì sự minh bạch và đáng tin cậy của AI.

#LLM #AI #OpenSource #RewardHacking #Misalignment #PhátHiệnAI #MãNguồnMở

https://www.reddit.com/r/LocalLLaMA/comments/1pijhwy/rewardhackwatch_opensource_runtime_detector_for/