➤ 從數據軌跡透視 AI 模型的真實效能,揪出默默「被弱化」的旗艦模型
✤ https://mayerwin.github.io/AI-Arena-History/
隨著人工智慧模型不斷推陳出新,實驗室往往在模型發布後進行隱蔽的更新,導致模型出現「性能退化」——例如過度審查、為了節省算力而採用的極端量化,或是行為模式的劣化。本文介紹了一個自動化追蹤工具,透過分析 Hugging Face 上的 LM Arena 官方數據集,呈現各家 AI 旗艦模型在生命週期內的真實性能軌跡。該系統將各實驗室的旗艦模型數據串聯,不僅排除了模型命名變動帶來的幹擾,更透過視覺化圖表揭露了被 API 基準測試忽略的潛在性能下滑趨勢,為用戶提供了一面檢視 AI 巨頭真實產出品質的鏡子。
+ 終於有這種數據追蹤了!我一直覺得某幾個模型最近變得很笨,回答問題變得畏首畏尾,看來不只是心理作用,背後果然有模型調整。
+ 這項工程非常重要,但數據解釋要小心。API 與網頁端的體感差異(如 Sy
#人工智慧 #模型評測 #演算法透明度 #LM Arena







