Mastodawn

🌗 強化學習：以最簡數學和術語解釋
➤ 強化學習如何驅動新一代 AI Agent 的發展
✤ https://www.understandingai.org/p/reinforcement-learning-explained
本文深入探討了強化學習 (Reinforcement Learning) 的原理及其在近期 AI Agent 發展中的關鍵作用。相較於僅僅預測下一個詞彙，強化學習使 AI 系統能更可靠地執行複雜的多步驟任務，例如程式設計、網頁研究等。文章追溯了從早期 BabyAGI 和 AutoGPT 的嘗試，到 Claude 3.5 Sonnet 和 o3 等成功 Agent 的誕生，並解釋了強化學習如何克服了傳統模仿學習的缺陷，進而提升 AI 模型的效能與穩定性。
+ 這篇文章用非常易懂的方式解釋了強化學習，讓我對 AI Agent 的運作原理有了更深刻的理解。
+ 我一直很好奇為什麼早期的 AI Agent 表現不佳，現在終於知道問題出在哪裡了，強化學習的確是關鍵！
#人工智慧 #機器學習 #強化學習 #AI Agents

Reinforcement learning, explained with a minimum of math and jargon

To create reliable agents, AI companies had to go beyond predicting the next token.

Understanding AI

GripNews Jun 15

🌘 Q學習尚未能擴展規模
➤ 強化學習的規模化挑戰與Q學習的瓶頸
✤ https://seohong.me/blog/q-learning-is-not-yet-scalable/
本文探討了強化學習（RL）的可擴展性問題。儘管RL在遊戲和大型語言模型領域取得了顯著進展，但大多數成功案例都依賴於“當前策略”的演算法，這些演算法需要持續收集新數據。相比之下，“離線策略”的Q學習理論上能利用任何數據，更具樣本效率。然而，作者認為目前的Q學習演算法難以擴展至需要大量決策步驟的複雜長期任務，主要原因是目標預測的偏差會隨著時間累積，導致效能受限。透過實驗研究佐證了此觀點，並呼籲相關研究突破，以提升Q學習在更廣泛應用場景下的可擴展性。
+ 這篇文章點出了強化學習發展的一個重要問題，也讓我對目前流行的RL演算法有更深入的理解。
+ 作者的分析很有見地，也讓我開始思考如何改進Q學習，使其能夠更好地處理複雜的現實世界問題。
#人工智能 #強化學習 #Q學習 #深度學習

Q-learning is not yet scalable

GripNews Jun 8

🌘 使用強化學習訓練大型語言模型以解釋人類決策
➤ 強化學習賦予語言模型解釋人類行為的能力
✤ https://arxiv.org/abs/2505.11614
本研究探討了使用強化學習（Reinforcement Learning）訓練預訓練的大型語言模型（LLM），使其能夠準確預測人類決策，並以自然語言提供可解釋的推理過程。透過以結果為基礎的獎勵機制，引導LLM生成解釋人類冒險選擇的明確推理軌跡。研究結果表明，這種方法能夠產生高品質的解釋，同時提供與人類決策相符的強大定量預測。
+ 這種技術如果能進一步發展，或許能幫助我們更深入瞭解人類的思考模式。
+ 令人興奮的研究！將人工智慧與認知科學結合，有望帶來更智能、更透明的AI系統。
#人工智慧 #認知模型 #強化學習

Using Reinforcement Learning to Train Large Language Models to Explain Human Decisions

A central goal of cognitive modeling is to develop models that not only predict human behavior but also provide insight into the underlying cognitive mechanisms. While neural network models trained on large-scale behavioral data often achieve strong predictive performance, they typically fall short in offering interpretable explanations of the cognitive processes they capture. In this work, we explore the potential of pretrained large language models (LLMs) to serve as dual-purpose cognitive models--capable of both accurate prediction and interpretable explanation in natural language. Specifically, we employ reinforcement learning with outcome-based rewards to guide LLMs toward generating explicit reasoning traces for explaining human risky choices. Our findings demonstrate that this approach produces high-quality explanations alongside strong quantitative predictions of human decisions.

arXiv.org

GripNews May 28

🌖 基於結果的強化學習以預測未來
➤ 強化學習在預測領域的應用與突破
✤ https://arxiv.org/abs/2505.17989
本研究探討瞭如何將強化學習與可驗證獎勵（RLVR）應用於更複雜的現實世界預測任務。研究人員成功地將兩種領先的強化學習演算法（GRPO和ReMax）改進並應用於14B參數的模型，使其在預測準確度、校準和假設性預測市場表現上都超越了現有的模型。實驗結果顯示，透過精煉的RLVR方法，即使是較小規模的語言模型也能轉化為具有潛在經濟價值的預測工具。
+ 令人印象深刻的研究！強化學習應用於預測，而且還能帶來實際經濟效益，這代表了人工智能發展的一個新方向。
+ 我很好奇這種方法是否能應用到其他領域，例如金融市場或氣候預測。這項技術的潛力似乎非常巨大。
#人工智慧 #機器學習 #預測 #強化學習

Outcome-based Reinforcement Learning to Predict the Future

Reinforcement learning with verifiable rewards (RLVR) has boosted math and coding in large language models, yet there has been little effort to extend RLVR into messier, real-world domains like forecasting. One sticking point is that outcome-based reinforcement learning for forecasting must learn from binary, delayed, and noisy rewards, a regime where standard fine-tuning is brittle. We show that outcome-only online RL on a 14B model can match frontier-scale accuracy and surpass it in calibration and hypothetical prediction market betting by adapting two leading algorithms, Group-Relative Policy Optimisation (GRPO) and ReMax, to the forecasting setting. Our adaptations remove per-question variance scaling in GRPO, apply baseline-subtracted advantages in ReMax, hydrate training with 100k temporally consistent synthetic questions, and introduce lightweight guard-rails that penalise gibberish, non-English responses and missing rationales, enabling a single stable pass over 110k events. Scaling ReMax to 110k questions and ensembling seven predictions yields a 14B model that matches frontier baseline o1 on accuracy on our holdout set (Brier = 0.193, p = 0.23) while beating it in calibration (ECE = 0.042, p < 0.001). A simple trading rule turns this calibration edge into \$127 of hypothetical profit versus \$92 for o1 (p = 0.037). This demonstrates that refined RLVR methods can convert small-scale LLMs into potentially economically valuable forecasting tools, with implications for scaling this to larger models.

arXiv.org

GripNews May 12

🌘 INTELLECT-2 發布：首個全球訓練的 32B 參數模型強化學習訓練運行
➤ 分散式強化學習的新範式
✤ https://www.primeintellect.ai/blog/intellect-2-release
Prime Intellect 團隊發布了 INTELLECT-2，這是首個通過全球分散式強化學習訓練的 32B 參數模型。與傳統的集中式訓練方法不同，INTELLECT-2 利用一個動態且異質的、無需許可的計算資源羣來訓練推理語言模型。為了實現這一訓練，團隊開發了 PRIME-RL 訓練框架以及 TOPLOC 和 SHARDCAST 等新組件，並對標準的 GRPO 訓練方法和數據過濾技術進行了修改。INTELLECT-2 及其代碼和數據已開源，旨在促進分散式訓練領域的更多開放研究。
+ 這項技術的突破對於降低大型語言模型的訓練成本和促進人工智能的民主化意義重大。
+ 開源的 INTELLECT-2 提供了寶貴的資源，讓研究人員可以探索分散式訓練的潛力，並加速人工智能技術的發展。
#人工智慧 #強化學習 #分散式訓練 #開源

INTELLECT-2 Release: The First 32B Parameter Model Trained Through Globally Distributed Reinforcement Learning

We're excited to release INTELLECT-2, the first 32B parameter model trained via globally distributed reinforcement learning. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning language model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors.

GripNews May 12

🌘 絕對零度推理者：無需數據的強化自我對弈推理
➤ 自我對弈，突破AI推理能力的限制
✤ https://andrewzh112.github.io/absolute-zero-reasoner/
本文介紹了「絕對零度」範式，這是一種全新的強化學習方法，讓模型能夠完全透過自我對弈來學習推理能力，而無需任何人工標注的數據。研究團隊開發的「絕對零度推理者」(AZR) 透過驗證自身生成的任務並從中學習，在多種編碼和數學推理基準測試中取得了領先的成果，甚至超越了使用大量人工數據訓練的模型，證明瞭純粹透過自我對弈也能夠產生複雜的推理能力。
+ 這個研究太酷了！以前一直覺得AI需要大量數據才能學習，沒想到完全靠自己也能達到這麼高的水平。
+ 聽起來很有潛力，如果能應用到更多領域，例如自然語言處理，那將會是個巨大的突破。
#人工智慧 #機器學習 #強化學習 #推理

Absolute Zero Reasoner

GripNews May 7

🌘 GitHub - ivanbelenky/RL：強化學習方法與技術
➤ 強化學習算法的實作與應用
✤ https://github.com/ivanbelenky/RL
這個 GitHub 倉庫 (ivanbelenky/RL) 包含了強化學習 (Reinforcement Learning, RL) 算法和模型的實作，主要基於 Richard S. Sutton 的經典教材《強化學習：一個介紹》。倉庫提供了多種 RL 方法的程式碼，包括多臂老虎機、蒙地卡羅方法、時間差分學習、策略梯度等，並包含範例程式碼和文件。使用者可以透過定義狀態、動作和轉換函數來使用這些模型，但此程式碼庫並非生產級別的成品，鼓勵使用者貢獻改善建議。
+ 這個倉庫對於想要從頭實現強化學習算法的人來說非常有用，提供了清晰的程式碼結構和多種方法的實例。
+ 雖然程式碼並非生產級別，但對於理解強化學習的原理和概念來說是一個很好的起點，並且鼓勵社羣貢獻，可持續發展性佳。
#強化學習 #程式碼庫 #機器學習

GitHub - ivanbelenky/RL: R.L. methods and techniques.

R.L. methods and techniques. . Contribute to ivanbelenky/RL development by creating an account on GitHub.

GitHub

GripNews May 1

🌖 GitHub - OpenPipe/ART：訓練大型語言模型代理人
➤ 開源強化學習函式庫，提升 LLM 代理效能
✤ https://github.com/OpenPipe/ART
OpenPipe ART (Agent Reinforcement Trainer) 是一個開源的強化學習函式庫，旨在提升大型語言模型 (LLM) 在代理工作流程中的效能。它利用強大的 GRPO 強化學習演算法，讓模型從自身經驗中學習。ART 的獨特之處在於，它允許使用者在現有程式碼庫中執行代理運行，同時將複雜的強化學習訓練迴圈外包給 ART 後端。它支援大多數與 vLLM/HuggingFace-transformers 相容的因果語言模型，目前處於 Alpha 階段，積極開發中，歡迎貢獻。
+ 這是一個很有潛力的專案！能讓 LLM 模型更容易地應用在需要不斷學習和優化的場景中。
+ 期待這個工具能更成熟，解決更多模型相容性的問題，讓更多人能夠使用。
#人工智慧 #機器學習 #大型語言模型 #強化學習

GitHub - OpenPipe/ART: OpenPipe ART (Agent Reinforcement Trainer): train LLM agents

OpenPipe ART (Agent Reinforcement Trainer): train LLM agents - OpenPipe/ART

GitHub

GripNews May 1

🌕 DeepSeek-Prover-V2：透過強化學習推進形式化數學推理
➤ 強化學習與遞迴證明提升數學推理能力
✤ https://github.com/deepseek-ai/DeepSeek-Prover-V2
DeepSeek-Prover-V2 是一個基於 DeepSeek-V3 開發的開源大型語言模型，專為 Lean 4 的形式化定理證明而設計。它利用遞迴定理證明流程產生冷啟動數據，並結合強化學習以提升數學推理能力。模型在 MiniF2F-test 上達到 88.9% 的通過率，並解決了 PutnamBench 中的 49 個問題。研究人員同時釋出了 ProverBench，一個包含 325 個問題的基準測試集，涵蓋高中競賽數學和大學數學領域。
+ 哇，這聽起來非常令人興奮！AI 能幫助我們解決數學證明，這對數學研究和教育來說都是巨大的進步。
+ 我對這個 ProverBench 基準測試集很感興趣。它能讓我們更準確地評估 AI 在數學方面的表現，並找出需要改進的地方。
#人工智慧 #數學 #形式驗證 #強化學習

GitHub - deepseek-ai/DeepSeek-Prover-V2

Contribute to deepseek-ai/DeepSeek-Prover-V2 development by creating an account on GitHub.

GitHub

GripNews Apr 14

🌗 GitHub - policy-gradient/GRPO-Zero
➤ 簡化 GRPO 訓練，提升大型語言模型效能
✤ https://github.com/policy-gradient/GRPO-Zero
本頁面是 GitHub 上 policy-gradient/GRPO-Zero 專案的頁面，該專案旨在利用 Group Relative Policy Optimization (GRPO) 演算法，搭配 Qwen2.5 模型，在 CountDown 任務上進行訓練。此專案的目標是使用盡可能少的依賴項來實現 GRPO 訓練，僅依賴 tokenizers 和 pytorch。它對原始 GRPO 演算法進行了多項改進，例如每 token 等權重的 policy gradient loss，移除 KL divergence，以及過長 episode 的篩除。
+ 這個專案看起來很有趣，用更少的依賴項來實現 GRPO，使得複現和修改更容易。
+ 很好，能夠看到有人嘗試在非 Transformer 架構上實現 GRPO，這對於資
#人工智慧 #機器學習 #強化學習 #大型語言模型

GitHub - policy-gradient/GRPO-Zero

Contribute to policy-gradient/GRPO-Zero development by creating an account on GitHub.

GitHub