🌘 利用 PPO 對語言模型進行樹搜尋蒸餾
➤ 探索蒙地卡羅樹搜尋如何優化模型推理路徑
https://ayushtambde.com/blog/tree-search-distillation-for-language-models-using-ppo/
本文探討了將 AlphaZero 風格的「樹搜尋」技術應用於語言模型推理的可行性。作者以組合算術遊戲 Countdown 為實驗環境,對 Qwen-2.5-1.5B 模型進行訓練。透過結合蒙地卡羅樹搜尋(MCTS)與線上 PPO 強化學習,作者成功讓模型透過搜尋發現更優質的推理路徑,並將其蒸餾回模型權重中。實驗結果顯示,這種方法相較於標準的 GRPO 或 Best-of-N 方法更能顯著提升模型在組合推理任務上的表現。
+ 這篇文章展示瞭如何將傳統棋類遊戲的搜尋策略成功轉移至語言任務,特別是針對 Countdown 這類組合問題的設計非常精確。
+ 雖然目前僅在小型 1.5B 模型上驗證,但這種「搜尋+蒸餾」的架構為強化學習後的模型優化提供了明確的技術路徑。
#人工智慧 #強化學習 #大型語言模型 #MCTS
Tree Search Distillation for Language Models using PPO

Personal website of Ayush Tambde

Tìm kiếm cây đối thoại - Tìm kiếm cây đối thoại theo phong cách MCTS để tìm đường dẫn đối thoại tối ưu. Công nghệ này giúp loại bỏ các đường dẫn đối thoại không hiệu quả và tìm ra chiến lược đối thoại tốt nhất. #TìmKiếmCâyĐốiThoại #MCTS #ĐốiThoại #TríTuệNhânTạo #AI #ArtificialIntelligence #DialogueTreeSearch #MCTSstyle

https://www.reddit.com/r/LocalLLaMA/comments/1q71sbe/dialogue_tree_search_mctsstyle_tree_search_to/

#Data_Act

Draft Recommendation on non-binding model contractual terms (#MCTs) on data access and use and non-binding standard contractual clauses (#SCCs) for cloud computing contracts

https://digital-strategy.ec.europa.eu/en/library/draft-recommendation-non-binding-model-contractual-terms-data-access-and-use-and-non-binding

Approval of the draft Commission Recommendation on non-binding Model Contractual Terms

https://ec.europa.eu/newsroom/dae/redirection/document/121718

Annex to the Commission Recommendation

https://ec.europa.eu/newsroom/dae/redirection/document/121719

Draft Recommendation on non-binding model contractual terms on data access and use and non-binding standard contractual clauses for cloud computing contracts

The Commission has published non-binding Model Contractual Terms for data access and use and Standard Contractual Clauses for cloud computing contracts

Shaping Europe’s digital future

#Data_Act

Draft Recommendation on non-binding model contractual terms (#MCTs) on data access and use and non-binding standard contractual clauses (#SCCs) for cloud computing contracts

https://digital-strategy.ec.europa.eu/en/library/draft-recommendation-non-binding-model-contractual-terms-data-access-and-use-and-non-binding

Approval of the draft Commission Recommendation on non-binding Model Contractual Terms

https://ec.europa.eu/newsroom/dae/redirection/document/121718

Annex to the Commission Recommendation

https://ec.europa.eu/newsroom/dae/redirection/document/121719

Draft Recommendation on non-binding model contractual terms on data access and use and non-binding standard contractual clauses for cloud computing contracts

The Commission has published non-binding Model Contractual Terms for data access and use and Standard Contractual Clauses for cloud computing contracts

Shaping Europe’s digital future

AFlow: как создавать мультиагентные системы без программиста

Привет, Хабр! Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation . В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS) . Разберёмся, как это работает и почему это важно.

https://habr.com/ru/articles/927994/

#мультиагентные_системы #искусственный_интеллект #llm #agentic_ai #mcts #ai #nlp #ии

AFlow: как создавать мультиагентные системы без программиста

Привет, Хабр! Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation . В ней предложен...

Хабр
The #MCTS BRT looks *PACKED*.

I really like this idea.

"Originally a faded turquoise, the bus is now vibrant orange with a cream-colored roof, the color scheme used by The Milwaukee Electric Railway & Light Company. Its windows and doors have been repaired, with two awning-style service windows installed to give waitstaff easy access."

https://urbanmilwaukee.com/2025/06/27/transfer-pizzerias-new-patio-will-feature-vintage-city-bus/

#Milwaukee #MCTS #Bus

Transfer Pizzeria’s New Patio Will Feature Vintage City Bus

Transit-themed restaurant adds full-sized bus.

Urban Milwaukee
I love riding the #MCTS buses in #Milwaukee, but the new merchandise... ugh, those garish colors!

Как мы применили генеративный дизайн к динамическим системам

Существующие методы генеративного дизайна позволяют оптимизировать различные параметры деталей для производства, например массу ― многие из вас наверняка видели подобные рендеры в Autocad. В областях, где на деталь воздействует повышенная нагрузка, материала больше, в других ― меньше, и с помощью генеративного дизайна к удачной конструкции можно прийти за несколько часов, а не за недели. Мы решили проверить, можно ли применить методы генеративного дизайна для динамических, а не статических систем, чтобы автоматизировать процесс создания роботизированных устройств захвата. Наш проект стал логичным продолжением исследовательской работы нашего коллеги, в которой рассматривалась оптимизация рычажных механизмов. Работа показала, что формализовать задачу вполне возможно. Мы проверили это, используя для выбора оптимальной имитационной модели алгоритм MCTS. Подробности ― под катом.

https://habr.com/ru/companies/spbifmo/articles/885204/

#динамические_системы #генеративный_дизайн #autocad #mcts #искусственный_интеллект #робототехника #итмо #университет_итмо #инженерия

Как мы применили генеративный дизайн к динамическим системам

Существующие методы генеративного дизайна позволяют оптимизировать различные параметры деталей для производства, например массу ― многие из вас наверняка видели подобные рендеры в Autocad. В областях,...

Хабр
Замечательный пример использования глубокого обучения с подкреплением — не только играть против нейронных сеток, но и задействовать для анализа своих действий в уже состоявшихся партиях, стремясь играть лучше из желания совершенствовать свои навыки игры.

Есть неплохая «точка входа» с подборкой вариантов как использовать нейронки для игры #Го. Рассматриваются и локально работающие нейронные сети и онлайн-сервисы вокруг #LeelaZero и #KataGo. Можно выбрать то, что ближе и что нужнее в конкретной ситуации.

Впечатления от игры локально с нейронками зависят от видео-карты, понятное что дискретной.

Для десктопов, планшетов и мобильников есть разные варианты, можно подобрать и на чистом #MCTS (Monte Carlo tree search), без нейронных сетей. Кстати, нейронки играют в человеческом стиле не сходу «из коробки», нужны дополнительные файлы (обученные сети) для управления стилем игры вообще и на отдельных этапах. Если с этим не хочется заморачиваться, то и MCTS-варианты могут быть очень неплохи на первых порах, для знакомства.

Почему подобного нет для шахмат? Наверняка появится со временем, просто для игры в шахматы компьютеру не нужно использовать такие вещи как обучение нейронных сетей. Фактически, являются довольно простой игрой, давно и хорошо изученной в качестве задачи для компьютерной техники. Во многом это именно шахматы стали пропуском компьютеров в мир интеллектуальных игр с человеком. Популяризировав и легитимизировав место компьютеров в повседневной жизни, когда ещё не было интернетов.

#AI #ИИ #games #gaming #го #igo #baduk #бадук #weiqi #вэйци #lang_ru @Russia