Wie können KI-Systeme besser mit neuen Situationen umgehen?
Genau das erforscht Dr. André Biedenkapp ab September am KIT. Für seine Arbeiten zur besseren Generalisierung von Reinforcement Learning hat er eine Emmy Noether-Gruppe der DFG eingeworben (1,2 Mio. € Förderung). 🤖🔬
#KIT #KITInformatik #Forschung #KI #ReinforcementLearning #EmmyNoether

fly51fly (@fly51fly)

멀티 에이전트 강화학습을 위한 파운데이션 모델 ‘MARL-GPT’가 소개되었다. 새로운 연구로, 다중 에이전트 RL에서 범용 모델 접근을 제안하며 오픈 아크(ArXiv) 논문으로 공개됐다.

https://x.com/fly51fly/status/2041996064841200003

#reinforcementlearning #multiaagent #foundationmodel #llm #research

fly51fly (@fly51fly) on X

[LG] MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning M Nesterova, M Kolosov, A Andreychuk, E Cherepanov… [MIRAI & AXXX] (2026) https://t.co/18Yoys5CQo

X (formerly Twitter)

Robot magazziniere che improvvisa sul lavoro. Il Robot Generalista che Piega 200 Scatole Senza Errori: Arriva GEN-1 di Generalist AI. Generalist AI ha annunciato GEN-1, il primo modello robotico capace di superare il 99% di affidabilità nelle operazioni industriali. Offre una velocità di esecuzione tre volte superiore ai.

https://scienzamagia.eu/scienza-e-tecnologia/robot-magazziniere-che-improvvisa-sul-lavoro/

#Ambientiproduttivi #GeneralistAI #HarmonicReasoning #intelligenzaartificiale #Modelligeneralisti #reinforcementlearning #Scalinglaws #Taskindustriali

fly51fly (@fly51fly)

Google Research와 뮌헨공대 연구진이 목표 정렬을 위한 강화학습 기법인 Target-Aligned Reinforcement Learning 논문을 공개했습니다. AI 모델의 보상 정렬, 안전성, 학습 안정성 개선에 관련된 연구로 보입니다.

https://x.com/fly51fly/status/2039459102313808325

#reinforcementlearning #alignment #googleresearch #airesearch #machinelearning

fly51fly (@fly51fly) on X

[LG] Target-Aligned Reinforcement Learning L S. Pleiss, J Harrison, M Schiffer [Technical University of Munich & Google Research] (2026) https://t.co/S2UjFADiwi

X (formerly Twitter)

Max Kaufmann (@Max_A_Kaufmann)

강화학습(RL) 훈련이 LLM의 CoT(Chain of Thought)를 모호하게 만들 수 있는지 다루며, 훈련 전에 이러한 obfuscation 발생 여부를 예측하는 새로운 프레임워크를 Google DeepMind가 제안했다는 연구 소개다.

https://x.com/Max_A_Kaufmann/status/2039404338855149861

#googledemind #llm #cot #reinforcementlearning #research

Max Kaufmann (@Max_A_Kaufmann) on X

Is training against the CoT always bad? RL training can lead to obfuscated CoT making it difficult to 'read an LLMs thoughts'. How can we predict when obfuscation occurs?🤔 Our new @GoogleDeepMind paper introduces a framework to predict this before training starts!

X (formerly Twitter)
¿Alguien sabe por aquí de alguna comunidad o persona interesante relacionado con el #MachineLearning, #ReinforcementLearning, #Robotics, #ai ?

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

С определенным успехом методы математического программирования захватили множество задач автоматизации и оптимизации бизнес процессов (маршрутизация доставки, планирование производства или графиков работы сотрудников, планирование сетей и т.д.). Используемые методы решения и классические постановки задач десятилетиями остаются без серьезных изменений. Когда ждать революцию? Кто имеет потенциал для ее организации? Проведем эксперимент на предмет того, есть ли у RL способности решать оптимизационные задачи. Для исследования возьмем не сложную практическую оптимизационную задачу и оценим как обучение с подкреплением справится. Материал будет полезен как заядлым специалистам по мат.оптимизации, так и ml-инженерам или data scientist’ам. Рассматриваемая задача может быть интересна специалистам из области логистики/транспортных перевозок.

https://habr.com/ru/articles/1013720/

#reinforcementlearning #математическая_оптимизация #математическое_моделирование #бизнеспроцессы #транспортная_задача #обучение_с_подкреплением #double_dqn #машинное_обучение

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

С определенным успехом методы математического программирования захватили множество задач автоматизации и оптимизации бизнес процессов (маршрутизация доставки, планирование производства или графиков...

Хабр

vitrupo (@vitrupo)

Misha Laskin이 RL이 대규모로 작동하기 시작하면 AI 발전은 결국 경제성 문제로 바뀐다고 언급했습니다. AlphaGo 사례와 함께, 언어모델에서 RL이 가능해지면서 다른 분야로도 확장되며, 질병 치료 같은 문제에 수십억 달러를 투입할 의지가 핵심이 된다는 관점입니다.

https://x.com/vitrupo/status/2038769585764376896

#reinforcementlearning #llm #economics #alphago #airesearch

vitrupo (@vitrupo) on X

Misha Laskin says once RL works at scale, progress becomes an economics problem. AlphaGo kept improving until it wasn’t worth the compute. Now that RL works on language models, the same logic applies elsewhere: “How much are you willing to spend $10B, $100B to cure a disease?”

X (formerly Twitter)
Hamilton-Jacobi-Bellman Equation: Reinforcement Learning and Diffusion Models

Why the HJB is Bellman's equation in continuous time, why continuous time matters, and how to solve the resulting control problem with neural policy iteration.

dani2442's Blog