Mastodawn

Chubby (@kimmonismus)

AI 발전은 모델의 강화학습과 알고리즘 혁신, 더 나은 칩을 통한 대규모 학습·추론 효율 향상에 의해 진전되지만, 칩 생산의 대규모 확장도 핵심이라는 점을 짚는다.

https://x.com/kimmonismus/status/2044538911603527739

#ai #llm #chips #reinforcementlearning #inference

Chubby♨️ (@kimmonismus) on X

What’s always seen in AI development is: 1) Models improve through reinforcement learning and algorithmic breakthroughs. 2) Better chips allow for training larger models and more efficient inference. However, what’s often overlooked is the massive scaling of chip production

X (formerly Twitter)

sayzard 5d ago

Lukas Ziegler (@lukas_m_ziegler)

ETH Zurich의 Raffaello D'Andrea 연구실에서 개발한 자율 시스템 CyberRunner가 미로형 보드게임에서 인간을 이겼다는 사례가 소개됐다. 학습 기반 제어와 로보틱스, 강화학습의 결합이 실제 게임 과제에서 강력한 성능을 보인 점이 인상적이다.

https://x.com/lukas_m_ziegler/status/2042993762381545539

#robotics #reinforcementlearning #autonomy #ethz #ai

Lukas Ziegler (@lukas_m_ziegler) on X

AI robot beats humans at labyrinth board game! ♟️ Last week I visited Raffaello D'Andrea lab at @ETH Zurich and I was super impressed with all the cool stuff they are cooking there. For example, this is CyberRunner. CyberRunner is an autonomous system that learns to play the

X (formerly Twitter)

KIT-Fakultät für Informatik Apr 9

Wie können KI-Systeme besser mit neuen Situationen umgehen?
Genau das erforscht Dr. André Biedenkapp ab September am KIT. Für seine Arbeiten zur besseren Generalisierung von Reinforcement Learning hat er eine Emmy Noether-Gruppe der DFG eingeworben (1,2 Mio. € Förderung). 🤖🔬
Infos: https://www.informatik.kit.edu/11147_15180.php
#KIT #KITInformatik #Forschung #KI #ReinforcementLearning #EmmyNoether

sayzard Apr 9

fly51fly (@fly51fly)

멀티 에이전트 강화학습을 위한 파운데이션 모델 ‘MARL-GPT’가 소개되었다. 새로운 연구로, 다중 에이전트 RL에서 범용 모델 접근을 제안하며 오픈 아크(ArXiv) 논문으로 공개됐다.

https://x.com/fly51fly/status/2041996064841200003

#reinforcementlearning #multiaagent #foundationmodel #llm #research

fly51fly (@fly51fly) on X

[LG] MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning M Nesterova, M Kolosov, A Andreychuk, E Cherepanov… [MIRAI & AXXX] (2026) https://t.co/18Yoys5CQo

X (formerly Twitter)

Scienza et Magia Apr 7

Robot magazziniere che improvvisa sul lavoro. Il Robot Generalista che Piega 200 Scatole Senza Errori: Arriva GEN-1 di Generalist AI. Generalist AI ha annunciato GEN-1, il primo modello robotico capace di superare il 99% di affidabilità nelle operazioni industriali. Offre una velocità di esecuzione tre volte superiore ai.

https://scienzamagia.eu/scienza-e-tecnologia/robot-magazziniere-che-improvvisa-sul-lavoro/

#Ambientiproduttivi #GeneralistAI #HarmonicReasoning #intelligenzaartificiale #Modelligeneralisti #reinforcementlearning #Scalinglaws #Taskindustriali

Winbuzzer Apr 5

https://winbuzzer.com/2026/04/05/alibaba-qwen-fipo-algorithm-doubles-ai-reasoning-depth-xcxwbn/

Alibaba's New FIPO Algorithm Doubles AI Reasoning Depth

#AI #Alibaba #Qwen #LLMs #ReinforcementLearning #AIModels #MachineLearning #AIModelDevelopment #ChinaAI #AlibabaCloud

sayzard Apr 2

fly51fly (@fly51fly)

Google Research와 뮌헨공대 연구진이 목표 정렬을 위한 강화학습 기법인 Target-Aligned Reinforcement Learning 논문을 공개했습니다. AI 모델의 보상 정렬, 안전성, 학습 안정성 개선에 관련된 연구로 보입니다.

https://x.com/fly51fly/status/2039459102313808325

#reinforcementlearning #alignment #googleresearch #airesearch #machinelearning

fly51fly (@fly51fly) on X

[LG] Target-Aligned Reinforcement Learning L S. Pleiss, J Harrison, M Schiffer [Technical University of Munich & Google Research] (2026) https://t.co/S2UjFADiwi

X (formerly Twitter)

sayzard Apr 1

Max Kaufmann (@Max_A_Kaufmann)

강화학습(RL) 훈련이 LLM의 CoT(Chain of Thought)를 모호하게 만들 수 있는지 다루며, 훈련 전에 이러한 obfuscation 발생 여부를 예측하는 새로운 프레임워크를 Google DeepMind가 제안했다는 연구 소개다.

https://x.com/Max_A_Kaufmann/status/2039404338855149861

#googledemind #llm #cot #reinforcementlearning #research

Max Kaufmann (@Max_A_Kaufmann) on X

Is training against the CoT always bad? RL training can lead to obfuscated CoT making it difficult to 'read an LLMs thoughts'. How can we predict when obfuscation occurs?🤔 Our new @GoogleDeepMind paper introduces a framework to predict this before training starts!

X (formerly Twitter)

OxBetan Apr 1

¿Alguien sabe por aquí de alguna comunidad o persona interesante relacionado con el #MachineLearning, #ReinforcementLearning, #Robotics, #ai ?

Habr Mar 31

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

С определенным успехом методы математического программирования захватили множество задач автоматизации и оптимизации бизнес процессов (маршрутизация доставки, планирование производства или графиков работы сотрудников, планирование сетей и т.д.). Используемые методы решения и классические постановки задач десятилетиями остаются без серьезных изменений. Когда ждать революцию? Кто имеет потенциал для ее организации? Проведем эксперимент на предмет того, есть ли у RL способности решать оптимизационные задачи. Для исследования возьмем не сложную практическую оптимизационную задачу и оценим как обучение с подкреплением справится. Материал будет полезен как заядлым специалистам по мат.оптимизации, так и ml-инженерам или data scientist’ам. Рассматриваемая задача может быть интересна специалистам из области логистики/транспортных перевозок.

https://habr.com/ru/articles/1013720/

#reinforcementlearning #математическая_оптимизация #математическое_моделирование #бизнеспроцессы #транспортная_задача #обучение_с_подкреплением #double_dqn #машинное_обучение

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

Хабр