Cursor (@cursor_ai)
Composer 2의 기술 보고서와 함께 추가 연구 내용을 공개했다. 실시간 RL(real-time reinforcement learning)을 활용해 새 체크포인트를 학습하며, 모델의 개선 버전을 5시간마다 배포할 수 있다고 밝혔다. AI 모델 학습 및 업데이트 속도를 크게 높인 중요한 연구/개발 소식이다.
Cursor (@cursor_ai)
Composer 2의 기술 보고서와 함께 추가 연구 내용을 공개했다. 실시간 RL(real-time reinforcement learning)을 활용해 새 체크포인트를 학습하며, 모델의 개선 버전을 5시간마다 배포할 수 있다고 밝혔다. AI 모델 학습 및 업데이트 속도를 크게 높인 중요한 연구/개발 소식이다.
Rohan Paul (@rohanpaul_ai)
의료 비전-언어 모델에서 강화학습(RL) 후학습은 완전히 새로운 능력을 학습시키기보다 기존 능력을 더 정교하게 다듬고, 출력 분포를 최적화해 효율성을 높이는 역할이 크다는 연구 결과를 제시한다.
https://x.com/rohanpaul_ai/status/2036653802204561594
#reinforcementlearning #medai #visionlanguage #machinelearning #research

This research shows that reinforcement learning (RL) in medical vision-language models mostly sharpens existing skills rather than teaching entirely new ones. Reinforcement learning post-training primarily refines output distributions to improve efficiency, while supervised
fly51fly (@fly51fly)
NVIDIA와 UC Berkeley가 저비용으로 높은 정확도의 에이전트형 포스트 트레이닝을 구현하는 PivotRL을 공개했습니다. 적은 연산 비용으로도 에이전트 성능을 높일 수 있는 강화학습 기반 후학습 방법으로, 실용적인 LLM 에이전트 개발에 유용한 연구입니다.
https://x.com/fly51fly/status/2036560264972345392
#pivoutrl #agentic #posttraining #reinforcementlearning #nvidia
Cursor가 Composer 2를 출시했습니다. Kimi-k2.5 모델이 기반을 제공했으며, Cursor의 추가 사전학습과 고성능 강화학습(RL) 트레이닝을 통해 효과적으로 통합되었습니다. Cursor는 승인된 상업적 파트너십의 일환으로 FireworksAI의 호스팅 RL·추론 플랫폼을 통해 Kimi-k2.5에 접근합니다.

Congrats to the @cursor_ai team on the launch of Composer 2! We are proud to see Kimi-k2.5 provide the foundation. Seeing our model integrated effectively through Cursor's continued pretraining & high-compute RL training is the open model ecosystem we love to support.
田中義弘 | taziku CEO / AI × Creative (@taziku_co)
Roadrunner는 횡렬/인라인 바퀴와 스테핑을 모두 다루는 멀티모달 이동 로봇으로, 단일 정책으로 다양한 주행 방식을 학습했다. 넘어짐 복구와 한쪽 바퀴 균형까지 실기기에서 제로샷으로 동작해 범용 로봇 이동 제어의 가능성을 보여줬다.
https://x.com/taziku_co/status/2036373975698465266
#robotics #multimodal #reinforcementlearning #zeroshot #embodiedai
Most RL tutorials focus on agents, not what they’re actually interacting with. This dives into the wrapper stack that quietly shapes RL environments.
Read More: https://zalt.me/blog/2026/03/wrapper-stack-environments
Ilir Aliu (@IlirAliu_)
로봇 정책을 전체 재학습하지 않고 내부 상태를 작은 feature vector로 압축한 뒤, 그 위에 작은 RL 레이어만 학습하는 'RL token' 아이디어를 소개한다. 로봇 정책 fine-tuning 시간을 며칠에서 몇 분으로 줄일 수 있다고 강조하며, 로보틱스 학습 효율을 크게 높일 수 있는 접근이다.
https://x.com/IlirAliu_/status/2036366477075366246
#robotics #reinforcementlearning #finetuning #robotpolicy #ai

Robots building robots. RL token is a simple but powerful idea: Fine-tuning robot policies usually takes days. This takes minutes. Instead of retraining the full model, compress its internal state into a small feature vector and train a tiny RL layer on top. • small actor +
Aman Sanger (@amanrsanger)
Kimi k2.5를 여러 베이스 모델과 perplexity 기반 평가로 비교한 결과, 가장 강력한 모델로 평가했다고 언급했습니다. 이어서 continued pre-training과 고비용 RL을 4배 규모로 확장해 성능을 끌어올렸다고 밝혀, 최신 모델 평가와 학습 전략 측면에서 중요한 내용입니다.

We've evaluated a lot of base models on perplexity-based evals and Kimi k2.5 proved to be the strongest! After that, we do continued pre-training and high-compute RL (a 4x scale-up). The combination of the strong base, CPT and RL, and Fireworks' inference and RL samplers make