Cursor (@cursor_ai)

Composer 2의 기술 보고서와 함께 추가 연구 내용을 공개했다. 실시간 RL(real-time reinforcement learning)을 활용해 새 체크포인트를 학습하며, 모델의 개선 버전을 5시간마다 배포할 수 있다고 밝혔다. AI 모델 학습 및 업데이트 속도를 크게 높인 중요한 연구/개발 소식이다.

https://x.com/cursor_ai/status/2037205514975629493

#reinforcementlearning #ai #modeltraining #research #llm

Cursor (@cursor_ai) on X

Earlier this week, we published our technical report on Composer 2. We're sharing additional research on how we train new checkpoints. With real-time RL, we can ship improved versions of the model every five hours.

X (formerly Twitter)
RubiCap може змінити навчання ШІ: новий підхід до детального опису зображень
# #AImodels #Apple #AppleAI #Computervision #Denseimagecaptioning #Gemini25Pro #GPT5 #Qwen25 #Reinforcementlearning #RubiCap
https://gizchina.net/2026/03/26/rubicap-ai-dense-image-captioning/
RubiCap може змінити навчання ШІ: новий підхід до детального опису зображень

RubiCap — це новий підхід до навчання моделей штучного інтелекту, який може суттєво покращ

GizChina.net
RubiCap може змінити навчання ШІ: новий підхід до детального опису зображень
# #AImodels #Apple #AppleAI #Computervision #Denseimagecaptioning #Gemini25Pro #GPT5 #Qwen25 #Reinforcementlearning #RubiCap
https://gizchina.net/2026/03/26/rubicap-ai-dense-image-captioning/
RubiCap може змінити навчання ШІ: новий підхід до детального опису зображень

RubiCap — це новий підхід до навчання моделей штучного інтелекту, який може суттєво покращ

GizChina.net

Rohan Paul (@rohanpaul_ai)

의료 비전-언어 모델에서 강화학습(RL) 후학습은 완전히 새로운 능력을 학습시키기보다 기존 능력을 더 정교하게 다듬고, 출력 분포를 최적화해 효율성을 높이는 역할이 크다는 연구 결과를 제시한다.

https://x.com/rohanpaul_ai/status/2036653802204561594

#reinforcementlearning #medai #visionlanguage #machinelearning #research

Rohan Paul (@rohanpaul_ai) on X

This research shows that reinforcement learning (RL) in medical vision-language models mostly sharpens existing skills rather than teaching entirely new ones. Reinforcement learning post-training primarily refines output distributions to improve efficiency, while supervised

X (formerly Twitter)

fly51fly (@fly51fly)

NVIDIA와 UC Berkeley가 저비용으로 높은 정확도의 에이전트형 포스트 트레이닝을 구현하는 PivotRL을 공개했습니다. 적은 연산 비용으로도 에이전트 성능을 높일 수 있는 강화학습 기반 후학습 방법으로, 실용적인 LLM 에이전트 개발에 유용한 연구입니다.

https://x.com/fly51fly/status/2036560264972345392

#pivoutrl #agentic #posttraining #reinforcementlearning #nvidia

fly51fly (@fly51fly) on X

[LG] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost J Yi, D Mosk-Aoyama, B Huang, R Gala… [NVIDIA & UC Berkeley] (2026) https://t.co/GjdsQOd3AO

X (formerly Twitter)

Cursor가 Composer 2를 출시했습니다. Kimi-k2.5 모델이 기반을 제공했으며, Cursor의 추가 사전학습과 고성능 강화학습(RL) 트레이닝을 통해 효과적으로 통합되었습니다. Cursor는 승인된 상업적 파트너십의 일환으로 FireworksAI의 호스팅 RL·추론 플랫폼을 통해 Kimi-k2.5에 접근합니다.

https://x.com/Kimi_Moonshot/status/2035074972943831491

#ai #cursor #kimik2.5 #fireworksai #reinforcementlearning

Kimi.ai (@Kimi_Moonshot) on X

Congrats to the @cursor_ai team on the launch of Composer 2! We are proud to see Kimi-k2.5 provide the foundation. Seeing our model integrated effectively through Cursor's continued pretraining & high-compute RL training is the open model ecosystem we love to support.

X (formerly Twitter)

田中義弘 | taziku CEO / AI × Creative (@taziku_co)

Roadrunner는 횡렬/인라인 바퀴와 스테핑을 모두 다루는 멀티모달 이동 로봇으로, 단일 정책으로 다양한 주행 방식을 학습했다. 넘어짐 복구와 한쪽 바퀴 균형까지 실기기에서 제로샷으로 동작해 범용 로봇 이동 제어의 가능성을 보여줬다.

https://x.com/taziku_co/status/2036373975698465266

#robotics #multimodal #reinforcementlearning #zeroshot #embodiedai

田中義弘 | taziku CEO / AI × Creative (@taziku_co) on X

マルチモーダル移動を実現 「Roadrunner(@rai_inst)」は、横並び車輪、インライン車輪、ステッピングを使いこなす車輪融合ロボット。 横並び車輪とインライン走行などを単一ポリシーで学習し、 起き上がりや片輪バランスまでゼロショットで実機展開。

X (formerly Twitter)

Most RL tutorials focus on agents, not what they’re actually interacting with. This dives into the wrapper stack that quietly shapes RL environments.

Read More: https://zalt.me/blog/2026/03/wrapper-stack-environments

#ReinforcementLearning #MachineLearning #AI

Ilir Aliu (@IlirAliu_)

로봇 정책을 전체 재학습하지 않고 내부 상태를 작은 feature vector로 압축한 뒤, 그 위에 작은 RL 레이어만 학습하는 'RL token' 아이디어를 소개한다. 로봇 정책 fine-tuning 시간을 며칠에서 몇 분으로 줄일 수 있다고 강조하며, 로보틱스 학습 효율을 크게 높일 수 있는 접근이다.

https://x.com/IlirAliu_/status/2036366477075366246

#robotics #reinforcementlearning #finetuning #robotpolicy #ai

Ilir Aliu (@IlirAliu_) on X

Robots building robots. RL token is a simple but powerful idea: Fine-tuning robot policies usually takes days. This takes minutes. Instead of retraining the full model, compress its internal state into a small feature vector and train a tiny RL layer on top. • small actor +

X (formerly Twitter)

Aman Sanger (@amanrsanger)

Kimi k2.5를 여러 베이스 모델과 perplexity 기반 평가로 비교한 결과, 가장 강력한 모델로 평가했다고 언급했습니다. 이어서 continued pre-training과 고비용 RL을 4배 규모로 확장해 성능을 끌어올렸다고 밝혀, 최신 모델 평가와 학습 전략 측면에서 중요한 내용입니다.

https://x.com/amanrsanger/status/2035079293257359663

#kimi #llm #reinforcementlearning #pretraining #evaluations

Aman Sanger (@amanrsanger) on X

We've evaluated a lot of base models on perplexity-based evals and Kimi k2.5 proved to be the strongest! After that, we do continued pre-training and high-compute RL (a 4x scale-up). The combination of the strong base, CPT and RL, and Fireworks' inference and RL samplers make

X (formerly Twitter)