AISatoshi (@AiXsatoshi)
일부 LLM에도 적용되면 좋겠다는 의견과 함께, 지속 사전학습으로 코드 특화 강한 베이스 모델을 만들고 Self-Summarization RL로 장기 태스크를 학습시켰다는 내용이 언급됐다. 코드 중심 베이스 모델과 장기 작업 학습을 위한 강화학습 접근이 핵심이다.
AISatoshi (@AiXsatoshi)
일부 LLM에도 적용되면 좋겠다는 의견과 함께, 지속 사전학습으로 코드 특화 강한 베이스 모델을 만들고 Self-Summarization RL로 장기 태스크를 학습시켰다는 내용이 언급됐다. 코드 중심 베이스 모델과 장기 작업 학습을 위한 강화학습 접근이 핵심이다.
Hi :)
auch wenn ich ein einsamer rufer zu dem thema bin, werde ich das immer wenn ich es sehe hier wieder bringen,
) wann hört es endlich auf, das die knappe TV nachrichten sendezeit im örr mit fussball verschwendet wird?
die leute die es interessiert haben sich längst alle interessierenden infos anderweitig geholt.
das ist doch ein relikt aus der anfangszeit, in der es noch keine kurzfristigen informationsquelllen gab.
das ist heute mehr als flüssig :)
vielleicht finden sich ja gleichgesinnte dann biitte
nicht favorisieren sondern boosten, damit es eine wirkung bekommt. danke :)
#nachrichten #TV #orr #fussball #tagesschau #tagesthemen #heute #heutjorunal #ard #zdf #rl #sat1 #pro7
Cursor Composer 2 is just Kimi K2.5 with RL
https://twitter.com/fynnso/status/2034706304875602030
#HackerNews #CursorComposer2 #KimiK2.5 #RL #TechNews #HackerNews
Wes Roth (@WesRoth)
Minimax M2.7이 인간 개입 없이 100회 이상 스스로 진화한 방식이 매우 이례적으로 소개됐다. 초기 버전의 같은 모델로 연구 에이전트를 만들어 RL 팀 업무의 30~50%를 처리하게 했고, 이후 예상 밖의 수준으로 발전했다는 점이 핵심이다. 자율적 모델 개선과 연구 자동화 사례로 주목된다.

how Minimax M2.7 was made is absolutely INSANE it "evolved" 100+ times with zero human input They built a research agent using an early version of that same model soon it was handling 30 to 50 percent of their RL team's entire workflow. and then it got WEIRD
Yam Peleg (@Yampeleg)
모델이 자신 다음 버전을 만드는 데 얼마나 기여했는지를 기준으로 평가했다는 내용이다. RL 팀의 작업 일부를 모델이 개발 과정에서 대신 수행하도록 한 자동 연구(auto-research) 방식으로, 개발 자동화와 자기개선형 AI 연구의 가능성을 보여준다.

The model was evaluated by how much it contributed to building the next version of itself. This is a crazy post. They basically did auto-research IRL: Maximizing how much the RL team's work is delegated to the model during it's development. (Answer: 30-50% btw) Everything
Luke The Dev (@iamlukethedev)
현재 'the gym'은 에이전트의 스킬 개발 과제를 나타내며 즉시 RL 환경은 아니라고 밝힙니다. 다만 이를 강화학습(RL) 훈련 환경으로 전환하는 아이디어를 긍정적으로 보고 있으며, 향후 훈련·평가 용도로의 전환 가능성을 제시합니다.
So far, I've been coding up my reinforcement learning assignments from scratch, which has been great.
For my next experiment, though, I want to use ANNs for function approximation, and code that's compatible with standard algorithms and environments commonly used in the field. So, I'm looking into RL libraries!
I started with torchrl, just because it's prominent and torch is the research standard. I've been trying to get it to work for a few days now, and... I hate it! Just a really convoluted system of abstract interfaces with shoddy documentation for how to use them.
I think I'll try skrl next. That seems simpler, more elegant, and much better documented (also, it uses torch under the hood).
That said, I worry both of these libraries are too prescriptive. They're streamlined for a traditional RL workflow, but I'll be building some weird hybrid algorithms, and I dunno if they'll fit. But we'll see! I can't even investigate that until I get PPO working in a custom environment.
Avi Chawla (@_avichawla)
OpenClaw가 RL을 만났다는 발표입니다. 기존엔 에이전트가 메모리 파일과 스킬로 적응했으나 기본 모델 가중치는 변하지 않았고, OpenClaw-RL은 이를 해결한다고 설명합니다. 자체 호스팅 모델을 OpenAI 호환 API로 래핑하여 OpenClaw의 실시간 대화를 가로채 정책(policy)을 실시간으로 학습시키는 접근입니다.

OpenClaw meets RL! OpenClaw Agents adapt through memory files and skills, but the base model weights never actually change. OpenClaw-RL solves this! It wraps a self-hosted model as an OpenAI-compatible API, intercepts live conversations from OpenClaw, and trains the policy in