Ilir Aliu (@IlirAliu_)
로봇 정책을 전체 재학습하지 않고 내부 상태를 작은 feature vector로 압축한 뒤, 그 위에 작은 RL 레이어만 학습하는 'RL token' 아이디어를 소개한다. 로봇 정책 fine-tuning 시간을 며칠에서 몇 분으로 줄일 수 있다고 강조하며, 로보틱스 학습 효율을 크게 높일 수 있는 접근이다.
https://x.com/IlirAliu_/status/2036366477075366246
#robotics #reinforcementlearning #finetuning #robotpolicy #ai

Ilir Aliu (@IlirAliu_) on X
Robots building robots. RL token is a simple but powerful idea: Fine-tuning robot policies usually takes days. This takes minutes. Instead of retraining the full model, compress its internal state into a small feature vector and train a tiny RL layer on top. • small actor +

