[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам! Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека. Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

https://habr.com/ru/articles/1003998/

#rl #reinforcementlearning #VLA #Робототехника #VisionLanguageAction #Action_Chunking_Transformer #ACT

«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении...

Хабр

The Humanoid Hub (@TheHumanoidHub)

Robbyant가 LingBot-VLA를 발표했습니다. 오픈소스 Vision-Language-Action(VLA) 모델로 약 2만 시간의 실제 듀얼암 로봇 데이터로 사전학습되었고, 9개 서로 다른 로봇 체계(embodiments)에서 강한 일반화 성능을 보이며 데이터 증가에 따라 일관되게 성능이 향상된다고 합니다. 또한 π₀.₅, GR00T N1.6 등을 능가한다고 주장합니다.

https://x.com/TheHumanoidHub/status/2017337216054575513

#visionlanguageaction #robotics #opensource #robotlearning

X

X (formerly Twitter)
#Emergentcapabilities in #largelanguagemodels, such as in-context learning, can also appear in #visionlanguageaction (#VLA) models. Scaling up #roboticfoundationmodels allows for emergent human-to-robot transfer, improving performance on tasks demonstrated in human videos by approximately 2x. https://www.physicalintelligence.company/research/human_to_robot?eicker.news #tech #media #news
Emergence of Human to Robot Transfer in Vision-Language-Action Models

Exploring how transfer from human videos to robotic tasks emerges in robotic foundation models as they scale.

"Ra mắt RynnVLA-002, mô hình thống nhất Vision-Language-Action và thế giới. Khả năng học hỏi động lực học môi trường và lập kế hoạch hành động. Đạt 97.4% tỷ lệ thành công trên benchmark LIBERO. #RynnVLA002 #VisionLanguageAction #ThếGiớiMôHình #TríTuệNhânTạo #AI #ArtificialIntelligence #MachineLearning"

https://www.reddit.com/r/singularity/comments/1p5kk9y/rynnvla002_a_unified_visionlanguageaction_and/

Robots just got a brain upgrade!

Google DeepMind's Gemini Robotics can now see 👁️, understand 🧠, and act 🦿 — powered by Gemini 2.0 and designed for real-world tasks.

📡 Keep watching this space for the latest in embodied AI.

#GeminiRobotics #AIforRobots #DeepMind #EmbodiedAI #VisionLanguageAction #RoboticsInnovation #Neuronus

Google DeepMind's Gemini Robotics On-Device is here!

This #VisionLanguageAction (VLA) foundation model operates locally on robot hardware, enabling low-latency inference and can be fine-tuned for specific tasks with as few as 50 demonstrations.

Get the technical deep dive on #InfoQ!

👉 https://bit.ly/4nNZ80t

#Robotics #AI #GoogleDeepMind

Google DeepMind unveils #RoboticsTransformer2 - a #VisionLanguageAction AI model for controlling robots: https://bit.ly/4060IzB

It can perform tasks not explicitly included in its training data and outperforms baseline models by up to 3x in skill evaluations.

#InfoQ #Robotics #AI #LLM #Google

Google DeepMind Announces LLM-Based Robot Controller RT-2

Google DeepMind recently announced Robotics Transformer 2 (RT-2), a vision-language-action (VLA) AI model for controlling robots. RT-2 uses a fine-tuned LLM to output motion control commands. It can perform tasks not explicitly included in its training data and improves on baseline models by up to 3x on emergent skill evaluations.

InfoQ