Mastodawn

Как собрать Physical AI-конвейер на манипуляторе за 30 тысяч рублей: ROS2, LeRobot и end-to-end imitation learning

Вокруг Physical AI сейчас много шума, но если отбросить красивые слова, у большинства разработчиков до сих пор нет главного — воспроизводимого конвейера на реальном роботе, который можно поднять своими руками, покрутить, записать данные, обучить policy и вернуть её обратно в железо. Обычно всё рассыпается на отдельные куски: где-то есть teleop, где-то есть датасеты, где-то крутится ML-модель, но цельного ROS2-native пути от демонстрации до исплнения почти не видно. В статье вы получите решение, как собрать такой манипулятор самостояетельно и запустить все необходимые программные компоненты из open-source ROS2 пакетов.

https://habr.com/ru/articles/1010178/

#ros2 #lerobot #робототехника #манипулятор #искусственный_интеллект #machinelearning #deeplearning #vla #vision_language_models

Как собрать Physical AI-конвейер на манипуляторе за 30 тысяч рублей: ROS2, LeRobot и end-to-end imitation learning

Вокруг Physical AI сейчас много шума, но если отбросить красивые слова, у большинства разработчиков до сих пор нет главного — воспроизводимого конвейера на реальном роботе, который можно поднять...

Хабр

Hacker News Jun 3, 2025

Vision Language Models Are Biased
https://vlmsarebiased.github.io/
#ycombinator #VLM #Vision_Language_Models #Bias #Computer_Vision #Counting

VLMs are Biased

Vision Language Models are Biased: VLMs fail on simple counting tasks when familiar objects are subtly modified

Habr Nov 8, 2024

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их, чтобы упростить современную рутину, а так же используем для решения бизнес задач. Недавно вышло новое поколение vision transformer моделей, которые заметно упростили анализ изображений, из какой бы сферы эти изображения не были. Особенно заметным был сентябрьский релиз Llama-3.2-11b, и не только потому что это первая vision модель от Llama, сколько потому, что с ней вместе вышло целое семейство моделей, включая маленькие на 1B и 3B параметров. А как вы знаете, меньше, значит юзабельнее.

https://habr.com/ru/companies/raft/articles/857118/

#Vision_Transformers #Vision_Language_Models #multimodal_llm #Llama32 #qwen2vl #llava #art #art_history

Понимает ли Vision Llama импрессионистов?

Всем привет, меня зовут Арсений, я Data Scientist в компании Raft, и сегодня я расскажу вам про Visual Language Models (VLM). Большие языковые модели уже стали частью нашей жизни и мы применяем их,...

Хабр