Sergio Paniego (@SergioPaniego)

LLM이 실제 물리와 비가역적 행동이 있는 환경에서 자동차를 운전하면 어떤 일이 벌어지는지 실험함. 작성자는 자율주행 시뮬레이터 CARLA를 OpenEnv로 포팅하고 TRL과 Hugging Face Spaces를 통해 학습 파이프라인을 구성했다. 결과적으로 Qwen 0.6B가 50스텝 만에 보행자를 피하기 위해 스티어링과 제동을 학습했다.

https://x.com/SergioPaniego/status/2027064485056241971

#carla #openenv #trl #huggingface #qwen

Sergio Paniego (@SergioPaniego) on X

What happens when you make an LLM drive a car where physics are real and actions can't be undone? I ported CARLA, the autonomous driving simulator, to OpenEnv and added training via TRL + HF Spaces In 50 steps, Qwen 0.6B learns to swerve and brake to avoid pedestrians

X (formerly Twitter)

merve (@mervenoyann)

OpenEnv를 비전-언어 모델(VLM)으로 확장하는 실험 기록. 이미지를 그리드로 렌더링해 base64 관측으로 전달하는 스네이크(snake) 환경을 만들어 VLM이 이미지 관측을 처리하도록 했고, 소규모(3 에피소드) 리플레이를 시연했다는 개발 노트.

https://x.com/mervenoyann/status/2020826014729826309

#openenv #visionlanguage #rl #simulation

merve (@mervenoyann) on X

I played with OpenEnv today to see how it can be extended to vision language models that see images as grids for starter I built a snake environment that renders as image and the image is directly sent as base64 observation here's a small three episode replay of snake, it was a

X (formerly Twitter)

Tôi đã tạo một mô hình chơi Wordle bằng cách tinh chỉnh GRPO + TRL + OpenEnv trên Colab! Mô hình này sử dụng học tăng cường và môi trường OpenEnv. #Wordle #TRL #OpenEnv #GRPO #HọcTăngCường #MôHìnhHọcMáy #Colab #ReinforcementLearning #AI

https://www.reddit.com/r/LocalLLaMA/comments/1p5d3j6/i_finetuned_a_model_with_grpo_trl_openenv/

Envie: Công cụ mã nguồn mở thay thế .env, giúp quản lý biến môi trường, API keys và các bí mật dự án một cách an toàn và dễ dàng hơn. Dễ dàng chuyển đổi giữa các môi trường development, staging và production.

#opensource #congnghe #devops #openenv #manguonmo

https://www.reddit.com/r/SideProject/comments/1n6dzbc/i_built_envie_an_open_source_tool_designed_to/