Bushido - Sonnenbank Flavour (...


merve (@mervenoyann)
Nemotron 3 Super(@NVIDIAAI) 정식 출시 소식: 하이브리드 SSM MoE 구조로 더 빠르면서 여러 벤치마크에서 오픈 모델들과 동등하거나 우수한 성능을 보인다고 합니다. 출시일에 Hugging Face Transformers와 TRL 지원을 제공하며 Nano 환경에서도 동작한다고 언급됩니다.
merve (@mervenoyann)
Hugging Face의 Jobs와 TRL을 활용해 빌드하면 이번 주말 Reachy Mini를 받을 기회를 얻을 수 있다는 해커톤 공지입니다. 이미 약 1천명의 개발자가 해커톤 조직에 참여해 있으며 참가를 독려하는 내용으로, Hugging Face 생태계와 TRL을 이용한 로보틱스/AI 실습 기회 제공을 알립니다.
Sergio Paniego (@SergioPaniego)
LLM이 실제 물리와 비가역적 행동이 있는 환경에서 자동차를 운전하면 어떤 일이 벌어지는지 실험함. 작성자는 자율주행 시뮬레이터 CARLA를 OpenEnv로 포팅하고 TRL과 Hugging Face Spaces를 통해 학습 파이프라인을 구성했다. 결과적으로 Qwen 0.6B가 50스텝 만에 보행자를 피하기 위해 스티어링과 제동을 학습했다.

What happens when you make an LLM drive a car where physics are real and actions can't be undone? I ported CARLA, the autonomous driving simulator, to OpenEnv and added training via TRL + HF Spaces In 50 steps, Qwen 0.6B learns to swerve and brake to avoid pedestrians
Tạo notebook Colab miễn phí cho mô hình 7B+ với GRPO + TRL, giảm sử dụng bộ nhớ ~7 lần! #Colab #GRPO #TRL #MachineLearning #MôHọcMáyTính #Reasoning #LậpTrình
https://www.reddit.com/r/LocalLLaMA/comments/1q7h6hz/i_finetuned_a_7b_model_for_reasoning_on_free/
Выбор LLM и фреймворка для ИИ-агентов
Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.
https://habr.com/ru/companies/postgrespro/articles/979820/
#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo
#SystemsEngineering101
Systems Engineering, meet Industrial Policy↙️
UCSD Barry Naughton's pastiche of #TRL #MRL #IRL #SRL #CRL #ARL is used to describe China's government intervention in their industrial economy as the Innovation Chain.
↘️
Technology Readiness Level #TRL
Manufacturing Readiness Level #MRL
Integration Readiness Level #IRL
System Readiness Level #SRL
Commercial Readiness Level #CRL
Adoption Readiness Level #ARL