Ilir Aliu (@IlirAliu_)
로봇 정책을 전체 재학습하지 않고 내부 상태를 작은 feature vector로 압축한 뒤, 그 위에 작은 RL 레이어만 학습하는 'RL token' 아이디어를 소개한다. 로봇 정책 fine-tuning 시간을 며칠에서 몇 분으로 줄일 수 있다고 강조하며, 로보틱스 학습 효율을 크게 높일 수 있는 접근이다.
https://x.com/IlirAliu_/status/2036366477075366246
#robotics #reinforcementlearning #finetuning #robotpolicy #ai

Ilir Aliu (@IlirAliu_) on X
Robots building robots.
RL token is a simple but powerful idea:
Fine-tuning robot policies usually takes days.
This takes minutes.
Instead of retraining the full model, compress its internal state into a small feature vector and train a tiny RL layer on top.
• small actor +
X (formerly Twitter)Avi Chawla (@_avichawla)
TinyLoRA 논문(arXiv: 2602.04118) 소개 트윗으로, 초소형 파라미터 조정만으로 대형 모델의 추론 성능을 개선하는 방법을 시각적으로 설명한다. 새로운 모델 출시보다는 연구 결과 공유에 가깝지만, 경량 파인튜닝과 효율적 적응 기술에 관심 있는 개발자에게 유용하다.
https://x.com/_avichawla/status/2036005894425907306
#tinylora #arxiv #finetuning #llm #research

Avi Chawla (@_avichawla) on X
paper: https://t.co/EKXJyHx4Ah
TinyLoRA visually explained:
X (formerly Twitter)Avi Chawla (@_avichawla)
Meta, Cornell, CMU 연구진이 TinyLoRA를 공개했다. 8B 파라미터 모델의 성능을 수학·추론 작업에서 크게 끌어올리기 위해 단 13개 파라미터만 조정하는 초소형 LoRA 기법이다. 저장 공간은 26바이트에 불과해, 극도로 효율적인 미세조정 접근법으로 주목된다.
https://x.com/_avichawla/status/2036005875832549825
#lora #tinyllm #finetuning #llm #reasoning

Avi Chawla (@_avichawla) on X
TinyLoRA: LoRA scaled down to 1 parameter.
Researchers from Meta, Cornell, and CMU just dropped a banger.
They turned an 8B parameter model into a math and reasoning powerhouse by tweaking just 13 of those parameters.
That's 26 bytes and takes up less storage than this
X (formerly Twitter)Bindu Reddy (@bindureddy)
Cursor가 Kimi 2.5로 파인튜닝한 모델이 OpenAI Opus 4.6급 성능이라고 주장해 화제다. 사실이라면 다음 버전인 Kimi 3.0은 폐쇄형 모델을 더 강하게 추월할 가능성이 제기됐다. 오픈소스 모델의 경쟁력과 폐쇄형 모델 우위가 주요 논점이다.
https://x.com/bindureddy/status/2035228865631805756
#kimi #cursor #opensource #llm #finetuning

Bindu Reddy (@bindureddy) on X
A huge win for Kimi 2.5
Cursor made a fine tune using their model and is claiming that it’s as good as Opus 4.6!
If true, the next version of Kimi - Kimi 3.0 should beat Opus 4.6 comfortably
Has open source decimated closed source? 😂😂
X (formerly Twitter)StepFun (@StepFun_ai)
StepFun AI의 SFT 데이터셋이 ModelScope에도 공개되었습니다. Step-3.5-Flash-SFT 데이터셋을 통해 AI 모델 미세조정용 학습 데이터 접근성이 높아졌습니다.
https://x.com/StepFun_ai/status/2034826338389872974
#dataset #opensourceml #finetuning #modelscope #ai

StepFun (@StepFun_ai) on X
our SFT dataset is now on @ModelScope2022 too!
https://t.co/F6nZVIKScu
X (formerly Twitter)Akshay (@akshay_pachaar)
Unsloth가 오픈소스 웹 UI를 출시하여 코드를 작성하지 않고 500개 이상의 LLM을 실행하고 파인튜닝할 수 있게 되었다고 발표했습니다. 주요 특징으로 로컬(맥/윈도우/리눅스) 실행 지원, 모델 학습 2배 속도 및 VRAM 70% 절감, GGUF 및 비전 모델 지원 등이 언급되어 파인튜닝 워크플로우를 크게 단순화합니다.
https://x.com/akshay_pachaar/status/2034253782444589498
#unsloth #finetuning #llm #opensource #gguf

Akshay 🚀 (@akshay_pachaar) on X
finetuning LLMs will never be the same!
Unsloth just launched an open-source web UI to run and fine-tune 500+ LLMs without writing any code.
key features
- run models locally on Mac, Windows, Linux
- train 500+ models 2x faster with 70% less VRAM
- supports GGUF, vision,
X (formerly Twitter)Paul Couvert (@itsPaulAi)
Tether가 QVAC BitNet LoRA라는 LoRA 기반 파인튜닝 프레임워크를 공개했습니다. 휴대폰에서 수십억 매개변수 모델을 실행하고 파인튜닝할 수 있게 하며 메모리 사용을 최대 90% 절감한다고 주장합니다. 또한 iPhone 16에서 13B 모델을 파인튜닝했고 약 11배 속도 향상을 달성했다고 보고됩니다.
https://x.com/itsPaulAi/status/2033919842172993745
#qvac #bitnet #lora #mobilellm #finetuning
AISatoshi (@AiXsatoshi)
양자화(quantization)의 영향으로 약간의 편차가 느껴져 더 미세한 튜닝이 필요하다는 지적입니다. 강화학습(reinforcement learning)이나 reasoning 기반의 스케일 업이 성능 향상에 효과적일 수 있다는 제안도 포함되어 있습니다.
https://x.com/AiXsatoshi/status/2034092284237721736
#quantization #finetuning #reinforcementlearning #reasoning
Johan Puisais (@mrgris)
Unsloth Studio가 이제 Pinokio에서 사용 가능하다는 발표입니다. 로컬에서 모델을 미세조정(fine-tune)하는 과정을 간소화하며, 새 런처가 설치를 자동화해 사용자의 머신을 'AI 빌드 스테이션'으로 변환해 준다고 소개하고 있습니다.
https://x.com/mrgris/status/2034024733826580563
#unsloth #pinokio #finetuning #devtools

Johan Puisais 🇺🇦 🇪🇺 🇫🇷 (@mrgris) on X
⚡️ Unsloth Studio est maintenant disponible sur Pinokio !
Finer-tuner vos modèles localement n'a jamais été aussi simple. Le nouveau launcher Unsloth Studio automatise toute l'installation pour transformer votre machine en station de build IA. 🦥💻
🛠️ Ce que fait le launcher :
X (formerly Twitter)