Anthropic (@AnthropicAI)

이 작업은 사회적 영향과 모델 학습 사이의 피드백 루프를 닫기 위한 노력의 일부라고 설명한다. 사람들이 Claude를 어떻게 사용하는지 연구하고, 원칙에서 부족한 부분을 찾아 새로운 모델 학습에 반영하는 것이 목표다.

https://x.com/AnthropicAI/status/2049927628161999317

#claude #modeltraining #alignment #ai #research

Anthropic (@AnthropicAI) on X

This work is part of a loop we're working to close between societal impacts and model training. One of our goals is to study how people use Claude, find where it falls short of its principles, and use what we learned in training new models. Read more: https://t.co/6tjY58uBhk

X (formerly Twitter)

Nomad_Sim (@sedonaroxx)

모델의 파라미터 수 m이 관측치 n보다 적을 때는 under-parameterized 상태이고, m=n 부근에서 손실이 급등한 뒤, 더 큰 모델에서는 여러 방식으로 데이터를 맞출 수 있어 double descent 현상이 나타난다고 설명했다. 대규모 모델의 학습 곡선에 대한 핵심 이론을 간단히 정리한 글이다.

https://x.com/sedonaroxx/status/2049439721714266218

#doubledescent #deeplearning #modeltraining #machinelearning #theory

Nomad_Sim (@sedonaroxx) on X

@_avichawla In the beginning, the model is under-parameterized; then at m(parameters)=n(obs), the model is tight as it can only fit 1 way, the loss function explodes slightly above it. Then, for higher m, model has more parameters m > n and can find more ways to fit leading to double descent

X (formerly Twitter)

https://techxplore.com/news/2026-03-differential-privacy-registry-aims-visible.html

"How can we build the registry concept out into an interactive interface so that it's usable…if you are contributing your personal data for #modeltraining for analysis, wouldn't it be great to be able…to see how your data has been protected?'

Differential privacy is a mathematically formulated definition of #privacy…the process of constructing a post-analysis dataset such that individual information cannot be extracted from it, either unintentionally or otherwise.

Who is using differential privacy? A new registry aims to make it visible

When Apple discovers trending popular emojis, or when Google reports traffic at a busy restaurant, they're analyzing large datasets made up of individual people. Those people's personal information is systematically protected thanks in large part to research by Harvard computer scientists. Now, after two decades of work on the cryptography-adjacent mathematical framework known as differential privacy, researchers in the John A. Paulson School of Engineering and Applied Sciences have reached a key milestone in moving privacy best practices from academia into real-world applications.

Tech Xplore

Cursor (@cursor_ai)

Composer 2의 기술 보고서와 함께 추가 연구 내용을 공개했다. 실시간 RL(real-time reinforcement learning)을 활용해 새 체크포인트를 학습하며, 모델의 개선 버전을 5시간마다 배포할 수 있다고 밝혔다. AI 모델 학습 및 업데이트 속도를 크게 높인 중요한 연구/개발 소식이다.

https://x.com/cursor_ai/status/2037205514975629493

#reinforcementlearning #ai #modeltraining #research #llm

Cursor (@cursor_ai) on X

Earlier this week, we published our technical report on Composer 2. We're sharing additional research on how we train new checkpoints. With real-time RL, we can ship improved versions of the model every five hours.

X (formerly Twitter)

Lee Robinson (@leerob)

Composer 2가 오픈소스 베이스에서 시작했으며, 향후 전체 사전학습(full pretraining)을 진행할 계획이라고 설명했습니다. 최종 모델의 계산량 중 약 4분의 1만 베이스에서 왔고 나머지는 자체 학습에서 비롯되었다며, 평가 결과가 달라지는 이유와 라이선스 준수도 언급했습니다.

https://x.com/leerob/status/2035035355364081694

#opensource #pretraining #modeltraining #llm #license

Lee Robinson (@leerob) on X

Yep, Composer 2 started from an open-source base! We will do full pretraining in the future. Only ~1/4 of the compute spent on the final model came from the base, the rest is from our training. This is why evals are very different. And yes, we are following the license through

X (formerly Twitter)

Unsloth Studio(Beta)는 오픈소스 노코드 로컬 웹 UI로, GGUF·safetensor 모델을 로컬에서 실행·학습·내보내기까지 한곳에서 지원합니다. 500+ 모델을 VRAM 70% 절감·2배 빠르게 학습(정확도 유지), 텍스트·비전·TTS·임베딩 지원. PDF/CSV/DOCX에서 자동으로 데이터셋 생성, 셀프히일링 도구호출·웹검색·코드 실행·자동 튜닝, 모델을 GGUF/safetensors로 내보내기 가능. 오프라인 우선 설계로 개인정보 보호, Windows/Mac/Linux/Docker/Colab에서 사용(베타).

https://unsloth.ai/docs/new/studio

#unsloth #localai #modeltraining #gguf #opensource

Introducing Unsloth Studio | Unsloth Documentation

Run and train AI models locally with Unsloth Studio.

AISatoshi (@AiXsatoshi)

Qwen 시리즈의 추론(reasoning) 부분이 지나치게 길다고 지적하며, 사고과정(chain-of-thought) 최적화를 위한 별도의 트레이닝을 왜 하지 않는지 의문을 제기하고 있음.

https://x.com/AiXsatoshi/status/2031500100263096794

#qwen #llm #reasoning #modeltraining

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Qwenシリーズのreasoning部分は長すぎるな。なんで思考過程の最適化トレーニングしないんだろう🤔?

X (formerly Twitter)

Sid Sahu (@siddhantsahu92)

rasbt(@rasbt)를 인용해, 강화학습(RL) 인프라가 최고 성능 모델을 훈련하는 데 있어 순수 증류(distillation)보다 훨씬 큰 변수라는 주장입니다. 따라서 증류로 인한 성능 향상은 불규칙하고 크지 않다는 지적을 담고 있습니다.

https://x.com/siddhantsahu92/status/2026567306734874770

#reinforcementlearning #rl #infrastructure #distillation #modeltraining

Sid Sahu (@siddhantsahu92) on X

Great point by @rasbt that RL infrastructure is a much bigger variable in training the best models than pure distillation, making gains from distillation jagged and not that big.

X (formerly Twitter)

Avi Chawla (@_avichawla)

작성자는 10년간 신경망을 훈련해온 경험을 바탕으로 모델 학습을 최적화하는 16가지 실전 방법을 정리한 스레드를 공유했습니다. 하이퍼파라미터 조정, 학습률 스케줄링, 배치크기·정규화·데이터 증강 등 학습 효율과 일반화 성능을 개선하는 실무 팁들을 단계적으로 설명해 모델 개발자들이 학습 속도와 성능을 높이는 데 활용할 수 있습니다.

https://x.com/_avichawla/status/2020426249567711269

#neuralnetworks #modeltraining #trainingtips #deeplearning

Avi Chawla (@_avichawla) on X

I have been training neural networks for 10 years now. Here are 16 ways I actively use to optimize model training: (detailed explanation ...🧵)

X (formerly Twitter)

Mohit Goyal (@ByteMohit)

Kimi_Moonshot이 자체적으로 모델을 학습시키고 서로 비교하는 능력이 매우 강력하다는 반응입니다. 작성자는 이를 두고 '주니어 ML 엔지니어가 대체될 수 있다'고 농담으로 표현했습니다.

https://x.com/ByteMohit/status/2020194344016441833

#kimi_moonshot #modeltraining #automation #ml #ai

Mohit Goyal (@ByteMohit) on X

Wow @Kimi_Moonshot is so powerful training models and then comparing itself lol Junior ML Enginner Replaced!!

X (formerly Twitter)