fly51fly (@fly51fly)
UC Berkeley와 Allen Institute for AI 연구진이 Mixture of Experts의 사전학습을 통해 emergent modularity를 유도하는 EMO를 제안했다. 이 연구는 MoE 모델의 구조적 모듈성이 어떻게 자연스럽게 형성되는지 다루는 최신 AI 연구로, 대규모 모델 설계와 효율적 학습에 중요한 시사점을 준다.
fly51fly (@fly51fly)
UC Berkeley와 Allen Institute for AI 연구진이 Mixture of Experts의 사전학습을 통해 emergent modularity를 유도하는 EMO를 제안했다. 이 연구는 MoE 모델의 구조적 모듈성이 어떻게 자연스럽게 형성되는지 다루는 최신 AI 연구로, 대규모 모델 설계와 효율적 학습에 중요한 시사점을 준다.
Z.ai (@Zai_org)
CogViT 비전 인코더의 기술적 핵심을 소개. SigLIP2와 DINOv3를 활용한 듀얼 티처 증류, 마스크드 모델링과 대조학습의 2단계 사전학습, 대규모 학습 안정화를 위한 QK-Norm, 멀티모달 멀티토큰 예측을 설명한다.

Technical highlights: CogViT Vision Encoder - Built with dual-teacher distillation: SigLIP2 for semantics, DINOv3 for texture. A two-stage recipe, masked modeling, then contrastive pretraining, with QK-Norm for attention stability at scale. Multimodal Multi-Token Prediction
Ben Davis (@davis7)
OpenAI의 새 모델/시스템에 대한 인상과 평가를 담은 후기다. 낮은 추론 설정에서 빠르고, 코드 생성 품질이 매우 좋으며, 새로운 사전학습이 인상적이라고 언급한다. 다만 이름과 가격, 예민한 반응성은 아쉽다고 평가한다.

This is very late, but I'm finally done with my 5.5 vid - use low reasoning - the name sucks - it's fast - best code I've ever seen a model write came from this model - openai's new pre-training is amazing - price looks worse than it is - over sensitive to every little thing in
La leyenda urbana de «entrenar tu propio modelo de IAG» sigue siendo un anzuelo para monetizar tutoriales, cursos, masterclass y demás productos que los gurúes y promotores de la IA generativa usan para seguir lucrando a costa de todos los autores vulnerados. ¡No se dejen engañar!
#AI #MachineLearning #data #training #finetuning #AImodel #genAI #generativeAI #pretraining #Copyright #opensource
RT @ErnieforDevs: TRANSLASION: Wir stellen ERNIE 5.1 Preview vor — jetzt live! 🚀
mehr auf Arint.info
#ChineseAI #ERNIE #Innovation #KI #PreTraining #Technologie #arint_info
<p>RT @ErnieforDevs: TRANSLASION: Wir stellen ERNIE 5.1 Preview vor — jetzt live! 🚀</p> <p><a href="https://arint.info/@Arint/116494491170739340">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#ChineseAI #ERNIE #Innovation #KI #PreTraining #Technologie #arint_info</p> <p><a href="https://x.com/ErnieforDevs/status/2049516018557706650#m">https://x.com/ErnieforDevs/status/2049516018557706650#m</a></p>
Neuralease (@neuralease)
Anthropic은 사전학습(pretraining)에서, OpenAI는 강화학습(RL)에서 강점이 있으며, 사고를 완전히 펼치지 못하는 조건에서는 Anthropic이 더 우수하다는 평가다. 모델의 성향 차이와 비교 성능을 언급한 AI 모델 평가 내용이다.
Dan McAteer (@daniel_mac8)
OpenAI의 GPT-5.5(Spud)가 새로운 프리트레인 모델로 확인됐다는 언급이다. 더 적은 reasoning token으로도 더 나은 성능을 낼 수 있으며, 향후 reasoning RL과 post-training을 더해 성능이 추가 개선될 것으로 전망한다.

GPT-5.5 aka 'Spud 🥔' is confirmed a new pre-train. That means it will perform better with fewer reasoning tokens. OpenAI *already* had the best post-training/RL recipe. Will take time to add reasoning RL secret sauce to this new model. It's why it's called "post-training".
Arthur Douillard (@Ar_Douillard)
Google DeepMind와 Google Research가 분산·이기종 하드웨어 환경에서도 시스템을 멈추지 않고 대규모 사전학습을 수행할 수 있는 새로운 훈련 방식 Decoupled DiLoCo를 공개했다. 전 세계 데이터센터를 활용하는 탄력적인 AI pre-training을 목표로 하며, 확장성과 안정성을 크게 높일 수 있는 기술이다.
https://x.com/Ar_Douillard/status/2047329942547968171
#googledeepmind #googleresearch #pretraining #ai #distributedtraining

The DiLoCo team at Google DeepMind and Google Research is proud to release Decoupled DiLoCo, the next frontier for resilient AI pre-training. Decoupled DiLoCo enables training with datacenters across the world, using heterogeneous hardware, and never halting the system despite
AISatoshi (@AiXsatoshi)
일부 LLM에도 적용되면 좋겠다는 의견과 함께, 지속 사전학습으로 코드 특화 강한 베이스 모델을 만들고 Self-Summarization RL로 장기 태스크를 학습시켰다는 내용이 언급됐다. 코드 중심 베이스 모델과 장기 작업 학습을 위한 강화학습 접근이 핵심이다.
Yep, Composer 2 started from an open-source base! We will do full pretraining in the future.
Only ~1/4 of the compute spent on the final model came from the base, the rest is from our training. This is why evals are very different.
And yes, we are following the license through our inference partner terms.

Yep, Composer 2 started from an open-source base! We will do full pretraining in the future. Only ~1/4 of the compute spent on the final model came from the base, the rest is from our training. This is why evals are very different. And yes, we are following the license through