Lee Robinson (@leerob)

Composer 2가 오픈소스 베이스에서 시작했으며, 향후 전체 사전학습(full pretraining)을 진행할 계획이라고 설명했습니다. 최종 모델의 계산량 중 약 4분의 1만 베이스에서 왔고 나머지는 자체 학습에서 비롯되었다며, 평가 결과가 달라지는 이유와 라이선스 준수도 언급했습니다.

https://x.com/leerob/status/2035035355364081694

#opensource #pretraining #modeltraining #llm #license

Lee Robinson (@leerob) on X

Yep, Composer 2 started from an open-source base! We will do full pretraining in the future. Only ~1/4 of the compute spent on the final model came from the base, the rest is from our training. This is why evals are very different. And yes, we are following the license through

X (formerly Twitter)

Aman Sanger (@amanrsanger)

Kimi k2.5를 여러 베이스 모델과 perplexity 기반 평가로 비교한 결과, 가장 강력한 모델로 평가했다고 언급했습니다. 이어서 continued pre-training과 고비용 RL을 4배 규모로 확장해 성능을 끌어올렸다고 밝혀, 최신 모델 평가와 학습 전략 측면에서 중요한 내용입니다.

https://x.com/amanrsanger/status/2035079293257359663

#kimi #llm #reinforcementlearning #pretraining #evaluations

Aman Sanger (@amanrsanger) on X

We've evaluated a lot of base models on perplexity-based evals and Kimi k2.5 proved to be the strongest! After that, we do continued pre-training and high-compute RL (a 4x scale-up). The combination of the strong base, CPT and RL, and Fireworks' inference and RL samplers make

X (formerly Twitter)
Training Language Models via Neural Cellular Automata

Dan McAteer (@daniel_mac8)

GPT-5.4가 이전 모델(GPT-4.5) 이후 처음으로 더 큰, 추가 사전학습된 베이스 모델일 가능성이 제기된다는 분석. 작성자는 다단계 에이전트 과제에서 단순한 RL만으로는 이런 폭넓은 개선이 나오기 어렵다며 관련 연구(예: 'Illusion of Diminishing Returns')를 상기시킨다.

https://x.com/daniel_mac8/status/2029683967746593044

#gpt5.4 #gpt4.5 #pretraining #research #openai

Dan McAteer (@daniel_mac8) on X

Do you smell that? Is that…BIG model??? GPT-5.4 may represent a larger, further pretrained base model for the first time since GPT-4.5. Doubt you get such broad improvements on multi-step agentic tasks with RL only. If you remember the “illusion of Diminishing Returns” paper

X (formerly Twitter)

Xiaomin Yu (@XiaominY72213)

이 연구는 텍스트 데이터만으로 MLLM(멀티모달 대형 언어 모델)을 프리트레이닝하는 방법을 제안하며, 모달리티 간 격차(modality gap) 현상을 활용해 성능을 향상시키는 접근법을 탐구한다. 관련 논문은 Arxiv에 등록되어 있으며, Github에 소스 코드가 공개되어 있어 연구 재현성과 확장 가능성이 높다.

https://x.com/XiaominY72213/status/2025892849783541844

#mllm #research #pretraining #multimodal #ai

Xiaomin Yu (@XiaominY72213) on X

Pretraining MLLMs using only text data. Our work explores the modality gap phenomenon and uses it to pretrain MLLMs with pure text data. Related links: Arxiv: https://t.co/T7lnNr4u1d Github: https://t.co/eORHxAv1Sj

X (formerly Twitter)

fly51fly (@fly51fly)

논문 'Stabilizing Native Low-Rank LLM Pretraining'(2026)이 arXiv에 공개되었습니다. Concordia와 Sorbonne 연구진(P. Janson, E. Oyallon, E. Belilovsky 등)이 저랭크(low-rank) 기반 LLM 사전학습의 불안정성 문제를 다루고 안정화 기법을 제시하는 연구로, 대규모 모델 효율화와 사전학습 개선에 중요한 시사점을 담고 있습니다.

https://x.com/fly51fly/status/2023571954712957301

#llm #pretraining #lowrank #research

fly51fly (@fly51fly) on X

[LG] Stabilizing Native Low-Rank LLM Pretraining P Janson, E Oyallon, E Belilovsky [Concordia University & Sorbonne University] (2026) https://t.co/p1gT6uCevs

X (formerly Twitter)

vitrupo (@vitrupo)

Dario Amodei의 발언을 인용해 사전학습(pre-training)을 학습과 진화의 중간에 위치한 과정으로 설명합니다. 인간은 수백만 년에 걸친 선험적 prior를 물려받지만, LLM은 무작위 가중치에서 시작해 수조 개의 토큰을 증류해 그와 비슷한 priors를 형성한다고 해석하며 인간 학습 비유의 한계를 언급합니다.

https://x.com/vitrupo/status/2022871643417383286

#pretraining #llm #darioamodei

vitrupo (@vitrupo) on X

Dario Amodei says pre-training sits somewhere between learning and evolution. Humans inherit priors shaped over millions of years. LLMs start as random weights and distill trillions of tokens into those priors. We describe them using human learning metaphors. But the analogy

X (formerly Twitter)

fly51fly (@fly51fly)

프리트레이닝에서 습득된 지식이 감독형 파인튜닝으로 어떻게 전달되는지를 '매직 상관관계' 관점에서 분석한 연구입니다. 사전학습의 특성, 데이터 구성 및 파인튜닝 절차가 지식 이전에 미치는 영향에 대한 이론적·실험적 통찰을 제공하며, 모델 개발과 파인튜닝 전략에 시사점을 줍니다.

https://x.com/fly51fly/status/2022425730211287245

#pretraining #finetuning #knowledgetransfer #deepmind

fly51fly (@fly51fly) on X

[LG] The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning S Fan, D Paparas, N Noy, B Xiong... [Google DeepMind & Google Research] (2026) https://t.co/RqDE41PNgw

X (formerly Twitter)

fly51fly (@fly51fly)

논문 'Value-Based Pre-Training with Downstream Feedback' (S Ke, G Fanti, CMU, 2026) 공개: 다운스트림 피드백을 활용한 가치 기반 프리트레이닝 기법을 제안하여 사전학습과 실제 업무(다운스트림) 성능 간의 연계를 강화하는 방법을 연구한 arXiv 논문입니다.

https://x.com/fly51fly/status/2017721240212148600

#pretraining #downstreamfeedback #ml #arxiv #research

fly51fly (@fly51fly) on X

[LG] Value-Based Pre-Training with Downstream Feedback S Ke, G Fanti [CMU] (2026) https://t.co/n3CK1Kxis2

X (formerly Twitter)
#LLMs learn various #characterarchetypes during #pretraining. #Posttraining focuses on the “#Assistant#persona, but its stability is uncertain. Researchers mapped a “persona space” for LLMs, finding the “#AssistantAxis” aligns with helpful, professional archetypes. Monitoring and capping activations along this axis can prevent models from drifting into harmful personas, enhancing their stability and safety. https://www.anthropic.com/research/assistant-axis?AIagents.at #AIagent #AI #ML #NLP #LLM #GenAI
The assistant axis: situating and stabilizing the character of large language models

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.