AISatoshi (@AiXsatoshi)

일부 LLM에도 적용되면 좋겠다는 의견과 함께, 지속 사전학습으로 코드 특화 강한 베이스 모델을 만들고 Self-Summarization RL로 장기 태스크를 학습시켰다는 내용이 언급됐다. 코드 중심 베이스 모델과 장기 작업 학습을 위한 강화학습 접근이 핵심이다.

https://x.com/AiXsatoshi/status/2036604316321214748

#llm #pretraining #rl #code #research

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Think部分が無駄に長いように感じる某LLMにも採用されてほしい >継続事前学習でコード特化の強いベースを作り、Self-Summarization RLで長期タスクを学習させた

X (formerly Twitter)