ByteDance vient de montrer qu'un 7B entraîné sur des paires Q&A surpasse des modèles bien plus grands sur les documents longs. Intuition : faire transcrire du texte n'apprend pas à localiser une info, répondre à des questions si. Simple, mais sous-exploité.
