fly51fly (@fly51fly)

확산형 대형 언어모델의 정책 최적화에서 궤적을 줄이는 dTRPO 연구가 소개됐다. Meta AI 연구진의 새 논문으로, diffusion LLM 학습 효율과 안정성을 높이기 위한 강화학습/정책최적화 방법을 제안한다.

https://x.com/fly51fly/status/2035109586664137168

#diffusion #llm #reinforcementlearning #meta

fly51fly (@fly51fly) on X

[LG] dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models W Zhang, L Wu, C Zhao, E Chang… [Meta AI] (2026) https://t.co/RYExljbfvT

X (formerly Twitter)