Daily Productive Sharing 691 - Grind as Magic
Jacob Kaplan-Moss 解释道,很多时候,苦差看起来像是魔术:
1 有些魔术看起来很光鲜,但是前期的准备要花费大量的时间和精力;
2 在软件开发中也是如此,虽然我们一直在追求自动化,但是有些时候,只有不厌其烦的手工活才能解决问题。
最近大火的 ChatGPT 是在基础的 GPT 模型上,加入了 reinforcement learning with human feedback (RLHF) 才成功的。GPT 的训练不是新鲜事,强化学习 (reinforcement learning) 也不是新鲜事,新鲜的是,要把 human feedback 加入到强化学习里。这里的 human feedback 就是需要大量人力来标注数据,来给模型生成的数据打分。所以本质上也是苦差出奇迹。