23:00
15d ago
FEATURED最佳拍档· atomZH23:00 · 04·11
突破 RLHF 规模化瓶颈:DeepMind 用信息导向探索把数据效率提到 10 倍
Google DeepMind 团队在 Gemma 9B 上用在线 RLHF 加信息导向探索,把不到2万条偏好标注做到离线 RLHF 约20万条才能达到的约55%胜率。文中给出四种算法链路:离线、周期性、在线、信息导向探索;在线阶段每批64个提示、每个提示采样16个回复,ENN 头部参数增量不到总参数5%。真正值得盯的是方法论,不是“RLHF失效”;正文也承认实验基于 Gemini 1.5 Pro 模拟反馈,且1000倍增益只是不超过100万条标注区间的外推。
#Alignment#Fine-tuning#Reasoning#Google DeepMind
精选理由
HKR 三项都过线:10 倍数据效率这个角度有吸引力,正文也给出 Gemma 9B、64×16 在线采样、ENN 头部占比等可核对细节。分数压在 77,因为来源是二手视频解读,反馈由 Gemini 1.5 Pro 模拟,1000 倍增益只是在不超过 100 万标注区间外推。
编辑点评
DeepMind 在 Gemma 9B 上把 2 万条偏好做出 20 万条离线 RLHF 的效果,这条不在宣告 RLHF 过时,而是在提醒大家:你们收集了太多低信息密度的人类反馈。
深度解读
DeepMind 这篇工作把 Gemma 9B 的偏好样本需求从约 20 万条压到 2 万条以内。我的判断很直接:这不是 RLHF 范式翻盘,而是行业终于开始认真处理 off-policy 和查询选择两个老问题,之前很多团队把“多标一点”当成方法,本来就很粗。
文里四条链路其实很清楚。离线 RLHF 先收数据,再训奖励模型,再做策略优化。周期性 RLHF 把这个流程切成多个周期。在线 RLHF 则每批就更新一次奖励模型和策略。信息导向探索再往前走一步,用 ENN 估不确定性,专挑分歧最大的回复对去问反馈。这里最有价值的,不是“10 倍”这个口号,而是批次机制写得足够具体:每批 64 个提示,每个提示采 16 个回复,ENN 头部参数增量不到总参数 5%。这说明它至少不是一句空话,别人有机会复现。
我一直觉得,RLHF 在 2024 到 2025 年被讲得有点歪。很多人把性能不涨,直接归因到“偏好学习碰天花板”。我不太买账。更常见的问题是,数据分布过旧,奖励模型跟着旧策略跑,收上来的比较对又太容易,标注员只是给模型已经会答的问题盖章。OpenAI、Anthropic、DeepMind 这两年都在往在线化、难例挖掘、合成反馈这几条路上靠,只是公开细节多少不同。拿这篇看,DeepMind 等于把那个常识正式量化了:不是每一条 preference label 都同价,有些标签几乎没信息量。
我对“1000 倍增益”的说法还是有警觉。正文自己也承认,那是往 100 万条标注区间的外推,不是实测。外推成立有两个前提:一是曲线斜率在更大数据区间不变,二是奖励模型误差不会在高质量难例上累积失真。这两个前提都不轻。Nvidia、Google、很多实验室都爱在 log 坐标上讲漂亮故事,真到分布换档时,曲线经常拐。这里至少比标题党诚实一点,明确说了只是 extrapolation。
另一个我会压着看的点,是反馈来源。文章说实验基于 Gemini 1.5 Pro 模拟反馈,不是大规模真人标注。这个差别很大。模拟器的优点是便宜、稳定、可重复,适合做算法对比。问题也一样明显:如果评判器和被训练系统共享一部分风格偏好,或者更偏向“像 Gemini 觉得好的答案”,那 55% 胜率到底代表什么,要打个问号。去年不少 reward hacking 讨论都说明了,同源 judge 会把优化目标收窄,线上体验未必同步变好。我还没看到这篇在跨评审器、跨真实标注员上的完整结果,正文这里没有给足。
肯定性微调那段我反而觉得很实用。它做的事情不神秘,就是在接近中性的偏好信号里塞一个小正偏置,避免在线训练一路把策略往负反馈里压,最后 tanking。很多在线 RLHF 系统不稳定,不是因为理论不成立,而是训练信号太刻薄,模型只要连续几轮抽到差回复,就会迅速自我削弱。这个修补很像工程上常见的“先别让系统崩”,不优雅吗?我看未必。能用很低成本稳住训练,就是好招。RLHF 过去一年最大的问题之一,本来就不是没人懂目标,而是太多方法一离开论文曲线就塌。
ENN 这块也有意思。它没有去重训一个巨大集成,而是在奖励头上加 100 个先验网络和 100 个差分网络,骨干冻结,增量参数不到 5%。这个设计像是在算一笔很现实的账:不确定性估计必须便宜,不然在线查询省下的人类反馈,会被算力开销重新吃掉。这里我能想到的外部参照,是很多团队在 active learning 上早就知道“挑最难样本”有效,但在 LLM 对齐里一直没形成标准做法,因为 reward model uncertainty 很难稳定估。DeepMind 这次至少给出了一条可操作路径。
我还是要泼一点冷水。Gemma 9B 是 9B,不是前沿闭源大模型。小模型上的数据效率改善,能不能线性迁到 Gemini 级别,我不确定。模型越大,生成空间越宽,策略更新带来的分布漂移也越复杂,16 个候选回复够不够覆盖有信息量的比较对,未必。还有一点,文里把“只查 2 个回复对,其余信号交给奖励模型”说得很顺,但这也等于更依赖奖励模型校准;一旦校准飘了,系统会高效地放大错误。
我对这条的总体看法是:它给 RLHF 补的是采样层和训练层的工程常识,不是发明了新对齐宇宙。行业过去几年把太多资源砸在“多建偏好数据集”,少了对“该问哪一道题、何时更新策略、怎样估不确定性”的认真设计。DeepMind 这篇把这三件事并到了一起,难得的是细节不虚。标题里那种“突破规模化瓶颈”我觉得有点过,至少还没到。把真人反馈、跨评审器泛化、超大模型复现三关都过了,这个说法才站得住。现在我更愿意把它看成一篇把在线 RLHF 拉回主舞台的硬论文。
HKR 分解
hook ✓knowledge ✓resonance ✓
83
SCORE
H1·K1·R1