FEATURED机器之心 · 公众号· rssZH04:47 · 05·18
华为 GTS 在 ICML 2026 发了一篇用推理熵值动态挑训练样本的方法,Amazon 和 Google 的作者也跟进了类似思路
这篇论文提出了一种叫 EDCO 的动态课程微调方法,核心是用模型推理时的“熵值”来判断样本难度,自动挑出当前模型最该学的数据,而不是靠人手动分阶段。他们搞了个前缀熵值估算,把每一条样本的评分时间从 2.24 秒压到了 0.37 秒,省了不少算力。文章本身因为微信环境异常没抓到正文,具体实验数据、在什么任务上验证的、以及 Amazon/Google 团队...
#Fine-tuning#Reasoning#Inference-opt#Huawei
精选理由
我会先打个折:这还是个训练方法论文,不是模型或产品发布,所以分数没给更高。但它的钩子很足——华为提出 EDCO,用推理熵动态挑样本,Amazon 和 Google 的人光速跟进,说明这个方向在圈内被盯上了。核心卖点是前缀熵估计,把单样本耗时从 2.24 秒砍到 0.37 秒,省了八成多时间,对做微调的人来说是实打实的成本优化。正文没披露这个方法在大规模多任务上的泛化验证,这点先别太激动,但思路本身对数据筛选和训练成本敏感的场景很有启发。
一句话点评
华为这篇论文正文没抓到,只看到摘要。核心是用模型推理时的“熵值”自动挑训练样本,把评分时间从2.24秒压到0.37秒,省了算力。但具体在什么任务上验证、效果提升多少,全都没披露,这点先别太激动。
锐评
这篇论文提出了一种叫EDCO的动态课程微调方法,说白了就是让模型自己判断哪些训练数据当前最值得学,而不是靠人手动分阶段喂数据。它用模型推理时产生的“熵值”来衡量样本难度,熵值高说明模型拿不准,就该优先学。为了省算力,他们搞了个前缀熵值估算,把每条样本的评分时间从2.24秒压到了0.37秒,这个加速效果挺实在。
但问题在于,文章因为微信环境异常没抓到正文,所有实验数据、在什么任务上验证的、跟现有方法比到底好多少,全都没披露。标题里说Amazon和Google团队“光速跟进”,也没给出具体出处或论文链接,更像是一种宣传话术。
如果这个方法真能在多个任务上稳定提升,而且评分开销确实低,那对做微调的人来说是个实用工具。但现在缺的东西太多:没看到准确率对比、没看到在不同规模模型上的表现、也没说这套方法对数据质量本身有没有额外要求。等正文能读到再下判断。
HKR 分解
hook ✓knowledge ✓resonance ✓