19:44
15d ago
FEATUREDarXiv · cs.CL· atomEN19:44 · 04·11
通过难度感知路由与不确定性引导聚合的自适应多专家推理
论文提出 AMR 框架,在 GSM8K 上以仅用原始训练数据取得 75.28% 准确率。方法先按题目文本预测难度与不确定性,再调节采样宽度,交给 3 个专家生成、纠错并定稿,最后由神经验证器与聚类聚合选答案。真正值得盯的是,它主打 7B 级别且不靠合成数据。
#Reasoning#Benchmarking#Research release#Benchmark
精选理由
这篇 arXiv 论文有明确新信息:GSM8K 75.28%、3 专家链路、按难度和不确定性调采样。HKR-K 与 HKR-R 成立,但标题和叙事偏论文体,缺少更强话题钩子,且只有基准结果、没有真实应用或多源跟进,所以给 70,放 all。
编辑点评
AMR 在 GSM8K 做到 75.28%,但这更像推理时编排胜利,不是 7B 基座能力跃迁。
深度解读
AMR 把 GSM8K 准确率推到 75.28%。我第一反应不是“7B 数学又突破了”,而是这篇论文把 test-time compute 和答案选择流程包得很紧,成绩里到底有多少来自基座模型,正文摘要还拆不开。它的核心动作很明确:先从题目文本预测难度与不确定性,再决定采样宽度,交给 3 个专家生成、纠错、定稿,最后用神经验证器加聚类做聚合。这个配方有效,我信;但它更像“把一次答题拆成小型推理系统”,不是单个 7B 模型自然长出的能力。
我对这条的兴趣点,其实在两处。第一处是它坚持不用合成数据。这个说法有分量,因为过去一年数学推理的很多增益,都来自蒸馏、self-play、rejection sampling、程序验证,最后很难分清是模型更会想,还是训练集更像考前押题。AMR 只用原始训练数据,至少把变量收窄了一点。第二处是它把“题目难度预测”放到前面。这个方向不新,早期 mixture-of-experts 和 adaptive computation 就在讲按输入分配算力,近一年 agentic inference 也一直在干同一件事:简单题少花 token,难题多跑几条链路。AMR 的价值在于,它把这件事塞进 7B 数学推理的一个可复现实验框架里。
但我对论文叙事还是有几个保留。摘要没有披露基座模型是谁,也没给每题平均采样数、总 token 开销、验证器训练方式、聚类规则细节。少了这些,75.28% 这组数没法和别家的“单样本准确率”直接比。很多论文都会把 pass@k 风格的收益,揉进一个看起来像单模型准确率的数字里。这里虽然没明说 pass@k,但“调节采样宽度 + 三专家 + 验证器聚合”本身就说明,它不是一次前向。工程上这没问题,学术上也合理;问题在于,如果成本涨了 5 倍到 20 倍,结论就该改写成“用更多推理预算买到更稳的数学表现”,不是“7B 在原始数据上逼近更强系统”。摘要现在没给成本,我没法替它下更满的判断。
外部参照也得摆出来。GSM8K 这条赛道已经被反复刷榜,单看一个 75.28% 其实不够刺激。过去一年,很多 7B 级模型配合 chain-of-thought、best-of-n、verifier reranking,都能吃到一截提升;有些开源数学专训 7B 甚至更高。我记得 Qwen 系、DeepSeek 系、NuminaMath 一类方案在数学 benchmark 上都打过很凶的组合拳,但我没核实它们在“只用原始训练数据”这个限制下的精确对位成绩。所以 AMR 的卖点不该被写成“绝对分数多高”,而该写成“在不用 synthetic data 的前提下,编排层还能榨出多少收益”。这点我比较买账。
还有个更现实的问题:GSM8K 已经太熟了。难度预测器如果只看题面文本,很容易学到数据集分布习惯,而不是更一般化的“问题难度”。一旦换到 MATH、SVAMP、AIME 风格题,或者跨语言数学题,这套路由器还能不能准,摘要没说。验证器也一样,神经验证器在封闭 benchmark 上常常很好看,出分布后会把“形式一致”误当“答案正确”。我自己对 verifier-heavy 的方案一直有点警觉,因为它很容易变成 benchmark 内循环:生成器学会产出 verifier 喜欢的痕迹,系统整体分数升了,泛化却没同步上去。
说真的,这篇论文给我的信号,不是“7B 训练路线变了”,而是“小模型推理系统化”还没到头。业界过去一年把太多注意力放在更大参数和更长上下文,结果一个老问题反复出现:模型会一点,但不稳定。AMR 这类方法承认了不稳定,然后用路由、重采样、纠错、验证、聚合去补。这条路很像把单次生成改造成一条微型搜索管线。只要延迟和 token 成本还能接受,它在教育、客服、代码修复这类可并行验证任务里都有现实空间。
我不太买“无合成数据也能赢多数 7B”这种标题式兴奋。多数是谁,口径是什么,摘要都没列。现在更稳的说法只有一个:AMR 在 GSM8K 上报告了 75.28%,并且把收益主要押在 difficulty-aware routing 和 uncertainty-guided aggregation。这个结果说明,7B 的上限还没被榨干;也说明很多所谓“模型推理进步”,其实是系统设计进步。两者都重要,但别混着算。
HKR 分解
hook —knowledge ✓resonance ✓
76
SCORE
H0·K1·R1