17:59
7d ago
● P1arXiv · cs.AI· atomEN17:59 · 04·20
MathNet发布数学推理与检索多模态基准,包含47个国家奥赛题库
MathNet 发布了一个覆盖 47 个国家、17 种语言、20 年竞赛的数学基准,含 30,676 道专家编写的奥赛题及解答。它支持解题、数学感知检索、检索增强解题 3 个任务;实验中 Gemini-3.1-Pro 得分 78.4%,GPT-5 得分 69.3%,DeepSeek-V3.2-Speciale 在 RAG 设定下最高可提升 12%。真正值得盯的是检索短板:论文称嵌入模型在等价题检索上仍吃力,说明数学 RAG 的瓶颈先在召回而不在生成。
#Reasoning#Embedding#Benchmarking#MIT
精选理由
HKR-K 很强:摘要给出 30,676 道题、17 种语言、3 个任务,以及 Gemini-3.1-Pro 78.4%、GPT-5 69.3%、RAG 最高 +12% 的结果。HKR-H 一般,因为标题偏学术;HKR-R 成立,因为“数学 RAG 先卡召回”会让做评测、检索和推理的人继续讨论,所以给 featured。
编辑点评
MathNet把奥赛数学基准做到了47国、17种语言、30676题;这条我买账一半,另一半得看污染控制和检索标注到底有多硬。
深度解读
MathNet发布了47个国家、17种语言、30676道题的多模态数学基准。我的判断先放前面:这不是又一个“刷分题库”,它把数学评测从答案生成,硬拽到了检索质量和跨语言覆盖上;但三家来源标题完全一致,信息基本都贴着论文摘要走,这说明覆盖面本身不是独立验证,只是同一学术源在不同索引站同步扩散。
三家来源的角度几乎没差别。arXiv 两个分类页和 Hugging Face 的论文页,都在重复同一组核心叙事:47 国、17 语、20 年、30676 题,外加三个任务——解题、数学检索、检索增强解题。这里没有媒体自己的切口,也没有额外采访。说得直白一点,这不是“多家都确认了”,而是“多处都转述了作者自己的 framing”。所以文中那组成绩,Gemini-3.1-Pro 78.4%、GPT-5 69.3%、DeepSeek-V3.2-Speciale 在 RAG 下最高增益 12%,现阶段只能当论文声称。我还没核对原始评测脚本、判分规则、温度设定,也没看到这些二手页面补充更细节的 ablation。
我觉得这套基准有价值,主要是因为它补了过去一年数学评测里最空的一块:检索。过去大家测 MATH、AIME、OlympiadBench、MathVista,焦点都放在“模型自己算没算出来”。现实里的数学系统却越来越像两段式流水线:先找相似题、定理、构型,再把检索结果塞进推理链。MathNet把“是否找对题”单独拎出来,这个机制是对的。摘要已经给了一个很扎眼的结论:RAG 表现高度依赖检索质量,检索差一点,生成端再强也接不住。这个判断我很认同,因为数学检索跟通用 embedding 检索不是一回事。语义相近没用,题型同构、约束等价、图形关系对应,这些才决定检索值不值钱。很多 embedding 模型在通用 MTEB 上分数漂亮,到了数学等价检索会直接塌。
第二个有用点,是它没有只盯英语。17 种语言、47 个国家、跨 20 年奥赛题,这个覆盖面如果清洗做得干净,会比单语 benchmark 更接近真实分布。过去一年不少模型在英文竞赛题上抬得很高,一到低资源语言,或者题干混着本地记法、扫描图、手写图,稳定性就掉得很难看。MathNet把多模态和多语种放在一起,至少给了一个更接近部署现场的压力测试。尤其是几何题、带图题、排版复杂的组合题,这类样本比纯文本代数题更能拉开差距。
但我对这条也有两个保留。第一个是污染风险。30,676 题是大体量,还是二十年奥赛真题,这类内容很多早就散落在论坛、教辅、解题站、PDF 合集里。论文说“高质量”“专家编写解答”,这很好,但摘要没披露去重策略、网页泄漏排查、训练集重合检测到底做到什么粒度。你只要拿“公开多年”的奥赛题做评测,就很难完全避开模型见过原题或近似题。这个问题不解决,78.4% 和 69.3% 的差距能说明多少“推理能力”,我会打问号。
第二个是检索标注成本和主观性。论文说他们做人类专家整理的“数学等价”和“结构相似”题对,这一步如果做扎实,含金量很高;如果标准松一点,benchmark 会很快滑向“像不像”的语义检索。数学里等价不等于表面改写,结构相似也不等于共享几个关键词。题目变换、坐标化、辅助线引入、结论倒置,这些都会让标注边界变得很细。我没看到这几篇二手页面给出标注一致性、双盲校验比例、负样本构造方法。标题已经给出“首个数学检索基准”,正文摘要也给了性能结论,但决定这事能不能站住的,恰好是这些没被转述出来的细节。
还有一个细节挺关键:摘要里说 DeepSeek-V3.2-Speciale 通过 RAG 获得最高分,提升最多 12%。这说明现在数学系统的瓶颈未必只在 base model。检索器、reranker、上下文拼接、去噪策略,可能比再堆一点 test-time compute 更划算。我一直觉得,数学 agent 这条线会越来越像代码 agent:不是单模型单次作答,而是“检索器 + 推理器 + 校验器”的组合工程。MathNet如果被社区接住,最先受益的不是纯聊天模型榜单,而是做 embedding、reranking、tool-use 的团队。
所以我对这条的结论是:方向对,数字先别急着信满分。三家来源的高度一致,更像论文摘要在扩散,不像外部验证已经完成。数据集一旦公开,下一步就看两件事:一是别人能不能复现那组 78.4%、69.3% 和 12% 的结果;二是公开几个月后,这套题会不会迅速变成训练语料,最后把 benchmark 自己做旧。数学评测这两年最难的,从来不是“再找一堆难题”,而是做出一个在泄漏时代还能活久一点的基准。
HKR 分解
hook ✓knowledge ✓resonance ✓
92
SCORE
H1·K1·R1