论文 · 2026-04-20

▸ 259 篇 · updated 3m ago

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 274282930

2026-04-20 · 星期一2026年4月20日

17:59

7d ago

● P1arXiv · cs.AI· atomEN17:59 · 04·20

MathNet发布数学推理与检索多模态基准，包含47个国家奥赛题库

MathNet 发布了一个覆盖 47 个国家、17 种语言、20 年竞赛的数学基准，含 30,676 道专家编写的奥赛题及解答。它支持解题、数学感知检索、检索增强解题 3 个任务；实验中 Gemini-3.1-Pro 得分 78.4%，GPT-5 得分 69.3%，DeepSeek-V3.2-Speciale 在 RAG 设定下最高可提升 12%。真正值得盯的是检索短板：论文称嵌入模型在等价题检索上仍吃力，说明数学 RAG 的瓶颈先在召回而不在生成。

#Reasoning#Embedding#Benchmarking#MIT

精选理由

HKR-K 很强：摘要给出 30,676 道题、17 种语言、3 个任务，以及 Gemini-3.1-Pro 78.4%、GPT-5 69.3%、RAG 最高 +12% 的结果。HKR-H 一般，因为标题偏学术；HKR-R 成立，因为“数学 RAG 先卡召回”会让做评测、检索和推理的人继续讨论，所以给 featured。

编辑点评

MathNet把奥赛数学基准做到了47国、17种语言、30676题；这条我买账一半，另一半得看污染控制和检索标注到底有多硬。

深度解读

MathNet发布了47个国家、17种语言、30676道题的多模态数学基准。我的判断先放前面：这不是又一个“刷分题库”，它把数学评测从答案生成，硬拽到了检索质量和跨语言覆盖上；但三家来源标题完全一致，信息基本都贴着论文摘要走，这说明覆盖面本身不是独立验证，只是同一学术源在不同索引站同步扩散。三家来源的角度几乎没差别。arXiv 两个分类页和 Hugging Face 的论文页，都在重复同一组核心叙事：47 国、17 语、20 年、30676 题，外加三个任务——解题、数学检索、检索增强解题。这里没有媒体自己的切口，也没有额外采访。说得直白一点，这不是“多家都确认了”，而是“多处都转述了作者自己的 framing”。所以文中那组成绩，Gemini-3.1-Pro 78.4%、GPT-5 69.3%、DeepSeek-V3.2-Speciale 在 RAG 下最高增益 12%，现阶段只能当论文声称。我还没核对原始评测脚本、判分规则、温度设定，也没看到这些二手页面补充更细节的 ablation。我觉得这套基准有价值，主要是因为它补了过去一年数学评测里最空的一块：检索。过去大家测 MATH、AIME、OlympiadBench、MathVista，焦点都放在“模型自己算没算出来”。现实里的数学系统却越来越像两段式流水线：先找相似题、定理、构型，再把检索结果塞进推理链。MathNet把“是否找对题”单独拎出来，这个机制是对的。摘要已经给了一个很扎眼的结论：RAG 表现高度依赖检索质量，检索差一点，生成端再强也接不住。这个判断我很认同，因为数学检索跟通用 embedding 检索不是一回事。语义相近没用，题型同构、约束等价、图形关系对应，这些才决定检索值不值钱。很多 embedding 模型在通用 MTEB 上分数漂亮，到了数学等价检索会直接塌。第二个有用点，是它没有只盯英语。17 种语言、47 个国家、跨 20 年奥赛题，这个覆盖面如果清洗做得干净，会比单语 benchmark 更接近真实分布。过去一年不少模型在英文竞赛题上抬得很高，一到低资源语言，或者题干混着本地记法、扫描图、手写图，稳定性就掉得很难看。MathNet把多模态和多语种放在一起，至少给了一个更接近部署现场的压力测试。尤其是几何题、带图题、排版复杂的组合题，这类样本比纯文本代数题更能拉开差距。但我对这条也有两个保留。第一个是污染风险。30,676 题是大体量，还是二十年奥赛真题，这类内容很多早就散落在论坛、教辅、解题站、PDF 合集里。论文说“高质量”“专家编写解答”，这很好，但摘要没披露去重策略、网页泄漏排查、训练集重合检测到底做到什么粒度。你只要拿“公开多年”的奥赛题做评测，就很难完全避开模型见过原题或近似题。这个问题不解决，78.4% 和 69.3% 的差距能说明多少“推理能力”，我会打问号。第二个是检索标注成本和主观性。论文说他们做人类专家整理的“数学等价”和“结构相似”题对，这一步如果做扎实，含金量很高；如果标准松一点，benchmark 会很快滑向“像不像”的语义检索。数学里等价不等于表面改写，结构相似也不等于共享几个关键词。题目变换、坐标化、辅助线引入、结论倒置，这些都会让标注边界变得很细。我没看到这几篇二手页面给出标注一致性、双盲校验比例、负样本构造方法。标题已经给出“首个数学检索基准”，正文摘要也给了性能结论，但决定这事能不能站住的，恰好是这些没被转述出来的细节。还有一个细节挺关键：摘要里说 DeepSeek-V3.2-Speciale 通过 RAG 获得最高分，提升最多 12%。这说明现在数学系统的瓶颈未必只在 base model。检索器、reranker、上下文拼接、去噪策略，可能比再堆一点 test-time compute 更划算。我一直觉得，数学 agent 这条线会越来越像代码 agent：不是单模型单次作答，而是“检索器 + 推理器 + 校验器”的组合工程。MathNet如果被社区接住，最先受益的不是纯聊天模型榜单，而是做 embedding、reranking、tool-use 的团队。所以我对这条的结论是：方向对，数字先别急着信满分。三家来源的高度一致，更像论文摘要在扩散，不像外部验证已经完成。数据集一旦公开，下一步就看两件事：一是别人能不能复现那组 78.4%、69.3% 和 12% 的结果；二是公开几个月后，这套题会不会迅速变成训练语料，最后把 benchmark 自己做旧。数学评测这两年最难的，从来不是“再找一堆难题”，而是做出一个在泄漏时代还能活久一点的基准。

HKR 分解

hook ✓knowledge ✓resonance ✓

论文 · 2026-04-20

更多

频道

后台