论文 · 2026-04-27

▸ 4 篇 · updated 3m ago

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 274282930

2026-04-27 · 星期一2026年4月27日

04:00

14h ago

新FEATUREDarXiv · cs.LG· atomEN04:00 · 04·27

Bolzano：LLM 辅助数学研究的案例研究

Bolzano 在 8 个数学与理论计算机问题上产出新结果。系统用并行证明代理、验证代理和跨轮知识库协作；按 Feng 等人的分类，6 项达到可发表研究，5 项基本自主完成。

#Agent#Reasoning#Tools#Bolzano

精选理由

单篇 arXiv 论文，尚无外部复核，不能进 85+。8 个案例、5 项基本自主和验证代理机制给出可检验信息，且直接触到科研代理化这个从业者话题。

编辑点评

Bolzano 最刺眼的不是“会做数学”，而是 5/8 基本自主；数学研究的安全区开始被 agent 工作流啃开了。

深度解读

Bolzano 在 8 个数学和理论计算机问题上产出新结果，其中 6 个达到可发表研究级别，5 个基本自主完成。我对这篇的判断很直接：它不是又一篇“LLM 能不能证明奥数题”的热闹，而是把数学研究从单轮答案生成，推进到可复用的 agentic research loop。并行 prover、verifier agent、跨轮持久知识库，这三件事组合起来，比单个模型在某个 benchmark 上多拿 3 分更有杀伤力。这条消息放在 2026 年看，位置很微妙。2023 年大家还在拿 GPT-4 做 IMO shortlist、Lean 形式化题和 miniF2F，主要问题是模型会不会胡编证明。2024 年到 2025 年，DeepMind 的 AlphaGeometry、AlphaProof 路线把“符号系统 + 神经搜索”推得更硬。OpenAI、Anthropic、DeepSeek、Qwen 这些通用模型也在 AIME、MATH、SWE-bench 上持续卷推理。但那些成绩大多还是 benchmark 语境：题目固定、答案已知、评分器清楚。Bolzano 这篇的说法更危险一点：8 个问题里有新结果，6 个够发表，5 个基本自主。研究语境里，评分器没有提前写好，验收靠同行读证明。我比较在意它的系统形态。并行 prover agent 负责探索多个证明路线，verifier agent 负责筛掉错误，persistent knowledge base 把中间发现带到下一轮。这套设计和过去一年 coding agent 的有效形态很像：不是让一个模型憋出最终答案，而是让多个尝试在状态空间里碰撞，再用验证层收缩搜索。Devin、OpenAI Codex 类产品、Claude Code 这条线都已经证明，长任务能力不是靠“更会说”长出来的，而是靠任务拆分、状态记忆、工具调用和回归检查堆出来的。Bolzano 把同样工程范式搬到数学研究，难点从 CI 测试变成证明审核。但我不会直接买下“LLM 已经会做数学研究”这个标题感。正文摘要没有披露 8 个问题的完整难度分布，也没有给出每个结果的人类介入分钟数、失败轮数、模型调用成本、使用的底座模型、温度设置、检索语料边界。它引用 Feng 等人的 significance-autonomy taxonomy，说 6 项可发表、5 项基本自主；这个分类很有用，但它不是同行评审本身。数学里“可发表”的跨度太大，从一个组合计数小引理到一个领域核心猜想都能进论文。没有 problem list 和审稿状态，我会把它看成强信号，不会把它看成定案。这里有个老问题：验证比发现便宜多少。Lean、Coq、Isabelle 这类形式化系统给的是机器可检验路径，但很多数学研究论文仍是自然语言证明。Bolzano 有 verifier agent，不等于有 formal verifier。摘要没有说 8 个结果是否全部形式化，正文片段也没披露验证机制的精确边界。如果 verifier 只是另一个 LLM，那它会降低低级错误率，却不能消除同源幻觉。要是它接了 Lean 或专门的 SAT/SMT/计算验证工具，可信度会明显上一个台阶。这里正文未披露，我不替它补。外部参照上，我会把它和 Bubeck、Woodruff 那批“AI for math research”报告放一起看。Bubeck 早期材料强调模型的 emergent reasoning，Woodruff 一类工作更贴近理论计算机科学里的辅助发现。Bolzano 的新意在工作流，不在一句“模型变聪明了”。这很像 AlphaGeometry 当时的关键点：不是 Gemini 单独解几何，而是语言模型提供构造，符号引擎负责闭环。数学研究最怕漂亮但漏洞的叙述，agent 系统要活下来，必须把“发现”和“验算”拆成不同角色。我自己的疑虑还有一个：8 个 case study 容易产生选择偏差。一个开放系统如果跑了 80 个问题，最后写出 8 个成功案例，和一开始挑 8 个问题都成功，含金量差很多。摘要没有披露总尝试池、失败案例、放弃标准和负结果比例。对研究型 agent 来说，失败分布比成功故事更能说明问题。因为数学家真正关心的是：我给它一个陌生 lemma，它平均烧多少 token、多少轮、多少人工提示，能把失败变成有用 conjecture 吗？这部分现在看不到。即便这样，Bolzano 仍然值得认真对待。原因不是“5/8 自主”这个数字单独很大，而是它贴上了一个可复现实验框架：开源、多 agent、持久知识库、分类标注、33 页论文、项目页公开。如果代码、prompt、问题集和验证记录足够透明，同行可以复跑，也可以专门攻击它的 autonomy claim。数学研究的 AI 化不会先从 Fields Medal 级问题开始，它会先吃掉组合数学、离散优化、理论 CS 里那些局部 lemma、构造例、反例搜索、边界改进。Bolzano 正好打在这个缝上。我会把这篇放进“研究 agent 从演示走向产出”的文件夹。它离替代数学家还远，离成为数学组里的低成本合作者已经不远。标题已给出 6/8 可发表和 5/8 基本自主，正文摘要没有披露底座模型、成本和形式化验证比例；这三个洞不补上，任何兴奋都要打折。但如果完整 PDF 里的 8 个结果经得住领域专家复核，这篇会比许多刷推理榜的模型发布更有历史感。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

14h ago

新arXiv · cs.LG· atomEN04:00 · 04·27

Math Takes Two：通信中涌现数学推理的测试

Michael Cooper 与 Samuel Cooper 提出 Math Takes Two，用两代理通信任务测试数学推理涌现。任务要求无预设数学语言的代理，在视觉场景中自建共享符号协议并外推；论文已被 ICLR 2026 HCAIR workshop 接收。

#Agent#Reasoning#Vision#Michael Cooper

精选理由

HKR-H 与 HKR-K 成立：题目有两代理通信的钩子，也给出新评测机制。HKR-R 偏弱，且只是 arXiv/ICLR workshop 论文，未披露模型结果或产业用例，落在有趣但不精选。

编辑点评

这篇像是在给“会做题”拆台：两代理自造符号，逼模型暴露数学概念是不是只贴着人类语法走。

深度解读

Michael Cooper 和 Samuel Cooper 提出 Math Takes Two，用两代理通信测试无预设数学语言的视觉外推。我的判断先放前面：这类 benchmark 不会马上改排行榜，但它戳中了当前数学评测最烦人的漏洞——我们一直在测模型是否熟悉人类题面、LaTeX 习惯、竞赛套路，却很少测它能不能在没有现成符号的环境里自己压出一个可迁移协议。正文披露的信息其实有限。标题给出“emergent mathematical reasoning in communication”，摘要说两个代理没有 prior mathematical knowledge，要在 visually grounded task 里形成 shared symbolic protocol。任务里的数字系统能帮助 extrapolation。论文已被 ICLR 2026 HCAIR workshop 接收。正文未披露 baseline 模型、成功率、通信带宽、视觉场景分布、训练预算、是否允许自然语言预训练模型直接参与。对从业者来说，这些缺口很关键。没有这些条件，Math Takes Two 现在更像评测思想，而不是能直接拿来压 GPT-5、Claude Sonnet 4.5、Gemini、Qwen 的硬榜。但这个方向我买一半。过去一年数学能力的叙事太依赖现成符号系统。MATH、GSM8K、AIME、OlympiadBench、MiniF2F、Lean 形式化证明，各自有价值，但它们大多默认了人类已经把世界编码成题面。模型需要做的是读懂约定，再沿着约定推。哪怕是 Lean 证明，难点也经常混在库检索、tactic 选择、形式语言熟悉度里。Math Takes Two 故意拿掉数学语言，要求两个代理从视觉结构里形成共享符号，这会把“会背题型”和“会抽象变量”拆开一点。我想到的近邻不是 AIME，而是 emergent communication 那条老线。2017 年左右 Lazaridou、Foerster、Mordatch 那批工作就做过多智能体通信。后来大家发现一个麻烦：代理会学出人类看不懂的协议，也会钻 reward 漏洞。协议看上去像语言，其实只是训练分布上的短码。Math Takes Two 如果想站住，必须给出更强的泛化切分。比如训练只出现 1 到 5 个对象，测试要求外推到 20；训练只出现某类视觉排列，测试换拓扑；通信 token 数受限；两个代理不能共享 encoder；协议要能迁移到新 partner。摘要只说“extrapolation”，但正文片段没有给这些设定。这里有个比较骚的点：数学在人类那里确实是通信技术，也确实是认知技术。数词、记号、证明格式，都服务于把不可见关系交给另一个人复核。这个假设比“模型在 MATH 上 95% 所以会数学”更像回事。可我也不想把它吹过头。两个代理自建协议，不等于涌现数学。它也可能只是学了一个离散码本：红色三角形数量映射到 token 7，蓝色方块数量映射到 token 11，再由 receiver 查表。只要视觉空间和目标函数不够宽，所谓 numerical system 就会退化成任务专用压缩。从工程角度看，我会关心三件正文未披露的事。第一，代理是否从大模型初始化。如果是 GPT 系列或 Claude 系列参与，那“无预设数学语言”很难成立，因为预训练已经塞进了大量数词、符号、图表解释。第二，通信通道是不是可解释。如果通道是连续向量，数学协议的说法要非常小心；如果是离散 token，还要看 token vocabulary 有没有语义泄漏。第三，评测是不是有 compositional holdout。没有组合外推，benchmark 很容易被 pattern matching 重新吃掉。我对 workshop 论文的期待会低一点。HCAIR workshop 接收说明方向有讨论价值，不说明评测已经成熟。过去两年 AI benchmark 太多，很多卡在“概念漂亮，leaderboard 不耐用”。ARC-AGI 至少有清晰的人类先验控制和公开任务集，SWE-bench 至少能落到 GitHub issue 和 unit test。Math Takes Two 要进入日常能力雷达，需要给出可复现实验包、固定视觉生成器、固定通信限制、公开 seed、强 baseline，以及人类/随机/LLM/强化学习代理的分层结果。摘要没有这些。所以我会把它放在“值得读 PDF，但别急着引用分数”的位置。它最有用的地方，是提醒我们别把数学能力完全交给符号题库评测。模型在 AIME 上答对，可能只是把语言、检索、模板、计算器式推理揉在一起。让两个代理在没有现成数学语言的视觉世界里协作，至少能逼出另一种失败模式。只要作者把泛化切得够狠，这个 benchmark 会让一些“数学强模型”的叙事难看；如果切得不狠，它就会变成又一个 emergent communication 玩具环境。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

04:00

14h ago

新arXiv · cs.LG· atomEN04:00 · 04·27

Contrastive Semantic Projection：用对比样本做可信神经元标注

Oussama Bouanani 等5名作者提交 CSP，用对比样本改进神经元文本标注。方法分两步：VLM 生成候选标签，CLIP 类编码器打分选择；实验含黑色素瘤检测案例。正文未披露具体数据集数量和开源代码。

#Vision#Multimodal#Interpretability#Oussama Bouanani

精选理由

HKR-K 命中：CSP 给出 VLM 产标签、CLIP 类编码器打分的两步方案。HKR-H 偏弱，正文未披露数据集数量、开源代码或显著指标，只能放在 60–71 档。

编辑点评

CSP抓住了神经元标注的老毛病：只看高激活样本，解释很容易被背景骗。

深度解读

CSP 用对比样本给神经元生成标签，流程含 VLM 候选与 CLIP 打分。我的判断很直接：这篇不是在炫一个新解释框架，而是在修一个老问题。只拿最高激活图像让模型起名，听起来直观，实际很脏。一个神经元对“黑色圆斑”高激活，样本里又常有皮肤纹理、相机光照、标尺边缘，VLM 很容易把共现物当成语义。CSP 把低激活但语义接近的图像放进来，逼标签解释“为什么这张有、那张没有”。这个约束朴素，但对 neuron labeling 很管用。正文披露了两个阶段。第一步用 VLM 生成候选标签。第二步用 CLIP 类编码器做评分选择。它还说 CSP 扩展了 SemanticLens，把对比样本放进 CLIP 打分管线。这个设计我比较买账，因为它没有指望 VLM 一次性说真话。VLM 负责提出文本假设，CLIP 负责把假设投回视觉空间。对比样本在这里像一个负例锚点，能压掉“看起来相关但不区分激活”的标签。文章声称实验覆盖 extensive experiments，并含黑色素瘤检测案例。摘要没有给数据集数量、模型规模、指标表、代码地址。这个缺口很大，尤其是 interpretability 论文。没有复现实验设置，faithfulness 很容易变成作者定义的分数。这里的外部参照很清楚。OpenAI Microscope 那一代可视化工作，主要靠 activation maximization 和 top activating examples。后来 Network Dissection 把单元对齐到 Broden 这类概念库，优点是可量化，缺点是词表太硬。CLIP-Dissect 之后，大家开始用 CLIP 文本空间给神经元贴自然语言标签，覆盖面大了，幻觉也跟着进来。FALCON 已经把 contrastive examples 用在解释里，但摘要说它偏 subspace-level。CSP 把这个思想推回单神经元层级，工程味更重，也更接近调试需求。做模型诊断的人不需要一句漂亮解释，需要知道这个单元到底抓病灶边缘、色素网络，还是抓拍摄伪影。黑色素瘤案例是这篇最该被认真看的部分。医学图像里的捷径学习不是理论风险。皮肤镜数据里常见毛发、标尺、黑框、医院设备差异，模型会把这些当成诊断线索。若 CSP 能把某个神经元标成“标尺边缘”而不是“病灶不规则边界”，那价值很硬。可摘要没有说使用哪个 melanoma 数据集，也没说是否跨医院验证。ISIC 系列数据集多年被拿来做皮肤病变分类，但数据清洗、重复患者、设备偏差一直麻烦。我没查到这篇 PDF 的表格细节，单看 arXiv 页面，不能确认它有没有挡住这些坑。我对这篇的疑虑也在这里。对比样本不是免费午餐。你说“语义相似但低激活”，这个集合怎么构造？若靠最近邻，CLIP 嵌入会带入自己的偏差。若靠人工挑选，规模化会断。若靠 VLM 生成描述再筛图，标签生成和标签评估就会共享同一套语义偏见。文章摘要没有披露采样规则，也没有给失败案例。对 neuron labeling 来说，失败案例比平均分更有信息。一个方法在狗、车、纹理上变细腻，不代表它在医学伪影上可靠。还有一个更现实的问题：CLIP 类编码器本身不是中立裁判。CLIP 对自然图像和互联网文本很强，对病理、皮肤镜、卫星图、工业缺陷这些 domain shift 场景会掉。CSP 如果用通用 CLIP 去评价 melanoma 标签，它可能把视觉相似性和医学语义混在一起。更稳的做法应该报告两套结果：通用 CLIP 与领域编码器。摘要没披露这点。若论文只在通用 CLIP 上跑，那医学案例的说服力要打折。我还是喜欢这个方向。原因不是它看起来新，而是它把解释任务从“描述激活样本”改成了“区分激活条件”。这更贴近因果诊断。解释神经元时，负例常常比正例更值钱。只要 CSP 开源代码，并给出对比样本选择策略、人工评估协议、跨模型结果，它就能成为很多 interpretability pipeline 的小模块。若没有这些，它会停在一篇好摘要上。对从业者而言，先别把它当可靠审计工具；更适合拿来做模型调试时的候选标签过滤器。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

04:00

14h ago

新arXiv · cs.LG· atomEN04:00 · 04·27

多智能体人类轨迹预测最新进展综述

arXiv 收录一篇 40 页综述，覆盖 2020—2025 年多智能体人类轨迹预测研究。论文按架构设计、输入表示和预测策略分类，重点梳理 ETH/UCY benchmark 上评测的模型。对机器人导航、自动驾驶和人群建模从业者，真正值得盯的是交互建模与评测协议差异。

#Agent#Robotics#Benchmarking#Céline Finet

精选理由

HKR-K 成立：这是一篇可作入口的轨迹预测综述，给出时间范围、分类轴和 ETH/UCY 评测线索。HKR-H/R 偏弱，题目常规且受众较窄，放在 60–71 的 interesting 档。

编辑点评

40 页综述把 2020—2025 HTP 拉齐；别把 ETH/UCY 排名当部署答案，机器人会在长尾交互里翻车。

深度解读

Finet 等人把 2020—2025 年多智能体人类轨迹预测写成 40 页综述。我的判断很简单：这类综述对做机器人导航的人有用，但它更像一张坑位图，不像一张路线图。HTP 这几年论文很多，模型名也很热闹，图神经网络、Transformer、扩散模型、社会交互建模都轮过一遍。可一落到 ETH/UCY，问题就老了：小数据集、固定评测协议、短时预测窗口、离线指标好看，部署环境未必买账。正文披露的信息有限。arXiv 页面只给了题目、作者、40 页长度、2020—2025 覆盖范围，以及按架构设计、输入表示、预测策略分类。它强调 ETH/UCY benchmark，但没有在页面里列 ADE、FDE、NLL、碰撞率、miss rate 等具体表格。标题已给出“comprehensive review”，正文未披露每类模型的胜负细节。这个信息缺口很关键，因为 HTP 的争议从来不只是模型结构，而是评测口径。我一直觉得 ETH/UCY 在这个领域有点像早年的 GLUE。它能让大家有共同语言，也会把研究者带向局部最优。ETH/UCY 常用 8 帧观测、12 帧预测，很多论文按 2.5 秒输入、4.8 秒输出设定跑 ADE/FDE。这个协议适合比较论文，不适合回答机器人怎么穿过拥挤大厅。真实机器人要关心反应时间、传感器遮挡、社会规范、agent 互相让行、规划器重新采样频率。ADE 低 5 厘米，碰撞率高 2 个点，现场工程师会选后者更低的模型。外部看，自动驾驶轨迹预测已经比行人 HTP 更早吃过这个亏。Waymo Open Motion Dataset、Argoverse 2、nuScenes prediction 这些 benchmark 后来都把多模态、地图约束、交互场景做得更重。行业也从单一 minADE/minFDE 走向 miss rate、mAP-style ranking、scene-level consistency。行人 HTP 如果还主要围着 ETH/UCY 打榜，研究价值有，工程外推会很脆。尤其社交机器人和室内导航没有高精地图兜底，人的微小动作意图比车道拓扑更难建模。这篇综述把方法按架构、输入、策略拆开，我觉得方向是对的。架构维度能看出 GNN、RNN、Transformer、扩散模型各自怎么编码交互。输入表示能逼大家说清楚，到底用了历史轨迹、场景语义、相对距离、朝向、群体关系，还是只喂 xy 坐标。预测策略也很要命：单峰回归在真实交互里经常过度平均，多模态采样又容易生成“看起来合理但规划器不能用”的轨迹。扩散类方法在 2023 年后很吃香，但采样成本和可控性对机器人闭环不友好。正文页面没有说明它怎么评价这些 trade-off，我不会先给高分。我对“multi-agent interactions lies within hand’s reach”这种摘要口径有点警觉。交互不是把邻居轨迹塞进 attention 就完事。Social-LSTM 早在 2016 年就把 social pooling 讲清楚了，Social-GAN 也把多模态生成带进来。2020 之后的模型确实强了，尤其是图结构和 Transformer 的组合更会吃局部关系。但从论文指标到“理解人类互动”，中间差一个因果层和一个闭环层。一个模型预测某人左转，不等于它知道自己机器人减速后对方会改道。给从业者的读法是：把这篇当索引，不要当结论。先看它是否区分 deterministic 与 stochastic 方法，再看是否单独处理 interaction module。再查它有没有标注训练数据、观测长度、预测长度、best-of-K 采样次数。best-of-20 和 best-of-1 放在同一张表里，很多排名就没意思。正文页面没披露这些细节，所以我只能说它有潜在价值，不能说它已经解决可比性问题。有意思的地方在机器人导航。LLM agent 这两年把“agent”这个词喊得太满，但移动机器人里的 agent 约束更硬。一个轨迹预测模块延迟 100 毫秒，规划器就要改频率。一个预测分布没有校准，机器人就会在狭窄通道里显得冒失。多智能体 HTP 的下一步不是再堆一个 Transformer block，而是把预测不确定性接进 MPC、ORCA、采样式规划，最后用真实人群测试碰撞率和通行效率。论文综述能把 2020—2025 的方法排好队，已经够用；别期待它替你决定线上栈。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

论文 · 2026-04-27

更多

频道

后台