ax@ax-radar:~/papers $ grep -E 'arxiv|paper' sources/tags
44 srcsignal 72%cycle 04:32

论文 · 2026-04-27

4 · updated 3m ago
2026-04-27 · 星期一2026年4月27日
04:00
14h ago
arXiv · cs.LG· atomEN04:00 · 04·27
Math Takes Two:通信中涌现数学推理的测试
Michael Cooper 与 Samuel Cooper 提出 Math Takes Two,用两代理通信任务测试数学推理涌现。任务要求无预设数学语言的代理,在视觉场景中自建共享符号协议并外推;论文已被 ICLR 2026 HCAIR workshop 接收。
#Agent#Reasoning#Vision#Michael Cooper
精选理由
HKR-H 与 HKR-K 成立:题目有两代理通信的钩子,也给出新评测机制。HKR-R 偏弱,且只是 arXiv/ICLR workshop 论文,未披露模型结果或产业用例,落在有趣但不精选。
编辑点评
这篇像是在给“会做题”拆台:两代理自造符号,逼模型暴露数学概念是不是只贴着人类语法走。
深度解读
Michael Cooper 和 Samuel Cooper 提出 Math Takes Two,用两代理通信测试无预设数学语言的视觉外推。我的判断先放前面:这类 benchmark 不会马上改排行榜,但它戳中了当前数学评测最烦人的漏洞——我们一直在测模型是否熟悉人类题面、LaTeX 习惯、竞赛套路,却很少测它能不能在没有现成符号的环境里自己压出一个可迁移协议。 正文披露的信息其实有限。标题给出“emergent mathematical reasoning in communication”,摘要说两个代理没有 prior mathematical knowledge,要在 visually grounded task 里形成 shared symbolic protocol。任务里的数字系统能帮助 extrapolation。论文已被 ICLR 2026 HCAIR workshop 接收。正文未披露 baseline 模型、成功率、通信带宽、视觉场景分布、训练预算、是否允许自然语言预训练模型直接参与。对从业者来说,这些缺口很关键。没有这些条件,Math Takes Two 现在更像评测思想,而不是能直接拿来压 GPT-5、Claude Sonnet 4.5、Gemini、Qwen 的硬榜。 但这个方向我买一半。过去一年数学能力的叙事太依赖现成符号系统。MATH、GSM8K、AIME、OlympiadBench、MiniF2F、Lean 形式化证明,各自有价值,但它们大多默认了人类已经把世界编码成题面。模型需要做的是读懂约定,再沿着约定推。哪怕是 Lean 证明,难点也经常混在库检索、tactic 选择、形式语言熟悉度里。Math Takes Two 故意拿掉数学语言,要求两个代理从视觉结构里形成共享符号,这会把“会背题型”和“会抽象变量”拆开一点。 我想到的近邻不是 AIME,而是 emergent communication 那条老线。2017 年左右 Lazaridou、Foerster、Mordatch 那批工作就做过多智能体通信。后来大家发现一个麻烦:代理会学出人类看不懂的协议,也会钻 reward 漏洞。协议看上去像语言,其实只是训练分布上的短码。Math Takes Two 如果想站住,必须给出更强的泛化切分。比如训练只出现 1 到 5 个对象,测试要求外推到 20;训练只出现某类视觉排列,测试换拓扑;通信 token 数受限;两个代理不能共享 encoder;协议要能迁移到新 partner。摘要只说“extrapolation”,但正文片段没有给这些设定。 这里有个比较骚的点:数学在人类那里确实是通信技术,也确实是认知技术。数词、记号、证明格式,都服务于把不可见关系交给另一个人复核。这个假设比“模型在 MATH 上 95% 所以会数学”更像回事。可我也不想把它吹过头。两个代理自建协议,不等于涌现数学。它也可能只是学了一个离散码本:红色三角形数量映射到 token 7,蓝色方块数量映射到 token 11,再由 receiver 查表。只要视觉空间和目标函数不够宽,所谓 numerical system 就会退化成任务专用压缩。 从工程角度看,我会关心三件正文未披露的事。第一,代理是否从大模型初始化。如果是 GPT 系列或 Claude 系列参与,那“无预设数学语言”很难成立,因为预训练已经塞进了大量数词、符号、图表解释。第二,通信通道是不是可解释。如果通道是连续向量,数学协议的说法要非常小心;如果是离散 token,还要看 token vocabulary 有没有语义泄漏。第三,评测是不是有 compositional holdout。没有组合外推,benchmark 很容易被 pattern matching 重新吃掉。 我对 workshop 论文的期待会低一点。HCAIR workshop 接收说明方向有讨论价值,不说明评测已经成熟。过去两年 AI benchmark 太多,很多卡在“概念漂亮,leaderboard 不耐用”。ARC-AGI 至少有清晰的人类先验控制和公开任务集,SWE-bench 至少能落到 GitHub issue 和 unit test。Math Takes Two 要进入日常能力雷达,需要给出可复现实验包、固定视觉生成器、固定通信限制、公开 seed、强 baseline,以及人类/随机/LLM/强化学习代理的分层结果。摘要没有这些。 所以我会把它放在“值得读 PDF,但别急着引用分数”的位置。它最有用的地方,是提醒我们别把数学能力完全交给符号题库评测。模型在 AIME 上答对,可能只是把语言、检索、模板、计算器式推理揉在一起。让两个代理在没有现成数学语言的视觉世界里协作,至少能逼出另一种失败模式。只要作者把泛化切得够狠,这个 benchmark 会让一些“数学强模型”的叙事难看;如果切得不狠,它就会变成又一个 emergent communication 玩具环境。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R0
04:00
14h ago
arXiv · cs.LG· atomEN04:00 · 04·27
Contrastive Semantic Projection:用对比样本做可信神经元标注
Oussama Bouanani 等5名作者提交 CSP,用对比样本改进神经元文本标注。方法分两步:VLM 生成候选标签,CLIP 类编码器打分选择;实验含黑色素瘤检测案例。正文未披露具体数据集数量和开源代码。
#Vision#Multimodal#Interpretability#Oussama Bouanani
精选理由
HKR-K 命中:CSP 给出 VLM 产标签、CLIP 类编码器打分的两步方案。HKR-H 偏弱,正文未披露数据集数量、开源代码或显著指标,只能放在 60–71 档。
编辑点评
CSP抓住了神经元标注的老毛病:只看高激活样本,解释很容易被背景骗。
深度解读
CSP 用对比样本给神经元生成标签,流程含 VLM 候选与 CLIP 打分。我的判断很直接:这篇不是在炫一个新解释框架,而是在修一个老问题。只拿最高激活图像让模型起名,听起来直观,实际很脏。一个神经元对“黑色圆斑”高激活,样本里又常有皮肤纹理、相机光照、标尺边缘,VLM 很容易把共现物当成语义。CSP 把低激活但语义接近的图像放进来,逼标签解释“为什么这张有、那张没有”。这个约束朴素,但对 neuron labeling 很管用。 正文披露了两个阶段。第一步用 VLM 生成候选标签。第二步用 CLIP 类编码器做评分选择。它还说 CSP 扩展了 SemanticLens,把对比样本放进 CLIP 打分管线。这个设计我比较买账,因为它没有指望 VLM 一次性说真话。VLM 负责提出文本假设,CLIP 负责把假设投回视觉空间。对比样本在这里像一个负例锚点,能压掉“看起来相关但不区分激活”的标签。文章声称实验覆盖 extensive experiments,并含黑色素瘤检测案例。摘要没有给数据集数量、模型规模、指标表、代码地址。这个缺口很大,尤其是 interpretability 论文。没有复现实验设置,faithfulness 很容易变成作者定义的分数。 这里的外部参照很清楚。OpenAI Microscope 那一代可视化工作,主要靠 activation maximization 和 top activating examples。后来 Network Dissection 把单元对齐到 Broden 这类概念库,优点是可量化,缺点是词表太硬。CLIP-Dissect 之后,大家开始用 CLIP 文本空间给神经元贴自然语言标签,覆盖面大了,幻觉也跟着进来。FALCON 已经把 contrastive examples 用在解释里,但摘要说它偏 subspace-level。CSP 把这个思想推回单神经元层级,工程味更重,也更接近调试需求。做模型诊断的人不需要一句漂亮解释,需要知道这个单元到底抓病灶边缘、色素网络,还是抓拍摄伪影。 黑色素瘤案例是这篇最该被认真看的部分。医学图像里的捷径学习不是理论风险。皮肤镜数据里常见毛发、标尺、黑框、医院设备差异,模型会把这些当成诊断线索。若 CSP 能把某个神经元标成“标尺边缘”而不是“病灶不规则边界”,那价值很硬。可摘要没有说使用哪个 melanoma 数据集,也没说是否跨医院验证。ISIC 系列数据集多年被拿来做皮肤病变分类,但数据清洗、重复患者、设备偏差一直麻烦。我没查到这篇 PDF 的表格细节,单看 arXiv 页面,不能确认它有没有挡住这些坑。 我对这篇的疑虑也在这里。对比样本不是免费午餐。你说“语义相似但低激活”,这个集合怎么构造?若靠最近邻,CLIP 嵌入会带入自己的偏差。若靠人工挑选,规模化会断。若靠 VLM 生成描述再筛图,标签生成和标签评估就会共享同一套语义偏见。文章摘要没有披露采样规则,也没有给失败案例。对 neuron labeling 来说,失败案例比平均分更有信息。一个方法在狗、车、纹理上变细腻,不代表它在医学伪影上可靠。 还有一个更现实的问题:CLIP 类编码器本身不是中立裁判。CLIP 对自然图像和互联网文本很强,对病理、皮肤镜、卫星图、工业缺陷这些 domain shift 场景会掉。CSP 如果用通用 CLIP 去评价 melanoma 标签,它可能把视觉相似性和医学语义混在一起。更稳的做法应该报告两套结果:通用 CLIP 与领域编码器。摘要没披露这点。若论文只在通用 CLIP 上跑,那医学案例的说服力要打折。 我还是喜欢这个方向。原因不是它看起来新,而是它把解释任务从“描述激活样本”改成了“区分激活条件”。这更贴近因果诊断。解释神经元时,负例常常比正例更值钱。只要 CSP 开源代码,并给出对比样本选择策略、人工评估协议、跨模型结果,它就能成为很多 interpretability pipeline 的小模块。若没有这些,它会停在一篇好摘要上。对从业者而言,先别把它当可靠审计工具;更适合拿来做模型调试时的候选标签过滤器。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
04:00
14h ago
arXiv · cs.LG· atomEN04:00 · 04·27
多智能体人类轨迹预测最新进展综述
arXiv 收录一篇 40 页综述,覆盖 2020—2025 年多智能体人类轨迹预测研究。论文按架构设计、输入表示和预测策略分类,重点梳理 ETH/UCY benchmark 上评测的模型。对机器人导航、自动驾驶和人群建模从业者,真正值得盯的是交互建模与评测协议差异。
#Agent#Robotics#Benchmarking#Céline Finet
精选理由
HKR-K 成立:这是一篇可作入口的轨迹预测综述,给出时间范围、分类轴和 ETH/UCY 评测线索。HKR-H/R 偏弱,题目常规且受众较窄,放在 60–71 的 interesting 档。
编辑点评
40 页综述把 2020—2025 HTP 拉齐;别把 ETH/UCY 排名当部署答案,机器人会在长尾交互里翻车。
深度解读
Finet 等人把 2020—2025 年多智能体人类轨迹预测写成 40 页综述。我的判断很简单:这类综述对做机器人导航的人有用,但它更像一张坑位图,不像一张路线图。HTP 这几年论文很多,模型名也很热闹,图神经网络、Transformer、扩散模型、社会交互建模都轮过一遍。可一落到 ETH/UCY,问题就老了:小数据集、固定评测协议、短时预测窗口、离线指标好看,部署环境未必买账。 正文披露的信息有限。arXiv 页面只给了题目、作者、40 页长度、2020—2025 覆盖范围,以及按架构设计、输入表示、预测策略分类。它强调 ETH/UCY benchmark,但没有在页面里列 ADE、FDE、NLL、碰撞率、miss rate 等具体表格。标题已给出“comprehensive review”,正文未披露每类模型的胜负细节。这个信息缺口很关键,因为 HTP 的争议从来不只是模型结构,而是评测口径。 我一直觉得 ETH/UCY 在这个领域有点像早年的 GLUE。它能让大家有共同语言,也会把研究者带向局部最优。ETH/UCY 常用 8 帧观测、12 帧预测,很多论文按 2.5 秒输入、4.8 秒输出设定跑 ADE/FDE。这个协议适合比较论文,不适合回答机器人怎么穿过拥挤大厅。真实机器人要关心反应时间、传感器遮挡、社会规范、agent 互相让行、规划器重新采样频率。ADE 低 5 厘米,碰撞率高 2 个点,现场工程师会选后者更低的模型。 外部看,自动驾驶轨迹预测已经比行人 HTP 更早吃过这个亏。Waymo Open Motion Dataset、Argoverse 2、nuScenes prediction 这些 benchmark 后来都把多模态、地图约束、交互场景做得更重。行业也从单一 minADE/minFDE 走向 miss rate、mAP-style ranking、scene-level consistency。行人 HTP 如果还主要围着 ETH/UCY 打榜,研究价值有,工程外推会很脆。尤其社交机器人和室内导航没有高精地图兜底,人的微小动作意图比车道拓扑更难建模。 这篇综述把方法按架构、输入、策略拆开,我觉得方向是对的。架构维度能看出 GNN、RNN、Transformer、扩散模型各自怎么编码交互。输入表示能逼大家说清楚,到底用了历史轨迹、场景语义、相对距离、朝向、群体关系,还是只喂 xy 坐标。预测策略也很要命:单峰回归在真实交互里经常过度平均,多模态采样又容易生成“看起来合理但规划器不能用”的轨迹。扩散类方法在 2023 年后很吃香,但采样成本和可控性对机器人闭环不友好。正文页面没有说明它怎么评价这些 trade-off,我不会先给高分。 我对“multi-agent interactions lies within hand’s reach”这种摘要口径有点警觉。交互不是把邻居轨迹塞进 attention 就完事。Social-LSTM 早在 2016 年就把 social pooling 讲清楚了,Social-GAN 也把多模态生成带进来。2020 之后的模型确实强了,尤其是图结构和 Transformer 的组合更会吃局部关系。但从论文指标到“理解人类互动”,中间差一个因果层和一个闭环层。一个模型预测某人左转,不等于它知道自己机器人减速后对方会改道。 给从业者的读法是:把这篇当索引,不要当结论。先看它是否区分 deterministic 与 stochastic 方法,再看是否单独处理 interaction module。再查它有没有标注训练数据、观测长度、预测长度、best-of-K 采样次数。best-of-20 和 best-of-1 放在同一张表里,很多排名就没意思。正文页面没披露这些细节,所以我只能说它有潜在价值,不能说它已经解决可比性问题。 有意思的地方在机器人导航。LLM agent 这两年把“agent”这个词喊得太满,但移动机器人里的 agent 约束更硬。一个轨迹预测模块延迟 100 毫秒,规划器就要改频率。一个预测分布没有校准,机器人就会在狭窄通道里显得冒失。多智能体 HTP 的下一步不是再堆一个 Transformer block,而是把预测不确定性接进 MPC、ORCA、采样式规划,最后用真实人群测试碰撞率和通行效率。论文综述能把 2020—2025 的方法排好队,已经够用;别期待它替你决定线上栈。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K1·R0

更多

频道

后台