FEATURED机器之心 · 公众号· rssZH04:30 · 06·11
ACL 2026 Oral:大模型在短语语义推理上还是“如鲠在喉”
这篇ACL 2026 Oral论文给前沿大模型做了一次短语层面的“体检”,结论有点反直觉:模型能聊但未必真懂。研究把语义理解拆成抽取、分类、释义三步来测,发现没有一个模型能全优。GPT-5在习语分类上能到85.4%,但同一批短语的抽取就掉到78.7%,释义相似度更是只有22.5%。DeepSeek-R1的分类准确率在选项从4个变16个时,直接从81.7...
#Benchmarking#Reasoning#Beijing Institute for General Artificial Intelligence#University of Science and Technology Beijing
精选理由
ACL 2026 Oral 论文,用短语层面的三项任务给 GPT-5 和 DeepSeek-R1 做体检,结论反直觉:模型聊天流畅但短语理解拉胯。数字具体,能直接拿来当参考。没给更高分是因为这是单篇学术论文,没有跨源验证,纯基准测试的落地影响有限。
一句话点评
ACL 2026 口头报告给大模型做了一次短语理解体检,结果没一个模型能同时做好抽取、分类和释义。GPT-5 释义相似度只有 22.5%,DeepSeek-R1 选项一多准确率直接腰斩。
锐评
这篇论文把语义理解拆成三步来测:从句子中把短语抽出来、给短语分类、解释短语含义。结果挺打脸——GPT-5 在习语分类上能到 85.4%,但同一批短语的抽取就掉到 78.7%,释义相似度更是只有 22.5%。DeepSeek-R1 的分类准确率在选项从 4 个变 16 个时,直接从 81.7% 跌到 35.4%。这说明模型对短语的理解很脆弱,换个问法就露馅。
更麻烦的是多步串联。上游抽取一出错,下游全跟着歪,GPT-5 端到端的相似度评分直接掉到 17.3%。作者来自北京通用人工智能研究院和北科大,他们自己也说这个静态基准已经跟不上 2026 年 agent 干活的需求了。
正文没披露测试了多少条短语、样本来源是否覆盖多语言。22.5% 的释义相似度具体怎么算的也没展开。如果是真的,说明模型在短语层面基本靠猜,这点先别太激动,等看到完整数据和复现结果再说。
HKR 分解
hook ✓knowledge ✓resonance ✓