论文 · 2026-04-17

▸ 13 篇 · updated 3m ago

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 274282930

2026-04-17 · 星期五2026年4月17日

17:47

10d ago

FEATUREDarXiv · cs.AI· atomEN17:47 · 04·17

ASMR-Bench：审计机器学习研究中的蓄意破坏

ASMR-Bench 发布了 9 个含破坏变体的 ML 研究代码库，用来测试审计者能否识别会扭曲实验结论的隐蔽改动。破坏点覆盖超参数、训练数据和评测代码，且表面方法描述不变；Gemini 3.1 Pro 最好成绩也只有 AUROC 0.77、top-1 修复率 42%。真正值得盯的是，同能力 LLM 审计器有时连 LLM 生成的较弱破坏都抓不住。

#Safety#Benchmarking#Code#Research release

精选理由

这篇有明确 HKR：标题里的“sabotage in ML research”有反差，正文也给了 9 个代码库、AUROC 0.77、top-1 修复率 42% 这些硬信息。它会触发业界对 LLM 审计器可靠性的讨论，但来源还是 arXiv 预印本，题材偏研究评测，不到 must-write。

编辑点评

ASMR-Bench 用 9 个代码库测审计，Gemini 3.1 Pro 的 top-1 修复率只有 42%；这对“AI 能自己做科研还可被同级模型盯住”的乐观叙事是一次直接打脸。

深度解读

ASMR-Bench 让 9 个带破坏变体的研究代码库改变实验结论，Gemini 3.1 Pro 也只拿到 0.77 AUROC 和 42% top-1 修复率。我的判断很直接：这条不是在说“审计还不够好”，而是在说现在这代模型离“可托管的自动科研”还差一层很硬的基础设施。代码能跑、日志能写、论文叙事能自洽，不等于结论可信。只要超参数、数据切分、评测脚本里埋一两个小改动，整套研究产出就会从“自动化加速器”变成“自动化幻觉机”。这和大家熟悉的代码基准不是一回事。SWE-bench 这类任务测的是修 bug、补 feature、过测试。ASMR-Bench 测的是另一类能力：当结果表面上也能跑通、方法描述也没变时，审计者能不能识别“结论被人做歪了”。科研里最麻烦的风险，本来就不是 syntax error，而是 evaluation leakage、数据过滤口径漂移、默认超参数换掉后 paper claim 还留着。过去一年很多实验室在推 research agent，卖点常是 literature review、实验编排、自动写作。我一直觉得这里最薄的一层不是“会不会做”，是“做坏了谁来查”。这篇基准至少把问题钉实了：同级模型互审，远远不够。我对摘要里的另一个点更警觉：LLM 生成的较弱破坏，有时也能躲过同能力 LLM 审计器。这说明失败不只是“人类红队太强”，而是模型在共享一套盲区。你让相近训练分布、相近工具使用习惯、相近代码阅读策略的模型互相抓错，它们很容易同时忽略同类模式。这个现象在安全里不新鲜。相同家族的静态分析器会漏同类 bug，相近偏好的评审者会放过同类坏味道。放到 AI agent 上，问题更大，因为 attacker 和 auditor 可能还共用同一种基础模型，差别只是 system prompt。那就不是 defense in depth，更像 self-consistency 幻觉。我也得泼一点冷水。正文只有 RSS 摘要，很多关键细节没披露。9 个代码库的任务分布没给。破坏是单点改动还是组合改动，没给。AUROC 的具体操作流程、审计预算、上下文长度、是否允许运行实验、是否看 git diff，摘要都没说。42% top-1 修复率听着差，但如果每题候选修复空间极大，这个数未必和“实际部署不可用”完全等价。反过来讲，0.77 AUROC 也不算彻底崩盘，若阈值能调、人工复核能接上，某些高价值场景照样有用。我还没看到 paper，没法判断作者是不是把一个很难的问题包装成“前沿模型失灵”的 headline。但就算保守看，这条也已经足够说明一个现实：研究 agent 的 eval 不能只盯 final score，得盯 provenance。谁改了数据预处理，谁调了 early stopping，谁删了失败 seed，谁重写了 metric，必须有可追踪链路。去年大家谈 agent reliability 时，很多人把重点放在 long-horizon planning、tool use、browser success rate。我不太买账，因为科研最怕的不是任务没完成，而是任务完成得很像、结论却是假的。没有强审计轨迹、可重放执行、差分检查和独立复核，自动科研系统越会干活，风险越大。所以我对 ASMR-Bench 的评价是：规模还小，信息还不够，但方向非常对。它把“模型会不会做研究”往旁边推了一步，开始问“模型做出来的研究，你敢不敢信”。这两个问题看着接近，工程要求差得很远。前者靠更强模型和更长上下文还能继续堆。后者要的是审计架构、执行隔离、结果复现，还有最好别让 attacker 和 auditor 用同一脑子。摘要没披露人类审计者的具体成绩和成本。如果人机协同也只比模型单审强一点，那这件事就比很多人想的更麻烦。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:41

10d ago

arXiv · cs.AI· atomEN17:41 · 04·17

用大语言模型和知识图谱提升制造业机器学习模型的可解释性

该论文提出一种把知识图谱与大语言模型结合的解释方法，并在制造场景评估33个问题。方法先把领域数据、ML结果与对应解释存入知识图谱，再选择性检索相关三元组交给LLM生成面向用户的说明。正文给出准确性、一致性、清晰度和有用性四类评估维度，但未披露具体分数；真正值得盯的是它把XAI从静态说明改成了按问题动态取证。

#Interpretability#RAG#Tools#Research release

精选理由

这篇论文有HKR-K：机制清楚，至少给出了“知识图谱检索三元组→LLM生成解释”和33个问题评估两个新事实。HKR-H与HKR-R都弱，标题偏学院派，正文也未披露四项评估的具体分数，行业讨论面有限，所以给 all 而不是 featured。

编辑点评

这篇论文用 33 个制造问题把 KG 检索接到 LLM 解释链上，方向对了，但正文没给分数，我先不买“实证有效”这句。

深度解读

论文把知识图谱检索接到 LLM 解释链上，并在制造场景评估了 33 个问题。我的判断很直接：这条路子比“让模型直接写解释”靠谱，因为它至少先把证据对象化了；但正文只给了评估维度，没给 accuracy、consistency、clarity、usefulness 的具体分数，所以“能支持更好决策”这句我暂时不认。这类工作过去一年其实很多，名字不一定都叫 XAI。GraphRAG、KG-RAG、tool-augmented explanation，底层逻辑都一样：别让 LLM凭参数记忆硬编，让它先拿结构化证据再说话。制造场景尤其需要这一步，因为产线、工艺、告警、传感器、工单之间的关系不是自然语言顺一遍就能稳住的。传统 SHAP、LIME、feature attribution 这套，擅长回答“哪个特征推高了分数”，不擅长回答“这次异常和上游哪道工序、哪类历史案例、哪条规则相关”。论文这里把“领域数据 + ML 结果 + 对应解释”一起写进 KG，再做选择性三元组检索，至少在系统设计上是对症的。我还是有两个疑虑。第一，33 个问题太少，像原型验证，不像稳健结论。XAI Question Bank 适合做问答覆盖，但不等于真实车间里的决策压力测试。第二，正文没披露检索策略细节，也没说基线是什么。是和纯 LLM 比，还是和模板化 explanation 比，还是和工程师手写 SOP 比？这些差别很大。只要没有对照组分数，“更准确、更一致”就还停在叙事层。我自己更关心一个落地问题：KG 谁来维护。制造知识变得很快，设备版本、工艺窗口、异常码映射都在变。图谱一旦过期，LLM 只会把过期知识讲得更像样。这是很多企业 GraphRAG 项目卡住的地方，不在生成，而在知识治理。标题给了方法，正文没披露图谱更新频率、三元组规模、人工校验成本，这些恰恰决定它能不能进厂。所以这篇我会把它看成一个方向正确的系统化尝试，不会把它当成“LLM 解决制造可解释性”的证据。等作者补出具体分数、基线、检索命中率、人工维护成本，再谈强结论。现在最多只能说：它把解释从静态归因往可追溯问答推了一步，这一步有价值，但证据还不够硬。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:33

10d ago

● P1arXiv · cs.CL· atomEN17:33 · 04·17

没有通用礼貌：基于 PLUM 语料的跨语言、多模型礼貌效应研究

该论文用 22500 组提示-回复测试 5 个模型、3 种语言后发现，礼貌语气最多把平均回复质量拉高约 11%，但效果不具普适性。实验覆盖英语、印地语、西班牙语与 5 级礼貌强度；Llama 3 对语气最敏感，波动范围 11.5%，GPT-4o Mini 对对抗性语气更稳。作者还公开发布含 1500 条人工校验提示的 PLUM 语料，用于复现 6 个可证伪假设。

#Benchmarking#Alignment#Google Gemini#OpenAI

精选理由

论文把“对模型说请”做成22500次跨语言对照实验，给出最高11.5%质量波动、模型差异和公开语料，HKR-H/K/R都成立。它能引发提示工程讨论，但仍是研究发布，不到同日必写级别。

编辑点评

PLUM 用 22500 组测试把“礼貌提示更好”这句民间经验拆穿了：礼貌有用，但它不是跨模型、跨语言都成立的万能旋钮。

深度解读

这篇论文先给了一个该记住的数字：礼貌语气最多把平均回复质量拉高约 11%，但同一套话术放到 5 个模型、3 种语言里，并不会稳定生效。我的判断很直接：这不是在教大家“以后都要更礼貌地提示”，而是在提醒我们，prompt engineering 里那套流传很久的礼貌玄学，到了 2026 年还没有被认真分解过。现在这篇至少把它从经验帖拉回了可测变量。我比较认这项工作的地方，在于它没有只测英语，也没有把“好不好”压成单一分数。22,500 组提示-回复，覆盖英语、印地语、西班牙语，拆成 5 级礼貌强度，再按 coherence、clarity、depth、responsiveness、context retention、toxicity、conciseness、readability 八个维度看。这个设计比社媒上常见的“加 please 后分数涨了”硬得多。Llama 3 的波动范围有 11.5%，GPT-4o Mini 对对抗语气更稳，这两个点放一起看，其实已经很说明问题：所谓“礼貌提升效果”，很多时候不是用户礼貌本身有魔法，而是不同模型对语用线索的对齐方式不同。我一直觉得，过去一年那种“对模型客气一点，它会回得更好”的说法，被过度传播了。OpenAI、Anthropic、Google 这几家在 system instruction 和 refusal tuning 上都做过很多语气相关的对齐，但公开材料很少把语言学变量讲透。训练里如果大量存在客服、帮助中心、RLHF 偏好的礼貌对话，模型当然会把某些语气当成“高质量交互”的代理信号。问题是，这个代理信号一旦跨语言，就会开始漂。论文给出的结果就很典型：英语偏礼貌或直接，印地语偏尊敬和间接，西班牙语偏 assertive。这里面不是一个统一的“礼貌轴”，而是各语言社交规范、翻译习惯、标注分布、甚至安全策略共同叠出来的混合效应。我对这篇也有保留。第一，正文目前只有摘要级信息，我还没看到具体评测 protocol：八维评分是谁打的，是人工、模型裁判，还是混合？如果是 LLM-as-a-judge，那语气偏好很容易被评审器自己继承，结果会有闭环。第二，5 个模型里混着 Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat、Llama 3，这个名单有代表性，但版本差异和部署时间差会污染结论。比如 GPT-4o Mini 本来就偏短、偏稳，Llama 3 更容易被表面语气牵着走，这可能既是架构差异，也是后训练强度差异。标题说“无通用礼貌”，我基本同意；但如果进一步说“礼貌作用有限”，我不会这么快买账，因为很多效果可能被模型代际差异吃掉了。 PLUM 语料本身反而是更耐看的部分。1500 条人工校验提示不算大，但如果标签定义清楚、跨语言映射做得干净，它会比又一个大而杂的 benchmark 更有用。现在业界太缺这种能专门测 interaction style 的公开集。我们有一堆知识、推理、代码 benchmark，却很少认真测语气、地位关系、直接性、命令性这些“使用层变量”。可在真实产品里，用户抱怨“这个模型今天态度怪”“换个说法结果差很多”，往往就出在这。落到实践层，我觉得这篇对做 agent 和多语产品的人更有价值。很多团队还在把 prompt 模板全球统一，只做字面翻译。这个结果等于提醒你：同一个客服 agent，在英语市场用 polite-softened prompt，在西语市场也许不该照搬；对 Llama 系模型做安全或质量护栏时，语气分布本身就该进回归测试。别把“prompt robustness”只理解成拼写错误、越狱攻击、上下文长度，语用鲁棒性也该算一项。说真的，我最想看到的下一步不是再证一次“礼貌有时有用”，而是把机制挖出来：效果主要来自 SFT 语料分布，还是 RLHF 奖励模型，还是 safety layer 对敌意语气的特殊处理？摘要没有披露这部分。要是论文正文也没做消融，那它给的是一张很有用的现象图，还不是解释。即便如此，这张图已经够让一些偷懒的 prompt 建议下线了：别再把“加 please”当通用优化技巧卖给用户了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:28

10d ago

FEATUREDarXiv · cs.CL· atomEN17:28 · 04·17

VEFX-Bench：通用视频编辑与视觉特效的综合基准

研究团队发布 VEFX-Dataset、VEFX-Reward 和 VEFX-Bench，覆盖 5049 个视频编辑样本、9 个大类、32 个子类，以及 300 组评测样本。VEFX-Reward 联合输入源视频、编辑指令和编辑结果，用序数回归预测三项分数：指令遵循、渲染质量、编辑排他性。真正值得盯的是，现有系统在视觉可信度、指令遵循和局部编辑控制上仍有持续落差。

#Vision#Benchmarking#Multimodal#Research release

精选理由

K 明确命中：VEFX-Bench 把视频编辑评测拆成数据集、奖励模型和 300 组样本，给了可复现的结构与数字。H、R 偏弱：标题没有反转结果，正文也未披露头部系统名次或明显翻车案例，更像细分多模态 benchmark，所以放 all。

编辑点评

VEFX-Bench 一次补上 5049 条数据和 300 组评测，但我不太买账“通用视频编辑”这个名字；300 组 benchmark 还撑不起行业基准。

深度解读

研究团队这次把视频编辑评测往前推了一步：他们同时放出 5049 条带人工标注的编辑样本、一个三维打分 reward model、以及 300 组基准集。我的判断是，这条的价值不在于又多了一个 benchmark，而在于它把视频编辑里最容易被混着谈的三件事拆开了——指令遵循、渲染质量、编辑排他性。这个拆分很对路，因为现在很多模型看起来“能编辑”，其实只是把整段视频重新生成一遍，局部改动守不住，角色一致性和背景稳定性也守不住。你如果只看整体观感，很容易把失控重绘误判成高质量编辑。这套框架跟过去一年图像编辑评测的走向是一致的。图像侧从 InstructPix2Pix 到 MagicBrush、EditBench，再到一批 reward model，大家都在逼着评测系统回答一个更尖的问题：模型到底是在“改”，还是在“重做”。视频侧这个问题更严重，因为时间一致性会把小错误放大。一个镜头里光影、纹理、人物身份只要有一处漂，用户就会立刻出戏。我一直觉得视频编辑比文本到视频更接近真实生产，因为广告、短剧、游戏宣发都要改现成素材，不是每次都从零生成。按这个需求看，VEFX-Bench 方向是对的。我对“holistic”这个表述还是有疑虑。正文只给了 300 组 curated video-prompt pairs，没披露每个子类的分布、时长区间、分辨率区间，也没说商业模型和开源模型的具体名单。没有这些信息，你很难判断这个 benchmark 是不是偏向某几类常见 edit，比如风格迁移、物体替换、文本添加；也很难判断它对 camera motion、遮挡恢复、长时一致性这些硬问题覆盖得够不够。300 组样本拿来做研究比较够用，拿来宣布“通用视频编辑基准”我觉得还是偏早。说实话，我还想看 inter-annotator agreement 和失败案例拆解，尤其是 edit exclusivity 这种维度，主观性不低。 VEFX-Reward 本身也有一个老问题：reward model 越贴合 benchmark，系统就越容易学会讨好 evaluator。文章说它比通用 VLM judge 和 prior reward models 更贴近人工判断，这当然是好事，但正文没披露相关系数、pairwise preference 胜率、跨模型泛化条件，也没说评测对象是否包含训练时没见过的编辑风格。没有这些数字，我不会急着把它当“更可靠裁判”。这类 evaluator 经常在同分布里很好看，换一个视频源、换一种后期任务、换更长 clip 就掉得很快。去年的不少多模态 judge 都吃过这个亏。还有一个行业层面的点，我觉得比论文结论本身更有信息量。现在视频模型公司很爱讲“可控生成”，但交付到用户手里的，常常还是 prompt 驱动的大改写，不是 editor 真正想要的细粒度控制。Runway、Pika、Luma 那几条产品线我没逐项重跑，凭公开演示和用户反馈看，最难的始终不是生成一个漂亮镜头，而是在保住原视频主体、时序和构图的前提下做局部修改。VEFX 把这个矛盾显式量化了，这点我认可。它会逼模型团队别再只刷视觉讨喜度，而要回答“改了哪里、没改哪里”。所以这篇我会记一笔，但不会马上把它抬成视频编辑领域的 MMLU。要让我更信，它至少还得补三样东西：公开更细的 benchmark 构成，给出和人类评分的明确相关数字，以及做一次跨数据集验证。做到了，它就是很有用的基础设施；做不到，它还是一套对论文作者友好的内部尺子。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:28

10d ago

arXiv · cs.CL· atomEN17:28 · 04·17

从基准测试到推理：面向越南法律文本的 LLM 双视角大规模评测

该论文评测 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 在 60 篇越南复杂法律条文上的表现，指标覆盖准确性、可读性和一致性。结果显示，Grok-1 在可读性与一致性上更强，但牺牲细粒度法律准确性；Claude 3 Opus 准确率更高，却暴露出不少隐蔽且关键的推理错误。真正值得盯的是错误类型：Incorrect Example 和 Misinterpretation 最常见，问题核心不是摘要，而是受控且准确的法律推理。

#Reasoning#Benchmarking#OpenAI#Anthropic

精选理由

这篇论文有清晰的新信息，HKR-K 成立：60篇越南法律文本、四个模型对比、错误类型也被点名。题材偏窄，标题缺少点击钩子，正文也没有更广的产品或部署外推，所以给 all，不到 featured。

编辑点评

论文评测 4 个模型处理 60 篇越南法律条文，并把行业里常见的“分高=能上法务”错觉直接戳穿了。

深度解读

论文用 4 个模型评测 60 篇越南复杂法律条文，并把错误拆到 Accuracy、Readability、Consistency 之外的具体类型。我的判断很直接：这类工作比又一组通用 benchmark 排名更有用，因为法律场景最怕的不是答得笨，而是答得顺、看着稳、实际错在关键适用条件上。摘要里最刺眼的一点，是 Claude 3 Opus 准确率更高，却还有不少“隐蔽但关键”的推理错误；Grok-1 可读性和一致性更强，但细粒度法律准确性下滑。这个结论我买账。法律文本从来不是“翻译成人话”就结束，难点在条件触发、例外条款、定义范围、跨条文引用。模型一旦把这些关系压扁，可读性越高，风险反而越大。给用户一种“它已经理解了”的错觉，这比直接答非所问更危险。这也呼应过去一年法律和医疗评测里反复出现的老问题：很多模型在 surface form 上越来越像专业助手，但在 rule application 上还不稳定。我记得 2024 到 2025 年几篇英文法律评测也有相似现象，模型能做摘要、改写、检索增强问答，碰到事实映射到法条要件时就开始漂。我没逐篇核实这里能否直接类比越南法律体系，但模式很像：自然语言 fluency 提升得快，受约束推理没跟上。我对这篇论文的保留也很明确。第一，正文摘要只给了 60 篇条文，样本对研究型 paper 不算小到不能看，但离真实法务部署还差几层：没看到跨文档推理、没看到时效版本冲突、没看到判例或实施细则怎么处理。第二，摘要没披露评分协议、提示词、温度、是否允许检索、专家标注一致性系数，这些都会直接改写结论。第三，拿 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro、Grok-1 比，时间点也有点卡住了。到 2026 年 4 月，Claude 3 Opus 和 Gemini 1.5 Pro 都已经不是各家最能代表当下推理水平的型号。这个对“研究结论是否成立”影响不大，对“谁现在最强”则几乎没有参考价值。但就算有这些缺口，这篇 paper 还是点到了一个我很认同的方向：别再把法律 AI 评测做成单一分数榜。错误类型才决定能不能上线。Incorrect Example 和 Misinterpretation 排在前面，很说明问题。前者说明模型会编或错配适用案例，后者说明它连条文含义边界都可能吃错。两种错误都不是靠把答案写得更流畅能补救的，得靠更强的约束、引用、验证链路，甚至把“生成”退回到“抽取+结构化推理”。所以我看这篇，不是在看谁赢了，而是在看一个行业习惯终于被纠正一点：法律场景里，readability 从来不是安全代理指标。标题已经给出“双重评测”和主要错误类型，正文没披露各模型的具体分数、显著性检验和标注流程。我还不能据此判断方法学有多硬，但结论方向我认同，而且对做垂直 agent 的团队是个提醒：你的 demo 如果总拿“用户觉得清楚”当卖点，多半还没过最难那关。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:17

10d ago

FEATUREDarXiv · cs.AI· atomEN17:17 · 04·17

研究比较分布锐化与任务奖励强化学习效果

论文比较了分布锐化与任务奖励RL，并在3个3B-4B指令模型的数学数据集上报告：前者增益有限，后者带来更稳健提升。作者从一阶原理论证分布锐化的最优点会失衡且训练不稳定；实验模型含Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct、Qwen3-4B-Instruct-2507。真正值得盯的是，正文摘要未披露具体分数与训练配置，现阶段只能确认方向性结论。

#Reasoning#Fine-tuning#Benchmarking#Research release

精选理由

这是一篇后训练研究，摘要确认任务奖励 RL 在 3 个 3B-4B 指令模型上比分布锐化更稳。分数放在 all，因为摘要没有具体分数、训练配置和复现条件，H 与 R 都偏弱。

编辑点评

这篇论文用3个开源模型和数学任务对比后，直接给“分布锐化”泼了冷水：只靠把旧分布压尖，撑不起稳定的 RL 提升。

深度解读

论文用 Llama-3.2-3B-Instruct、Qwen2.5-3B-Instruct、Qwen3-4B-Instruct-2507 在数学数据上比较了两条路，并给出一个很明确的判断：任务奖励型强化学习优于分布锐化，后者增益有限且训练不稳。两家“来源”其实都是 arXiv 同一篇论文，标题和摘要完全一致，这不算多角度媒体解读，更像同一学术源在 cs.AI 与 cs.LG 两个分类下的重复曝光。覆盖广度在这里几乎没有额外信息量，核心还是作者自己的实验和理论论证。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:16

10d ago

arXiv · cs.AI· atomEN17:16 · 04·17

LLM 生成能力问题的特征：基于开放与闭源模型的跨领域实证研究

论文比较 5 个开放与闭源模型生成的能力问题，覆盖多个用例与需求场景，并用定量指标刻画可读性、相关性和结构复杂度。实验模型包括 KimiK2-1T、Llama 3.1-8B、Llama 3.2-3B、Gemini 2.5 Pro 和 GPT-4.1；摘要称不同模型会随用例形成不同生成画像，但正文未披露样本量与分数。真正该盯的是评测框架本身：它在把本体工程里的需求抽取，转成可复现的 LLM 横评任务。

#Benchmarking#Reasoning#Kimi#Google

精选理由

这是有料但偏窄的研究稿：K 命中，H 和 R 偏弱。正文确认 5 个模型与可读性、相关性、结构复杂度三类指标，样本量和具体分数未披露，所以停在 all。

编辑点评

论文用 5 个模型生成能力问题，却没给样本量和分数；我更在意它把本体需求抽取做成了可复现横评，这比又一组模型输赢表更有用。

深度解读

这篇论文先做对了一件事：它把本体工程里最难标准化的一段——能力问题（CQ）生成——压成了可量化任务。作者明确比较了 5 个模型，指标落在可读性、相关性、结构复杂度三类。这个切法很实用，因为 CQ 不是写得像问题就行，它得映射需求边界，还得让后续 ontology scope 能落地。我对标题里的“cross-domain empirical study”会先保留一点警惕。正文摘录只说覆盖多个 use case 和 scenario，但没给样本量、领域数、人工标注流程，也没给各模型具体分数。没有这些，所谓“distinct generation profiles”目前只能算方向判断，不算扎实结论。尤其相关性这个指标最容易出问题：如果是靠 embedding 相似度或表层词汇重合，模型会偏向把输入改写得更像原文，而不一定更像一个好 CQ。我自己没看到全文，暂时没法确认他们怎么做的。有意思的地方在于，这条线补的是一个长期空白。过去一年大家看 LLM 评测，主流还是 MMLU、GSM8K、SWE-bench、HumanEval 这种通用能力或代码任务。到了知识工程、需求抽取、ontology authoring 这类半结构化工作，公开、可复现、跨模型的评测一直很少。Protege 插件、RAG-for-ontology、知识图谱抽取这几波论文很多，但常见问题是任务定义松、人工判断重、复现成本高。这篇如果把 CQ 评测协议写清楚，价值会比“GPT-4.1 比 Llama 3.1 好多少”大得多，因为后面的人可以直接复用任务框架。我还有一个保留意见：他们把开放和闭源模型放在一起比，表面公平，实际未必。KimiK2-1T、Llama 3.1-8B、Llama 3.2-3B 和 Gemini 2.5 Pro、GPT-4.1 的指令对齐强度、上下文策略、系统提示可控性都不是一个层级。要是 prompt 模板、解码参数、温度、重试次数没锁死，最后测出来的“生成画像”里，会混进很多调用策略差异，不全是模型本体差异。摘要没披露这些，我不会直接买账。所以我的判断是：这篇的亮点不是模型排名，而是评测对象选得准。CQ 生成处在“自然语言需求”到“形式化知识结构”的中间层，这正是很多企业知识系统最痛的一段。要是作者后面公开数据集、标注协议和 prompt，我会认真看；要是只有几个平均分，那它就还停在论文里，没有变成社区资产。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:15

10d ago

● P1arXiv · cs.CL· atomEN17:15 · 04·17

Vision-Language Models 真的在做视觉推理吗？一项关于模态鸿沟的严格研究

论文提出 CrossMath，对同一道题构造 text-only、image-only、image+text 三种形式，并用人工标注校验三者任务信息一致。作者评测多种 SOTA VLM 后发现：模型在纯文本上更强，加入图像后常低于 text-only 基线；这 ≠ 视觉推理增强，而是推理仍主要发生在文本空间。

#Reasoning#Vision#Benchmarking#Research release

精选理由

这篇论文有明确的反直觉钩子，也给出可复现实验框架：同题三种模态、人工校验等价，再比较多种 SOTA VLM。HKR 三轴成立，但摘要未披露关键分差数字，行业影响力也低于头部模型发布，放在 78–84 档。

编辑点评

CrossMath 用三种同题输入把短板钉死了：很多 VLM 不是不会想，而是看到图就先掉点。

深度解读

CrossMath 这篇论文做了一件很关键的事：它把同一道题做成 text-only、image-only、image+text 三个版本，还用人工校验信息一致。这个控制条件一旦成立，很多厂商爱讲的“多模态推理增强”就得重新审。摘要给出的结论很直接：多种 SOTA VLM 在纯文本上更强，图像一加进去，成绩常常低于 text-only 基线。具体掉多少分，RSS 正文没披露；参评模型名单、题量、统计显著性也没给。光看这段信息，我不敢替它下“所有 VLM 都不会视觉推理”的大结论，但“当前主流 VLM 的推理主通道仍是文本”这个判断，我觉得站得住。这条有分量，不是因为它发现了一个新现象，而是因为它把老问题测干净了。过去一年很多视觉评测都混着 OCR、知识回忆、提示工程和信息冗余。MathVista、MMMU、MathVerse 这类基准都很有用，但你很难彻底排除一个问题：模型到底是在看图推，还是先把图转成一段内部文本，再靠语言模型那套链路解题。CrossMath 的设计价值，就在于它尽量把“任务信息完全相同”这件事钉住。只要这个标注质量过关，text-only 明显优于 image+text，就说明图像分支至少没有提供稳定增益，甚至在拖后腿。我一直觉得很多 VLM 的产品叙事有点过。演示视频里它们会圈图、会指物、会讲步骤，看起来像在做 grounded reasoning。工程上常见的真实路径却更朴素：先做视觉编码，再做区域描述、OCR、对象标签或 latent 对齐，最后把大头推理交给语言骨干。这个架构不是不能做推理，但它很容易把“看见”退化成“读出一段不太完整的文字说明”。一旦图里有几何关系、符号布局、细粒度位置约束，误差就会层层传递。你在输出端看到的是 reasoning failure，根子常常是 perception-to-text conversion failure。CrossMath 如果结果稳定，等于把这层窗户纸捅破了。我对这篇也有两个保留。第一，它叫 CrossMath，核心任务看名字就知道偏数学。数学题特别容易奖励符号化、序列化表达，所以文本通道天然占优。要是换成需要空间关系、物体交互、图表异常点定位的任务，差距会不会缩小，正文摘要没说。第二，image+text 低于 text-only，不一定全是“模型不会看图”，也可能是融合机制把噪声带进来了。很多模型在双模态输入时会受无关视觉 token 干扰，注意力预算被稀释，最后把原本能做对的文本题做坏。这是视觉推理弱，也是一类输入工程问题。两者相关，但不是一回事。摘要还说作者做了 CrossMath training set，微调后在单模态、联合模态上都有显著提升，还迁移到两个通用视觉推理任务。这个结果我愿意认真看，但也会先追问三个细节：提升幅度是多少；提升主要来自 image-only 还是 image+text；迁移任务有没有泄露同类模式。去年不少“视觉推理增强”工作，最后涨分主要靠更强 OCR、图文对齐清洗、或合成数据模板覆盖。分数会涨，结论却没那么硬。这里如果 image-only 提升最大，说明模型确实学到了一些视觉解题能力；如果主要是 image+text 回到 text-only 水平，更像是在修复融合时的干扰。对从业者来说，这篇最实用的提醒不是“别做 VLM”，而是别再把 language reasoning 的进步自动算成 multimodal reasoning 的进步。很多团队现在一看到带图 benchmark 上涨，就顺手写进“视觉推理增强”。说实话，这个口径早该收紧。你至少要回答三件事：图像提供了什么文本里没有的信息；模型在有图条件下为什么比纯文本更好；这个增益能不能在信息等价设置下复现。CrossMath 的意义，就在于它把第三个问题变成可检验项。如果后续开源结果表明主流模型在 text-only 和 image+text 之间长期存在稳定负差，这对产品路线会很具体。第一，别把复杂图像理解直接交给统一大 VLM，先做结构化感知再推理，很多场景会更稳。第二，评测必须拆开 perception、transcription、fusion、reasoning 四段，不然 debug 永远停在“模型变笨了”。第三，训练数据要少一些图文共现堆料，多一些信息等价的跨模态对照。这个工作没有证明视觉推理做不成；它证明了大家之前把“看图会答”算得太乐观。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:07

10d ago

arXiv · cs.AI· atomEN17:07 · 04·17

HILBERT 框架用双对比对齐学习音频文本长序列表示

论文提出 HILBERT，在低资源条件下用冻结语音与语言编码器学习文档级长序列音频-文本表示。方法用跨模态注意力聚合分段特征，并以音频/文本到联合表示的双对比目标、CKA 结构保持损失和互信息平衡损失做对齐；摘要称其在多组 backbone 与高失衡多分类上更优，但正文未披露具体数据。

#Multimodal#Audio#Benchmarking#Research release

精选理由

这篇 arXiv 论文停留在方法描述层：双对比目标、CKA 结构保持、互信息平衡损失都写了，关键结果数字和复现实验条件没给。内容偏长序列语音-文本对齐的专门研究，触发 technical-accessibility fail，面向通用 AI 从业者的可读性和讨论度都低。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

17:00

10d ago

arXiv · cs.CL· atomEN17:00 · 04·17

BAGEL：评测语言模型动物知识专长的基准

研究者提出 BAGEL，用统一闭卷协议评测语言模型的动物知识，覆盖分类、形态、栖息地、行为、鸣声、地理分布和物种相互作用 7 类任务。数据来自 bioRxiv、Global Biotic Interactions、Xeno-canto 和 Wikipedia 的人工整理与自动问答生成；正文未披露题量、参与模型和具体分数。真正值得盯的是它禁用推理时检索，可细分到来源域、类群和知识类别看系统性失误。

#Benchmarking#bioRxiv#Global Biotic Interactions#Xeno-canto

精选理由

这篇论文有一个明确的新信息点：用闭卷统一协议评测语言模型的 7 类动物知识，HKR-K 成立。正文未披露题量、参测模型和具体分数，标题钩子也偏弱，行业共鸣不足，所以给 all，不给 featured。

编辑点评

BAGEL把动物知识评测拆成7类闭卷题，这个方向我买账；没题量、没分数、没参评模型，眼下还只是评测设计声明。

深度解读

BAGEL提出统一闭卷协议评测动物知识，覆盖7类任务；正文没给题量、模型名单和分数，所以现在还谈不上谁强谁弱，只能先判断这个 benchmark 设计值不值得认真看。我觉得方向是对的，因为通用知识 benchmark 这两年已经被做得太“平”了，MMLU、GPQA 这类集合能看出模型上限，却很难看出它在长尾事实、类群混淆、来源偏差上的系统性失误。动物知识正好卡在一个尴尬区间：它不是纯冷门 trivia，也不是代码数学那种高频训练目标，拿来测闭卷记忆和概念边界，反而很合适。我比较认同它把 taxonomy、morphology、habitat、behavior、vocalization、distribution、species interactions 分开。这个拆法至少比“生物学能力”一锅炖强很多。比如物种分类答对，不代表会处理鸣声或互作；模型常见的问题不是完全无知，而是把相邻属、相邻生态位、相近地理分布混成一团。要是 BAGEL 真能按来源域、类群、知识类别切误差，这会比再来一个总分排行榜有用得多。做应用的人更关心 failure mode，不关心一个 0.7 还是 0.8 的平均准确率。但我对这条也有保留。第一，闭卷设定很干净，离真实使用场景却有点远。生物多样性相关应用，很多时候本来就该配检索、知识库或专家审核。把 retrieval 全禁掉，测到的是预训练记忆密度，不是系统可靠性全貌。第二，数据源混了 bioRxiv、GloBI、Xeno-canto 和 Wikipedia，来源质量差异很大。预印本没同行评审，Wikipedia 覆盖广但噪声也多，Xeno-canto 还有地区和录音质量偏差。正文没披露采样口径、去重方式和答案规范化规则，这些都会直接影响分数。第三，我还没看到它怎么防数据污染。Wikipedia 和公开参考资料本来就在大模型训练语料里，闭卷不等于没泄题；如果没做时间切分或 contamination audit，这个 benchmark 很容易测成“谁背得多”。我想到的外部参照，是医学和法律那类领域 benchmark 近两年的教训：很多集合刚发时看着很专，过几个月就被 prompt engineering、格式适配和训练集重叠吃掉了，最后留下来的价值，往往不是排行榜，而是哪一类错误最稳定。BAGEL如果要站住，不是靠“动物版 MMLU”这个名字，而是要把每题来源、时间、类群覆盖、判分标准说透。现在材料只有标题和摘要，我还不能判断它会不会变成一个好用的失误显微镜；但这个方向比再做一个泛化总榜靠谱。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

16:53

10d ago

arXiv · cs.CL· atomEN16:53 · 04·17

通过词元裁剪优化韩语中心 LLM

该论文基准测试 Qwen3、Gemma-3、Llama-3 和 Aya 在 3 种词表下的韩语任务表现。词元裁剪删除无关语言词元与嵌入，配置含 Original、EnKo、EnKoZh；结果称它能减少语言混淆，并常在机器翻译上提升韩语任务表现。真正值得盯的是词表显著缩小已被验证，但推理时延只得到小幅改善，正文未披露具体增益数字。

#Inference-opt#Benchmarking#Qwen#Gemma

精选理由

论文给出可复现的机制：在 Qwen3、Gemma-3、Llama-3、Aya 上测试 Original、EnKo、EnKoZh 三种词表，并剪除无关语言词元与嵌入。HKR 主要命中 K；标题钩子偏弱，正文未披露关键增益数字，行业共鸣有限，所以进 all 不进 featured.

编辑点评

论文在 4 个多语模型上裁掉非韩语词元。我的判断很直接：这更像部署侧修边，不是能力层突破。

深度解读

论文在 Qwen3、Gemma-3、Llama-3、Aya 这 4 个模型上比较了 3 种词表配置。我的判断是，token pruning 这次证明的是“多语底座带着一堆无用负担”这件老问题，不是韩语模型突然找到新配方。文章给出的信号有两个。第一，删掉无关语言词元和嵌入后，韩语任务里的语言混淆下降，机器翻译常有提升。第二，词表能明显缩小，但推理时延只小幅改善。这里我得直接泼点冷水：如果 latency 只小幅变好，那这条路的主要收益就不是速度，而是显存、embedding 参数、部署包体，还有少量 decoding 稳定性。标题和摘要已经把方向说清了，正文没披露具体缩词表比例、显存节省、首 token 延迟、吞吐变化，也没说提升发生在哪些 benchmark 和哪些模型上最明显。没有这些数字，离“高度有效”还差一截。我一直觉得，很多团队高估了词表对推理成本的决定性作用。对 7B 到 30B 这档模型来说，embedding 和 lm head 的参数占比并不总是大头，尤其在 GQA、MoE、长上下文 KV cache 已经把成本重心挪走之后，单纯裁词表很难把端到端延迟砍出夸张幅度。这和前两年大家做 tokenizer surgery 的经验差不多：显存会省，困惑度有时会稳一点，但你想靠它拿到 20% 到 30% 的线上时延收益，通常不现实。我没跑过这篇的实验，但从摘要看，它的结果基本没跳出这个框架。有意思的地方在 instruction-following 出现了“架构相关波动”。这句话分量不小。它说明跨语潜表示不是白占地方。很多多语模型在韩语指令里还能借英语、中文、日语的 shared subword 和对齐信号撑住行为一致性，你把别的语言 token 剪掉，等于把一部分跨语桥梁也切了。去年不少区域语言模型微调都会遇到这个问题：本地语言 benchmark 上去了，复杂指令或者 code-mixed 输入反而更脆。摘要已经承认这点，但没展开到层级分析，也没说是 Qwen3 这种原生多语底座更稳，还是 Llama-3 这类后续多语化方案更容易掉点。这个缺口很关键。我还想补一个文章外的上下文。韩语这类高资源但全球占比不高的语言，一直卡在一个尴尬位置：完全自训专用模型太贵，直接拿全球多语模型又带着过多无关词表和分词碎片。过去一年不少团队在阿拉伯语、越南语、泰语上都试过词表重做、merge 调整、continued pretraining，结论通常很像：你要么用更干净的 tokenizer 换来局部任务提升，要么保留多语覆盖换来鲁棒性，二者很少同时拿满。这篇论文看起来站在前一边，而且它至少把“韩语中心部署”这个场景说实了。但我对“memory-constrained, domain-specific deployments”的叙事还是有点保留。说真的，今天真缺内存的生产环境，很多人先做的是 4-bit/8-bit 量化、KV cache 优化、speculative decoding，或者干脆换更小的 dense / MoE 路线。token pruning 排在多前面，要看它到底省了多少。如果只是把词表砍半，但端到端成本只降几个点，工程优先级不会高。除非这个方法还能顺手减少错误语言输出，提升品牌安全和 UX，那才有部署价值。摘要提到 generation stability improved，这个方向我反而更买账，因为韩语产品里突然蹦出中文或日文 token，用户感知非常强。所以这篇我会把它看成一篇很实用的区域化部署论文，不会把它看成模型能力突破。它对韩国市场、政企内网、端侧模型裁剪都有参考价值。前提是正式论文里得把几组硬数字补全：词表从多少降到多少，embedding/lm head 减了多少参数，韩语 MT 提升了多少分，instruction-following 在哪几个模型上掉了多少，时延测试跑在什么硬件上。没有这些，结论还停在“方向合理”。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

16:53

10d ago

arXiv · cs.AI· atomEN16:53 · 04·17

一个两阶段、以对象为中心的深度学习考试作弊检测框架

该论文提出两阶段考试作弊检测框架，用 YOLOv8n 定位学生，再用微调 RexNet-150 将裁剪区域分为正常或作弊，基于 10 个独立来源的 273,897 个样本训练。作者报告准确率 0.95、召回率 0.94、精确率 0.96、F1 为 0.95，较 0.82 基线提升 13%，平均单样本推理时间为 13.9 毫秒。真正值得盯的是机制很直白，但正文只有 RSS 摘要，数据划分、作弊类别定义和开源地址未披露。

#Vision#Benchmarking#Safety#YOLOv8n

精选理由

这篇论文的有效信息集中在 HKR-K：摘要给出 10 个来源、273,897 样本、两阶段管线、0.95 F1 和 13.9 毫秒推理。问题是题材偏垂直监控场景，正文又未披露数据划分、作弊类别定义和开源地址，行业讨论度与可复现价值都不够高，所以放在 all。

编辑点评

作者声称两阶段模型在273,897个样本上做到0.95 F1，但我不太买账：没给划分口径，这组分数先别当成可部署能力。

深度解读

论文作者用YOLOv8n加RexNet-150做考试作弊二分类，并报告273,897个样本上的0.95 F1。我的直接判断是：这更像一篇把成熟视觉组件拼成流程的工程稿，不是已经跨过落地门槛的监考系统。问题不在13.9毫秒，也不在两阶段设计够不够“轻”，问题在最决定结果含义的三件事，正文都没给：训练验证测试怎么切，10个来源是否跨域隔离，作弊到底怎么定义。我对这种分数一直很警惕。监考视觉任务最容易吃到的数据泄漏红利：同一考场、同一机位、同一批学生服装和桌椅纹理，只要同时进了训练集和测试集，模型就会学到环境偏置，不是学到“作弊动作”。你把学生先裁出来再分类，确实能减少背景噪声，但也可能把“低头角度”“手部遮挡”“身体侧转”这些弱代理变量放大。要是“正常”样本大多正坐，“作弊”样本大多回头或俯身，0.95 F1并不稀奇。标题给了分数，正文没披露混淆矩阵、类别占比、跨场景测试，这些缺口太大。外部参照也不站在作者这边。我记得2020年后那波AI proctoring系统，很多产品靠 gaze tracking、head pose、object detection 讲得很满，最后争议都集中在 false positive 和分布漂移：光照一变、摄像头角度一变、学生有身体障碍或特殊习惯，误报就会上去。去年不少教育机构已经从“自动判罚”退回“人工复核优先”，原因不是模型完全没用，而是监考任务的错判成本远高于普通安防。这里作者把“私下邮件通知学生”写成伦理处理，我觉得这说法有点过。私下发结果不等于伦理问题被解决，核心还是证据链、申诉机制、人工复核阈值，这篇摘要都没碰。还有一个地方我不太买账：它拿0.82 baseline做13%提升，但这个基线是“video-based cheating detection”，新方法是先检测再做静态裁剪分类，任务设定可能都没对齐。要是基线吃连续帧，新方法吃单帧，或者来源数据不同，这个13%几乎没法比较。学术里这种“比某基线高一截”的写法很常见，工程上参考价值有限。正文也没给开源地址，连复现门槛都没法判断。说真的，这条如果当成“给监考平台做风险提示模块”，我能理解；如果当成“稳健作弊检测”，我会踩刹车。这个方向真正难的不是把YOLOv8n和RexNet-150接起来，而是证明模型在跨学校、跨机位、跨文化动作习惯下还能稳，并把误报压到可以进入纪律流程的程度。标题已经给出速度和分数，正文没有给出最关键的泛化证据。没有这些，这更像一组漂亮指标，不是一个你愿意签字上线的系统。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

16:28

10d ago

FEATUREDarXiv · cs.CL· atomEN16:28 · 04·17

超越表面统计：基于内部表征的 LLM 鲁棒保形预测

论文提出一套面向 LLM 问答的保形预测框架，用层级信息分数作为非一致性分数，并接入标准 split conformal 流程。LI 分数衡量输入条件如何沿模型深度重塑预测熵；摘要称它在封闭式与开放域 QA 上优于强文本层基线，跨域分布偏移时收益最明显。真正值得盯的是分数取自内部表征，不再押注 token 概率、熵或 self-consistency；名义风险水平与具体增益幅度，正文未披露。

#Benchmarking#Safety#Research release#Benchmark

精选理由

HKR-K 成立：论文不再用 token 概率或 self-consistency 做置信度，而是用内部表征的 LI 分数走 split conformal。标题偏学术，正文未披露名义风险水平、增益幅度和复现条件，H 与 R 都不够，放在 all。

编辑点评

这篇论文把保形预测的打分器从输出层挪进了模型内部。方向我买账，但摘要没给风险水平、覆盖率和集合长度，结论还不能先吹太满。

深度解读

论文提出 LI 分数接入 split conformal，用内部表征替代 token 概率与熵。这个切口是对的，因为 LLM 置信度失灵，很多时候就坏在“表面统计太像答案质量代理”。我一直觉得，拿 next-token probability 给问答做不确定性估计，本来就有结构性缺陷。高概率常常只代表续写流畅，不代表事实正确。过去一年里，self-consistency、verbalized confidence、sequence entropy 这些办法都反复碰到同一个墙：分布一偏，校准就散。保形预测的好处，是在 exchangeability 条件下能给有限样本覆盖保证；坏处也很直接，非一致性分数一旦选错，集合会又大又钝，实用性马上掉下去。这篇论文的判断是，内部层表示比输出 token 更早暴露“模型有没有真的理解问题”。这个想法我基本认同。摘要里最有信息量的一句，是“跨域分布偏移时收益最明显”。这很像我们在很多表征工作里见过的模式：输出头最先过拟合任务格式，中间层保留的任务语义反而更稳。训练记忆里，前两年不少 selective prediction 和 hallucination detection 工作，已经在看 hidden states、logit lens、attention pattern，对抗的就是表层概率失真。这篇把那条线接到 conformal 上，算是顺手但不浅。要是结果站得住，它的价值不在 QA benchmark 多赢几点，而在于给“部署后校准失配”找到一个更稳的分数源。但我对摘要里的表述还是有两个保留。第一，名义风险水平没披露。是 0.1、0.05，还是更严的设置，差很多。保形方法的 paper 很容易在 coverage 看着漂亮时，把 prediction set 做得过宽。closed-ended QA 里，这表现为候选答案集变长；open-domain QA 里，可能表现为拒答增多，或接受区间过松。摘要只说 validity-efficiency trade-off 更好，却没给集合长度、平均保留率、拒答率，我没法判断这个“更好”是不是拿实用性换来的。第二，LI 分数要读内部层表示。这个代价不一定小。黑盒 API 模型怎么用，摘要没说；多层前向特征在大模型上怎么抽，延迟涨多少，也没说。要是只能在自托管模型上跑，它就更像研究结论，不是通用部署方案。还有一个我想看但摘要没给的点：基线到底有多强。现在“强文本层基线”这几个字太宽了。有没有和 semantic entropy、P(True)、self-eval、multi-sample consistency 这类近两年常用方法正面比？有没有在不同模型家族上测，还是只在单一架构上成立？如果 LI 依赖某类层深模式，那迁移到 MoE、检索增强模型、或者压缩过的蒸馏模型，未必一样稳。这个我不确定，正文没给。说真的，这条我看好方向，不急着认结果。把 conformal 的分数源从“输出像不像自信”改成“内部有没有完成条件化”，这比继续榨 token entropy 更像正路。可论文现在只给了摘要级信息。覆盖率、风险水平、集合效率、额外算力、黑盒可用性，这几个数出来前，我会把它当成一个很好的研究信号，而不是现成可落地的方法。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

论文 · 2026-04-17

更多

频道

后台