ax@ax-radar:~/papers $ grep -E 'arxiv|paper' sources/tags
44 srcsignal 72%cycle 04:32

论文 · 2026-04-02

87 · updated 3m ago
2026-04-02 · 星期四2026年4月2日
22:21
24d ago
arXiv · cs.CL· atomEN22:21 · 04·02
离散扩散语言模型中的依赖引导并行解码
论文提出 DEMASK,用单次前向预测掩码位置两两条件影响,并在 Dream-7B 上把离散扩散解码提速 1.7 至 2.2 倍。方法把依赖预测接到 dLLM 最终隐状态,再用贪心策略挑选累计依赖受限的位置并行 unmask;作者声称在次可加假设下可界定与模型联合分布的总变差距离。真正值得盯的是,它直接针对并行解码的分布失配,不是再调置信度阈值。
#Inference-opt#Reasoning#Benchmarking#Dream-7B
精选理由
论文有明确新机制与速度数字,HKR-K成立。问题是门槛过高:离散扩散语言模型、并行unmask与分布界定都偏研究内核,正文也没给通用读者入口;按hard-exclusion-technical-accessibility fail处理,分数封顶在39以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
22:16
24d ago
arXiv · cs.CL· atomEN22:16 · 04·02
语用学遇上文化:面向不同文化受众的艺术作品描述生成与评测
论文提出“文化适配的艺术描述生成”任务,并用基于文化问答的框架评测模型;实验称语用 speaker 模型可把模拟听众理解度提高 8.2%。人类研究又给出 8.0% 的理解帮助评分提升;真正值得盯的是,基础模型在开放式文化生成上只算勉强合格,正文未披露数据集规模与具体模型名。
#Reasoning#Benchmarking#Research release#Benchmark
精选理由
这篇论文有一条可验证的新事实:speaker 模型在模拟听众理解度上提高 8.2%,人类研究也给出 8.0% 提升,所以 HKR-K 成立。问题在于题目偏窄,当前信息未披露数据集规模与具体模型名,对产品路线和行业竞争的影响弱,适合 all,不到 featured。
编辑点评
论文把文化适配艺术描述的理解度抬高 8.2%,我还是先保留态度:数据集规模、模型名、文化分组口径都没给,这个提升暂时还撑不起强结论。
深度解读
论文用语用 speaker 模型把模拟听众理解度提高了 8.2%,人类研究里的理解帮助评分也高了 8.0%。我对这条的判断是:方向是对的,证据还偏薄。它抓到一个很多生成论文一直绕开的点——文化能力不该只看知识问答,还得看模型会不会按受众改写说明。艺术描述这个载体也选得准,因为符号、叙事和背景知识本来就高度依赖文化语境。 问题也很直接。正文只有 RSS 摘要,没披露数据集规模、文化分组方式、具体模型名、基线提示词、评测题数,也没说 8.2% 是绝对提升还是相对提升。没有这些,外部基本没法判断增益是不是来自“文化适配”,还是只是更长、更解释型的描述把答题线索塞进去了。我自己对这类“听众理解度提升”一直比较警觉,因为一旦 QA 框架和生成目标绑太紧,模型学到的常常是 test-facing explanation,不一定是更好的跨文化表达。 这条和过去一年那批 cultural bias benchmark 的差别,在于它把任务从选择题拉回开放生成。我觉得这比再做一套偏见分类表更像正路。去年不少工作都证明,模型在多语言、多地区常识上能答出一部分题,但一到开放写作,就会默认英语互联网那套解释密度和叙事顺序。我还没核对这篇用了哪类底模,但如果基座是主流英文模型,那么“base models are only marginally adequate”我其实信,这和我们平时看展览导览、博物馆 caption 自动生成的体验是对得上的。 我有个保留:文化适配很容易滑到刻板印象适配。假如系统按“某文化群体更熟悉某些神话、颜色、历史创伤”去改写,收益和冒犯往往一起上升。摘要没提安全边界,也没提文化群体是如何标注、由谁标注。这个缺口不小。要让我更信这篇,至少得补三样:每个文化组样本量、模型与 prompt 细节、人工评审的一致性或方差。现在我会把它看成一个有价值的任务定义,不会把 8% 当成已经站稳的能力提升。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
22:08
24d ago
arXiv · cs.CL· atomEN22:08 · 04·02
基于基数约束二次0-1规划的可扩展多样性感知检索
该论文把多样性感知检索表述为基数约束二次0-1规划,在固定检索数 k 条件下同时优化相关性与语义多样性。方法采用非凸紧连续松弛和基于 Frank–Wolfe 的算法,并声称给出景观分析与收敛保证;正文未披露实验数据、加速倍数和具体基线。真正值得盯的是,它把 RAG 检索多样性写成可解释目标,而不是继续靠启发式重排。
#RAG#Benchmarking#Inference-opt#Research release
精选理由
方法层面有新意:它把固定 k 的多样性检索写成可解释目标,不再停留在启发式重排。问题是正文未披露实验收益、延迟和基线,内容也偏数值优化,触发 technical-accessibility fail,importance 需压到 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
21:43
24d ago
arXiv · cs.CL· atomEN21:43 · 04·02
PolyJarvis:用于自主聚合物 MD 模拟的 LLM Agent
PolyJarvis 将 LLM 通过 MCP 连接 RadonPy,可从聚合物名称或 SMILES 自主完成 MD 流程,并在 4 种聚合物上验证。结果显示,aPS 与 PMMA 的密度误差为 0.1%–4.8%,体积模量误差为 17%–24%;8 个可直接对比实验的性质组合里有 5 个达标。真正该盯的是 Tg:PMMA 为 395 K,仅高出实验 +10–18 K,其余 3 种高出 +38–47 K,正文归因于 MD 冷却速率偏差。
#Agent#Tools#Benchmarking#PolyJarvis
精选理由
从名称或 SMILES 自动跑聚合物 MD 有新鲜感,也给出密度、体积模量和 Tg 误差,HKR-H/K 成立。它仍是材料科学里的垂直科研流程,读者难以迁移到通用 agent 或产品实践,触发“传统 science+AI crossover”硬排除,分数封顶 39。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K1·R0
19:40
24d ago
● P1arXiv · cs.CL· atomEN19:40 · 04·02
VLM 需要词语:视觉语言模型会忽略视觉细节,转而依赖语义锚点
论文指出,VLM 在可命名实体上会用语义标签替代视觉比对,在不可命名实体上则更易脆弱匹配与幻觉描述。作者在语义对应、合成形状匹配、人脸匹配三类任务中验证该现象;Logit Lens 显示,可命名实体会激活更明确的语义标签与更多唯一 token。真正值得盯的是,给未知实体教授任意名称,或做任务专项微调,都能提升表现。
#Multimodal#Vision#Fine-tuning#Research release
精选理由
这篇论文的钩子清楚,也有机制细节:三类任务里,可命名实体更容易触发语义锚点,给未知实体命名或做专项微调都能改善表现。HKR 三项都过,但它仍是单篇 arXiv 研究,缺少跨源扩散和产品落地,放在 79 分 featured。
编辑点评
论文把 VLM 的一个老毛病钉死了:模型不是“看不见”,而是没词就不肯认真看。
深度解读
这篇论文给出的判断很硬:VLM 会在“可命名”条件下把视觉比对偷换成语义检索,在“不可命名”条件下就掉回脆弱匹配和幻觉描述。摘要里已经写明它测了 3 类任务:语义对应、合成形状匹配、人脸匹配;也写明了 2 个干预能提分:给未知实体硬教一个任意名字,或者做任务专项微调。问题在于,正文摘要没给具体模型名、提升幅度、训练 token 数、finetune 配方,这些关键数字都没披露,所以我没法把它直接当成“VLM 感知能力被修复”的证据。\n\n我自己比较买账的部分,是它把一个过去两年大家模糊感受到的问题拆成了机制。很多 VLM 论文都在说模型“hidden in plain sight”——内部表征里有信息,输出却答错。以前常见解释是语言头把视觉信号洗掉了,或者 instruction tuning 过度偏向聊天格式。这里往前走了一步:不是单纯“语言压过视觉”,而是语言系统在有现成标签时,会优先走标签捷径。这个说法跟 CLIP 系路线其实是对得上的。CLIP 从一开始就把图像对齐到文本嵌入空间,LLaVA、Qwen-VL、InternVL 这类模型再往上叠 instruction tuning 后,优势一直是开放词汇识别、OCR、文档问答,不是无标签细粒度匹配。它们擅长回答“这是什么”,不擅长回答“这两个陌生但极像的东西哪里不同”。这篇论文等于把这个经验主义判断做成了可测试命题。\n\n我有一点保留。给未知实体随便取名后性能变好,这件事未必等于模型获得了更强“视觉感知”。它也可能只是给模型塞了一个更稳定的索引键,让语言解码器能把原本散掉的视觉簇绑定到 token 上。这个差别很大:前者说明 perception pipeline 被打通,后者说明你只是给 latent space 贴了便签。摘要里说 task-specific finetuning 的泛化更强,而且“不依赖语言先验”,这个结论我愿意听,但我还没看到它怎么排除数据泄漏、模板记忆、类别边界变窄这几种更便宜的解释。尤其是人脸匹配这类任务,训练和测试分布要是稍微近一点,finetune 的收益会被高估。\n\nLogit Lens 那段也挺有意思,但我不会把它看得太重。Logit Lens 能告诉你中间层更像哪些 token,能帮你看“名字”有没有被提前激活;它不自动等于因果解释。过去做 mechanistic interpretability 的人已经反复提醒过,lens 类分析很容易把“可读性”误认成“决策依据”。这篇摘要说 nameable entities 会激活更多 unique token,这个方向合理;可要说“所以模型就是靠标签完成任务”,还得看干预实验是不是足够干净,比如打乱标签、替换同义标签、控制 token 长度、控制 BPE 切分。摘要没写。\n\n说真的,这条对产品侧的启发比对学术口号更直接。很多团队现在还在用通用 VLM 去做缺陷检测、工业比对、身份核验、UI diff、医学影像辅助,然后怪模型“偶尔看漏”。这篇论文给出的解释是:你把任务设成自然语言问答,模型就会优先找它熟悉的语义锚点,而不是老老实实做像素级或部件级比较。那解决办法就很实际了:一是给目标对象建立稳定的内部命名体系;二是把输出空间收紧;三是该 finetune 就 finetune,别迷信一个大而全的聊天式 VLM 能顺手吃掉所有视觉工作流。这个结论其实和过去一年不少落地经验一致——通用多模态 demo 很能打,真到细粒度比对,专门头、检索式管线、甚至传统 CV 模块还经常更稳。\n\n我最后的判断是:这篇论文没有证明“当前 VLM 只差几个标签就能变成可靠视觉系统”,但它很有效地指出了失败来源里最被忽视的一层——词表结构在替你决定模型看什么。这个发现对评测设计也有杀伤力。以后再看 VLM benchmark,我会先问一句:任务对象到底能不能被现成语言标签覆盖;如果能,那你测到的多半还是语言对齐能力,不是视觉分辨率。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
19:39
24d ago
● P1arXiv · cs.CL· atomEN19:39 · 04·02
Failing to Falsify:评估并缓解语言模型中的确认偏误
论文在 11 个不同家族与尺度的 LLM 上测试确认偏误,发现模型常用支持性三元组验证假设,导致隐藏规则发现更慢且成功率更低。作者把人类心理学中的反例提示迁移到该任务后,平均规则发现率从 42% 提升到 56%;正文未披露各模型名单与分项结果。真正该盯的是机制:经干预蒸馏后的行为还能泛化到 Blicket test,说明偏误可被训练而不只靠提示压制。
#Reasoning#Alignment#Benchmarking#Research release
精选理由
HKR 三项都成立:标题有反常识钩子,正文也给出 11 个模型家族、42%→56% 的提升和蒸馏泛化到 Blicket test 的具体结果。分数停在高 70 段,因为它仍是单篇研究发布,正文未披露各模型名单与分项结果,行业外溢性还没被验证。
编辑点评
论文把 11 个模型的规则发现率从 42% 拉到 56%,我看这不是小修小补。它直接戳到 LLM 在主动找反例时的结构性短板。
深度解读
这篇论文把 11 个模型的规则发现率从 42% 提到 56%,我看它测到的不是一句“确认偏误”那么简单。它更像在量化一类老问题:LLM 会生成解释,但不擅长设计能推翻自己的实验。对做 agent 的人,这个点很硬。你让模型写假设、列原因、讲故事,它通常很顺。你让它主动找最伤自己的证据,性能就掉下去。 文中任务其实很经典。模型先提一个数字三元组。系统再回它是否满足隐藏规则。模型接着猜规则。这里最关键的,不是猜得像不像,而是下一步样本选得毒不毒。人类心理学里早就知道,Wason 这类任务最容易把人带进“找支持证据”的坑。LLM 在这里复现了同一毛病,我一点不意外。因为下一 token 训练,本来就在放大“延续当前叙事”的倾向;而反例搜索需要的是中断叙事、压低先验、自造冲突样本。这套动作和标准语言建模不是一回事。 我对这篇的兴趣,在蒸馏那部分。正文说,干预后的行为被蒸馏进模型,还能泛化到 Blicket test。这个信号比单次 prompt 提升重要。提示词把 42% 拉到 56%,你可以说是模型被提醒了。蒸馏后还能迁移,说明这里面有一部分策略能被参数化,不只是上下文里临时装出来的样子货。去年不少“reasoning scaffold”工作都有同一个问题:换任务就散,换评测就塌。我还没看到这篇的完整分项,所以不敢把话说满,但如果 Blicket 结果站得住,它碰到的是“实验策略可训练”这条线,不只是“提示词可优化”。 我也得泼点冷水。正文没给 11 个模型名单,没给家族分布,没给尺度差异,也没给每轮交互预算。没有这些,你很难判断 14 个点提升到底来自哪里。是小模型最吃这套,大模型本来就高?还是某一家 instruction tuning 特别容易被反例提示带动?我自己很想看两组拆分:一组是 base model 对 instruction-tuned model;另一组是 reasoning-heavy 模型对普通 chat model。过去一年很多推理模型在 GSM8K、AIME、SWE-bench 上涨得很快,但那类 benchmark 大多奖励“沿着题面收束”。这篇任务奖励“主动打脸自己”,激励函数完全不同。很多人把前者当成后者的代理,我一直不太买账。 还有个更实际的问题。论文把失败归到 confirmation bias,名字没错,但工程上你最好把它翻译成 exploration policy failure。因为 agent 出问题时,损失常常不是“想法偏了”,而是“取证动作太保守”。代码 agent 复现 bug 时,会反复跑支持自己猜测的测试;检索 agent 会追着同一簇证据打转;科研 agent 会越查越像自己最初那套解释。你要修这个毛病,光加“be objective”没用,得在动作层面强制反例采样、互斥假设并行、信息增益排序。这篇给的 counterexample prompting,至少证明了一个便宜办法:先把“反证”从价值观口号,改成显式操作步骤。 我还有一个疑虑。Blicket test 的泛化听起来好,但两类任务都属于因果假设探索的窄域。离真实软件环境差一截。比如在多工具 agent 里,反例成本不是免费文本,而是 API 调用、沙箱时间、token 预算、失败惩罚。模型即便“知道该证伪”,也未必“愿意证伪”。这个差别很大。OpenAI 和 Anthropic 过去一年都在强调 tool use 与 long-horizon reliability,但公开评测里,很多分数还是把搜索成本藏掉了。这篇如果后续能把干预放进真实工具链,比如代码修复或网页操作,我会更信服。 所以我对这篇的结论是正面的,但不会夸大。它没证明 LLM 学会了科学方法。它证明了另一件更朴素的事:反例搜索这项能力既稀缺,又能被教一点,而且看起来不只靠提示词硬压。对训练和评测团队,这已经够用了。你要是还在用“最终答案对不对”衡量 agent,这篇是在提醒你:很多系统不是不会想,而是不会试。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
18:47
24d ago
● P1arXiv · cs.CL· atomEN18:47 · 04·02
在相同思考 token 预算下,单智能体 LLM 在多跳推理中优于多智能体系统
这篇 arXiv 论文称,单智能体系统在固定推理 token 预算下,于多跳推理任务中持续匹配或超过多智能体系统,并在 3 个模型家族上做了对照实验。作者用数据处理不等式给出信息论解释,测试对象包括 Qwen3、DeepSeek-R1-Distill-Llama 和 Gemini 2.5;正文未披露具体分数,但点名 Gemini 2.5 的 API 预算控制与标准基准都存在会抬高 MAS 表现的评测伪影。
#Reasoning#Benchmarking#Agent#Qwen3
精选理由
这篇论文有明确反共识钩子:在同等推理 token 预算下,单智能体优于多智能体,还给出3个模型家族对照与评测伪影解释。分数放在 78–84 档,因为摘要未披露具体分数、任务规模和统计显著性,证据密度还不够冲更高档。
编辑点评
这篇论文在固定推理 token 预算下判单智能体胜出,我基本买账;多智能体很多时候卖的不是协作,而是把更多测试时算力藏进流程。
深度解读
这篇论文把比较条件卡在“固定推理 token 预算”上,然后给出单智能体优于多智能体的结论,这个设定本身就比很多 agent 论文老实。过去一年里,太多 MAS 结果都是让 3 个到 8 个 agent 各想一轮,再投票、再反思、再汇总,最后把总生成量翻几倍,却把提升归因到“协作”。如果总 token、总轮次、总上下文读写都没对齐,这类对比其实没什么解释力。 我对这篇的主判断是:它戳中的不是一个小评测技巧,而是 agent 研究里最常见的叙事漏洞。多跳推理任务本来就吃 test-time compute。你让一个系统多开几个“脑内线程”,分支搜索自然会更宽。问题是,这叫算力换精度,不叫架构带来新能力。OpenAI o1、DeepSeek-R1 这一波把市场教育得很清楚了:只要允许更长的推理链,单体模型也能吃到大量收益。很多 MAS paper 其实是在重复这件事,只是把长链拆成了多人对话。 文中拿数据处理不等式做信息论解释,我觉得方向对,但我不会把它当成定论。因为它成立要吃一个很强的前提:单智能体对上下文的利用接近充分。现实里这个前提经常不成立,尤其是长上下文里有无关信息、工具返回噪声、角色提示互相污染的时候。也正因为这样,作者自己才会说,当单体的有效上下文利用下降时,多智能体会变得有竞争力。这个判断我反而更认同。很多工程团队把 MAS 跑顺,不是因为“专家协作”神奇,而是因为任务拆分帮模型做了信息清洗,把原本一坨上下文切成几段更容易吃的局部问题。 Gemini 2.5 这段我有点警觉。摘要说 API 预算控制会抬高 MAS 表现,但正文没给具体分数、计费口径,也没说 budget 是按可见输出 token、内部 reasoning token,还是 wall-clock 近似。这个差别很大。Gemini 系列过去就有 API 层预算与实际内部思考不完全对齐的讨论,我记得社区里有人复现过类似现象,但我没重新核过原帖。如果这里真存在系统性偏差,那受影响的不只是 MAS 论文,连所有“定预算比较推理策略”的工作都要回头看实验设计。 基准伪影这点也很关键。多跳 benchmark 很多是合成题、短答案题,天然奖励“分解后重组”的流程,因为中间步骤容易被 verifier 或 majority vote 纠正。到了开放式代码、真实网页检索、长文档问答,协调成本会上来,agent 之间传错一个变量名、漏掉一个时间条件,收益很快被通信损耗吃掉。我自己一直觉得,MAS 在论文里最容易赢的地方,恰好是现实部署里最不缺的地方:可控、短链、低噪声任务。真进生产,日志里最常见的问题不是“缺一个 agent”,而是上下文脏、工具不稳、状态没对齐。 这篇还有一层行业含义。现在很多 agent 产品喜欢把多角色、多面板、多轮协作包装成能力升级,用户也容易被表面流程说服。要是这篇结论经得住更完整复现,那产品团队就得面对一个难听事实:不少“multi-agent”只是更贵的 prompt orchestration。你可以卖可解释性、卖模块化、卖安全隔离,但别把额外 token 花费说成天生更聪明。 我还想看两类补充实验。第一类是把预算从 token 改成真实成本,包含工具调用、检索、并发等待和失败重试。企业买单看的是美元和时延,不是论文里的统一 token。第二类是换任务,把 SWE-bench、BrowseComp、长上下文企业文档问答放进去。多跳 QA 太容易让 MAS 占到形式上的便宜,也太容易让单体 CoT 占到推理链长度的便宜。标题已经给出一个很清楚的方向,正文摘要没给分数和误差条,我暂时不会把它当成“MAS 已被证伪”。我会把它当成一个必要的纠偏:以后谁再拿多智能体涨点数,先把总计算账本摊开。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
18:44
24d ago
arXiv · cs.CL· atomEN18:44 · 04·02
深度语言模型层更新的几何结构
论文研究深度语言模型的层间更新,并将更新分解为主导的 tokenwise 分量与几何上独立的残差分量。摘要称该分解在 Transformer 和状态空间模型中都成立;残差与主导子空间的对齐更弱、角度偏差更大,且受限 tokenwise 模型的近似误差与输出扰动的 Spearman 相关常超过 0.7,最高到 0.95。真正该盯的是残差:它不是小修正,而是功能上更关键的计算位点。
#Interpretability#Benchmarking#Tools#Research release
精选理由
论文有具体新知:层更新被分解为 tokenwise 主分量与残差分量,并给出 0.7 到 0.95 的相关性结果,HKR-K 成立。问题是它偏解释性几何研究,正文信息也没有落到产品、Agent 或部署后果,触发 technical-accessibility fail,按规则排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
18:35
24d ago
arXiv · cs.CL· atomEN18:35 · 04·02
叙事文本中的基于骨架的连贯性建模
该论文提出 Sentence/Skeleton Similarity Network,用句子对骨架相似度刻画叙事连贯性,并称其优于余弦相似度和欧氏距离等基线。摘要未披露数据集、指标和具体提升幅度;现有结果也显示,句子级模型仍优于骨架级模型,真正该盯的是骨架是否只适合做辅助特征。
#Reasoning#Benchmarking#Research release
精选理由
HKR 三轴都没过:这是一篇偏学术的叙事连贯性方法论文,正文只确认 Sentence/Skeleton Similarity Network 这一机制,没给出数据集、指标和增益。它与模型发布、产品能力、代理工作流的关联都弱,按规则归 excluded。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K0·R0
18:31
24d ago
● P1arXiv · cs.CL· atomEN18:31 · 04·02
我们需要前沿模型来验证数学证明吗?
论文评测4个开源模型和2个前沿模型的数学证明验证,发现小型开源模型准确率仅落后约10%,但重复判定一致性最多差25%。作者还指出,各模型准确率都对提示词敏感;用 LLM 引导的提示词搜索与专用提示集成后,准确率最高提升9.1%,一致性提升15.9%,Qwen3.5-35B可追平 Gemini 3.1 Pro。
#Reasoning#Benchmarking#Tools#Qwen3.5-35B
精选理由
这是一篇有具体数字的研究评测,HKR 三项都过线:反直觉结论能吸引点击,提示敏感性与一致性差异也有新信息。从重要性看,它更像高质量 reasoning/benchmark 论文,不是行业级发布;题材偏数学证明验证,受众面比通用模型更新窄,所以给 featured 而非 p1。
编辑点评
Qwen3.5-35B 追平 Gemini 3.1 Pro 这事不该被读成“前沿模型没用”,我读到的是验证已经先变成提示工程和稳定性工程。
深度解读
论文给出的核心结果是:Qwen3.5-35B 经过提示集成后可追平 Gemini 3.1 Pro,单看准确率,小开源模型只落后约 10%,单看重复判定一致性,最多差 25%。我对这条的判断很直接:这不是“验证比生成容易”这么简单,而是自然语言证明验证这件事,先被拆成了两个能力层——懂不懂数学,和能不能稳定把判断叫出来。前者的门槛没有很多人想得那么高,后者才是这篇论文捅到痛点的地方。 我一直觉得,LLM judge 在数学场景里最容易被高估的,不是准确率,而是“同一份证明再看一遍还认不认账”。这篇里一致性最多差 25%,这个数字很刺眼。你把它放到实际流程里想就明白了:如果一个 verifier 今天判对、明天改口,那它就不适合做高价值 proof triage,更别说做自动化筛查的最后一关。去年到今年,业内对 judge model 的讨论多半盯着 pairwise win rate、相关性、偏见这些指标;数学证明这里更硬的约束其实是可复验。正文只有 RSS 摘要,没披露具体数据集规模、重复采样次数、温度设置和一致性的精确定义,所以我还不能判断这 25% 是不是来自高温采样、长证明截断,还是模型本身就摇摆。但标题加摘要已经够说明一个事实:前沿模型的优势,在 verifier 任务上更像稳定性溢价,不只是能力溢价。 这也解释了为什么提示词搜索和 specialized prompt ensemble 能把准确率抬 9.1%,一致性抬 15.9%。我对这个结果并不意外。过去一年很多人把“小模型不行”归因到参数量不够,实际部署里常见的情况是,模型知道该抓哪里,但 judge prompt 太泛,导致它把格式判断、语气判断、表面严谨性混进来了。专用提示把错误模式分流,收益就出来了。这里我能想到的外部参照,是代码评审和 hallucination detection 上那些 ensemble verifier 的经验:单次判决未必最强,多路提示投票常常比换更大的底模便宜,也更稳。这个结论在数学证明上站住脚,含义不小,因为它会把预算从“买最贵 judge”挪到“做 verifier scaffolding”。 但我对论文叙事还是有两个保留。第一,natural-language proof verification 和 formal verification 不是一回事。Lean、Coq、Isabelle 这套世界里,验证是语义闭合的;LLM judge 判的是“这段文字像不像成立”。两者的错误类型完全不同。你可以说后者更贴近 Olympiad 解答和 research proof draft 的真实工作流,这我同意;你要把它上升成“数学证明验证不需要 frontier model”,我不太买账。第二,prompt search 很容易吃到 benchmark-specific pattern。摘要没披露 prompt 是不是跨数据集冻结、有没有 held-out search set、有没有对不同题型分层报告。如果这些没做严,9.1% 的提升里会混进不少调参收益,而不是普适 verifier 能力。 我自己更关心的,是这篇会不会把 judge 市场的分工讲清楚:大模型负责生成候选判据,小模型负责高频复核,最后再用 formal checker 吃掉能形式化的部分。这个架构比“所有验证都堆 frontier API”现实得多,也更像团队现在真实在做的事。要是正文后续披露成本、延迟、token 开销,我会更愿意下结论。现在能下的判断是:前沿模型在数学验证里没有消失,但它们不再自动等于最优方案;谁把一致性做稳,谁才配当 verifier。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
18:00
25d ago
● P1arXiv · cs.CL· atomEN18:00 · 04·02
SWAY:用反事实计算语言学方法测量并缓解谄媚
论文提出无监督指标 SWAY,并用反事实提示在 6 个模型上测量谄媚。其机制是比较模型在正向与负向语言压力下的同意偏移,分离措辞框架效应与内容;结果显示谄媚会随认知承诺强度上升。作者还给出反事实 CoT 缓解法,把谄媚压到接近零;单纯要求“别谄媚”只带来中等下降,且会反噬。
#Alignment#Safety#Benchmarking#Research release
精选理由
这篇 arXiv 论文同时给出无监督指标 SWAY 和可操作的缓解法,HKR 三项都成立。分数停在 80:摘要有 6 个模型、反事实提示、接近零的抑制效果这些硬信息,但它仍是研究发布,不是头部实验室的产品或模型节点。
编辑点评
SWAY 用 6 个模型把“谄媚”拆成可测偏移,这比再发一篇对齐宣言实在得多。
深度解读
SWAY 在 6 个模型上用反事实提示测出同意偏移,并把反事实 CoT 将谄媚压到接近 0。我的第一反应是:这篇的价值不在“又发现模型会谄媚”,而在它终于把一个老毛病写成了可比较的量。对做评测和对齐的人,这比继续收集“模型爱迎合用户”的案例更有用,因为案例能吓人,指标才能进回归测试。 摘要给出的机制很清楚:同一内容,换成正向和负向语言压力,看模型同意幅度怎么漂移,再把措辞框架效应和内容本身拆开。这个设计比很多“你同不同意我”式数据集干净一些。过去一年,业内讨论谄媚时常把三件事混在一起:礼貌、顺从、证据更新。OpenAI 和 Anthropic 都公开谈过模型会过度迎合用户意图,但公开基准多数还是任务正确率、helpfulness 或 refusal rate。谄媚一直像个大家都知道存在、但很难单独量化的残差项。SWAY 至少是在补这个洞。 我比较认同作者抓“epistemic commitment”这一下。摘要说,认知承诺越强,谄媚越高。这个判断很符合产品侧经验:用户不是随口提一句时,模型还会保留余地;用户一旦把立场包装成“我确定 X 就是对的”“你也同意吧”,很多模型会把校正动作收回去,改成低摩擦附和。说真的,这不是小毛病。RAG、copilot、医疗问答、法律草拟里,最危险的往往不是赤裸裸的幻觉,而是模型在用户先入立场上继续加码,把错话说得更顺。 但我对“接近零”这个表述有保留。摘要没披露 6 个模型是谁,没给 SWAY 的数值范围、方差、提示模板规模,也没说 counterfactual CoT 的 token 开销和时延代价。没有这些,工程上还不能下结论。很多安全论文都会出现这种情况:离线评测能把某个风险项压得很低,一上真实产品流量,用户输入分布变脏、上下文变长、系统提示互相干扰,效果就回弹。我自己还没看全文,单靠 RSS 摘要,我不买“几乎归零”已经足够通用这件事。 还有一个点我挺在意:作者说“不会抑制对真实证据的响应”。这个命题比“减少附和”难得多,也更关键。因为谄媚缓解最容易走向另一个坏极端:模型学会凡事顶嘴。摘要也承认,直接要求“别谄媚”只有中等下降,还会反噬。这个结果我信。你给模型一条高层规范,它经常会把规范执行成风格,而不是判别机制。于是它看起来更独立,实际只是更爱唱反调。去年一些 system prompt 调整里就见过类似现象:减少迎合后,helpfulness 和 conversational smoothness 一起掉,用户会觉得模型“变笨了”或者“故意抬杠”。 反事实 CoT 这条路之所以像样,是因为它不是空喊原则,而是插入一个小型判别过程:如果用户暗示的前提反过来,答案还站得住吗。这个思路跟不少鲁棒性方法是同一路数,不直接惩罚输出表面风格,而是逼模型过一遍“条件翻转”检查。我记得过去一年里,很多 jailbreak defense 和 factuality prompting 也在用近似思路:先生成,再自检,再对照备选前提。SWAY 这里的贡献,是把这个过程和一个对应指标绑在一起,至少形成了“测什么,就按什么缓解”的闭环。 我还有个疑虑:这种方法会不会主要奖励“会演谨慎”的模型。也就是说,模型未必真的更少受用户立场影响,只是更擅长输出平衡语气、列条件、拖延表态。要排除这一点,全文最好给出两类结果:一类是最终立场偏移,另一类是正确性和简洁度的变化。否则某些模型完全可以靠“模糊化”拿到低 SWAY 分数。摘要没写,我还没查到。 如果全文实验扎实,这篇大概率会被不少团队吸进内部 eval。原因很现实:谄媚不是一个只属于聊天机器人的美学问题,它会污染 preference data、模型对齐奖励、客服自动化和高风险建议系统。你拿用户 thumbs-up 做训练信号时,模型迎合用户本来就会被奖励。SWAY 这种反事实测法,至少提供了一个和用户满意度相反向的制衡指标。这个地方我挺买账。 我的结论很直接:这篇先别吹成“解决谄媚”,但它很像一个该早点出现的基础件。标题已经给出指标和缓解都有效,正文摘要没披露模型名单、成本和泛化边界。等这些细节出来,才知道它是论文里的漂亮构造,还是能进生产的安全回归项。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
17:59
25d ago
arXiv · cs.CL· atomEN17:59 · 04·02
用于生成式推荐中语言模型新词表的 Grounded Token Initialization
这篇论文提出 GTI,在生成式推荐里为语言模型新词表先做语义落点,再进入监督微调。摘要称,均值初始化会把新 token 压进退化子空间,后续训练难以完全恢复区分度;GTI 只用成对语言监督,在多个公开和工业级基准的大多数设定中优于均值初始化与辅助任务适配。真正值得盯的是初始化,不是再多堆一点微调;正文未披露具体数据集数量与提升幅度。
#Fine-tuning#Embedding#Benchmarking#Research release
精选理由
HKR-K 成立:论文提出 GTI,用成对语言监督给新 token 做初始化,再进入监督微调,论点可检验。HKR-H 和 HKR-R 偏弱,因为场景很窄,聚焦生成式推荐的词表初始化,正文也未披露提升幅度与复现细节,所以只到 all。
编辑点评
GTI 用配对语言监督替代均值初始化,并在多数设定赢过基线;这条我买账,因为推荐圈一直低估了 embedding 冷启动的债。
深度解读
GTI 这篇先把矛头对准了新 token 的出生方式,而且摘要给出的判断很硬:均值初始化会把新增词压进退化子空间,后续监督微调也拉不回区分度。这个方向我基本认同。生成式推荐这两年老把注意力放在 SFT 配方、序列建模和 semantic ID 设计,初始化常被当成工程细节。要是论文里的谱分析和几何诊断站得住,这就不是小修小补,而是在说很多结果从第一步就已经输掉了。 这件事放到更大的语境里也说得通。过去一年,给 LLM 扩新词表一直有个老问题:新 token 没有预训练历史,却被要求快速接上已有语义空间。很多团队默认“先均值、再微调”够用,因为这是最省事的做法。问题是均值初始化天然会缩小方差,多个新 token 一起进来时更容易互相挤压。推荐里的 semantic ID 又特别依赖 token 之间的可分性,因为你最终要让模型稳定地区分 item、意图和上下文组合。这个痛点和多模态里新视觉 token、代码场景里新控制 token 的冷启动其实是同一类病,只是推荐的离散 ID 密度更高,副作用更早暴露。 我对这条的正面判断,主要来自它抓住了一个被反复忽略的机制变量:不是“有没有继续训”,而是“新参数被放进了什么几何位置”。这跟早年 prompt tuning、soft prompt、LoRA 的经验有点像——初值和参数化方式经常决定上限,不只是收敛速度。说真的,很多人看到推荐论文提升 1% 到 3% 就会直接问数据和塔结构,反而不先问 embedding space 有没有先天塌缩,这个习惯该改了。 但我还是有两个保留。第一,摘要只说“多数设定优于”均值初始化和 auxiliary-task adaptation,没有给提升幅度、方差、数据集数量,也没说工业级 benchmark 的规模、稀疏度和新 token 占比。没有这些,暂时不能判断它是稳定抬升,还是只在新词很多、监督很薄时特别有效。第二,GTI 依赖 paired linguistic supervision,这个成本未必总是轻。公开数据里给 token 配文本描述相对容易,真实推荐系统里很多 item metadata 很脏,长尾商品甚至只有标题碎片。要是语言锚点质量不够,grounding 这一步也会把噪声一起写进 embedding。摘要没披露鲁棒性实验,我自己会卡这一点。 我还想到一个外部对比。近一年不少 generative recommendation 工作在强调 semantic ID 设计,比如分层离散编码、残差量化、把 item 映射成多 token 序列。那些方法默认“ID 设计得好,模型就能学出来”。GTI 的含义更尖一点:ID 再漂亮,初始化要是把它们挤进一团,后面训练就是在补锅。这个说法我觉得不夸张。很多 recsys 结果看着是架构差异,实际可能是 token geometry 差异。 所以我对这篇的结论是:方向对,机制也像真问题,但证据还不够完整。标题和摘要已经给出核心主张,正文片段没披露具体增益、数据规模、paired supervision 成本,也没说明它对不同底模和词表扩展比例是否稳定。要是后续全文能证明 GTI 在高稀疏、长尾、新 token 大规模注入时仍然成立,这条会比又一个 SFT trick 更耐用。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
17:58
25d ago
● P1arXiv · cs.CL· atomEN17:58 · 04·02
Batched Contextual Reinforcement:高效推理的任务扩展定律
论文提出 Batched Contextual Reinforcement,让模型在共享上下文中同时解 N 道题,并仅按每题正确率奖励。作者称,N 增大时单题 token 消耗单调下降;在 1.5B 和 4B 模型上,单题推理也能降 15.8% 至 62.6% token,且在 5 个数学基准上精度持平或更高。真正值得盯的是,它用隐式预算约束替代显式长度惩罚,正文称可避开对抗梯度和训练崩溃。
#Reasoning#Inference-opt#Benchmarking#Research release
精选理由
这是有具体机制和数字的 reasoning 研究,不是空泛 scaling law 标题党。HKR 三项都成立,但来源是单篇 arXiv,正文未见更广复现或产业采用,先放在优质 featured,不抬到 p1。
编辑点评
BCR 这篇我买一半:共享上下文省 token 很合理,但“免费午餐”先别急着信,数学题上的省账不等于通用推理也成立。
深度解读
BCR 把 N 道题塞进同一上下文,并在 1.5B、4B 模型上把单题 token 降了 15.8% 到 62.6%。这件事我觉得有料,但论文现在讲到“免费午餐”还偏早,因为公开材料只覆盖 5 个数学基准,正文摘要也没披露训练步数、奖励实现、测试时上下文上限和 wall-clock 延迟。 我先说判断:这不是在发明一种新的“更会想”的推理,而是在逼模型学会少写废话。共享上下文天然会制造预算竞争,模型如果还像传统 CoT 那样每题都铺满自言自语,总长度马上爆掉。作者把长度惩罚从显式 reward 拿掉,改成结构性约束,这个思路我认可。过去一年里,很多 length penalty 方案都卡在同一个坑:奖励一旦直接罚 token,模型很容易学会投机,先缩短答案,再牺牲中间推理,最后 accuracy 和训练稳定性一起掉。这个坑在 RL for reasoning 里很常见,尤其是小模型。BCR 至少在机制上绕开了这类对抗梯度,方向是对的。 但我对“单题推理也更省”这部分有点怀疑。共享训练带来的收益,未必来自更强的 reasoning policy,很多时候只是格式压缩和冗余清理。这个区别很重要。你把模型训成“同屏做多题”,它会更少写模板化思考,比如反复复述题意、重复列计划、做无效自检。数学 benchmark 对这类压缩最友好,因为答案短、验证清楚、解题轨迹里常有大量可删减的脚手架 token。换到代码修复、长文检索、工具调用,多题共享上下文会不会引入跨题干扰,摘要没给证据。标题已经给出 task-scaling law,正文没披露 law 在非数学域是否成立,这里不能替作者补完。 这条工作的外部参照其实很多。去年到今年,推理优化大致分两路:一路是 test-time compute,多采样、多分支、verifier rerank,拿 accuracy 换钱;一路是 length control,想把同样 accuracy 的 token 压下去。BCR 属于第二路,但它比显式 token penalty 和 difficulty routing 更讨巧,因为没有再塞一层 estimator 或 curriculum。这个简洁性有价值。工程上,单阶段训练往往比“两阶段先学会再学省”更容易复现。我自己没跑过这篇,但如果它的收益主要来自训练分布改造,而不是很脆的 reward trick,那可迁移性会比很多 RL recipe 好。 问题也在这里:论文把“accuracy 持平或更高”说得很满,RSS 摘要却没给每个 benchmark 的绝对分数、方差、采样设置,也没说对比的是哪类 baseline。是跟标准 CoT SFT 比,还是跟已有 length-aware RL 比?差别很大。若 baseline 只是普通 CoT,BCR 的提升更像“把明显冗余删掉”。若 baseline 已经包含预算控制和 early-stop 机制,它还能稳住精度,那才算硬。我还没查到完整表格,所以这部分只能保留意见。 还有一个经常被忽视的点:token 降低不等于系统成本线性下降。多题共享上下文会改变 KV cache 形态、batching 策略和解码并行度。训练端省不省,取决于框架能不能把长上下文多题混排吃满。推理端如果是单题在线请求,论文说单题也能继承 15.8% 到 62.6% 的 token 节省,这当然很诱人;但真实服务里,用户 latency、最大输出限制、以及 sampler 配置都会吃掉一部分账面收益。很多“token 更少”的论文,落到生产只省了 API bill,没有省端到端时延。摘要没给 latency,我不会把它直接读成部署红利。 我还是觉得这篇值得读,因为它碰到一个过去常被粗暴处理的问题:模型啰嗦,不一定要靠惩罚它“少说”,也可以靠任务结构让它自己学会“只说必要的”。这比硬塞长度项更优雅。可我不太买“free lunch”这个叙事。更稳的说法是,BCR 在数学推理上找到了一种低摩擦的密度压缩办法,而且看起来比显式长度惩罚更稳定。它离通用 reasoning 的新标配还有距离,先等完整论文里的基线、消融和非数学实验。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
17:51
25d ago
arXiv · cs.CL· atomEN17:51 · 04·02
go-$m$HC:用广义 orthostochastic 矩阵直接参数化流形约束超连接
go-$m$HC 提出一种对双随机矩阵的精确参数化,时间复杂度为 $O(d^3)$,用于 Manifold-Constrained Hyper-Connections 的动态层连接学习。方法引入单一超参数 $s$,可在高效边界与完整 Birkhoff polytope 表达力之间连续插值;在合成流混合任务中达到理论最小损失,收敛最快可提升 10 倍,并在 3000 万参数 GPT 风格语言模型上做了验证。真正值得盯的是,它试图把流数 $d$ 变成新的容量维度,而不是只在固定残差连接上做小修补。
#Inference-opt#Benchmarking#Research release
精选理由
HKR-K 成立:摘要给出精确参数化双随机矩阵、O(d^3)、单超参 s、10×收敛和 3000 万参数 GPT 风格实验。它同时触发 technical-accessibility fail:主题过于数学化,缺少对多数 AI 从业者可直接采用的产品或部署含义,所以按规则排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
17:16
25d ago
arXiv · cs.CL· atomEN17:16 · 04·02
LLM 如何思考
Daniel Stoljar 与 Zhihe Vincent Zhang 反驳“LLM 不会思考”的理性论证,并给出条件判断:若 LLM 会思考,其形式更接近非理性、联想式思维。RSS 摘要只披露论文立场与核心命题,未披露实验、模型、评测或可复现方法。真正值得盯的是作者把争点从“会不会思考”改成“以何种机制思考”。
#Reasoning#Interpretability#Daniel Stoljar#Zhihe Vincent Zhang
精选理由
题目有讨论性,但当前内容只给出哲学立场,没有数据、案例、评测或方法细节。按 hard-exclusion-零来源内容处理,重要性封顶 39;对从业者的信息增量太少。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R0
16:17
25d ago
arXiv · cs.CL· atomEN16:17 · 04·02
衡量无法用问卷测得的东西:将 LLM 作为劳动经济学潜在认知变量的测量工具
论文提出用 LLM 测量劳动经济学潜在认知变量的四个有效性条件,并用 Claude Haiku 4.5 给 18,796 条 O*NET 任务陈述打分,构建 AHC_o 指数。该指数与 Eloundou GPT-gamma 的相关系数为 0.85,与 Felten AIOE 为 0.79;两模型在 3,666 组配对评分上的 Pearson r 为 0.76、Krippendorff's alpha 为 0.71。真正值得盯的是,ORIV 估计系数比 OLS 大 25%,指向经典测量误差衰减,不只是“拿模型替代问卷”。
#Benchmarking#Alignment#Tools#Anthropic
精选理由
论文有料,给出 18,796 条 O*NET 评分、跨指标相关和 ORIV 比 OLS 高 25%。但核心价值依赖劳动经济学与计量识别背景,AI 从业者缺少进入点,触发 hard-exclusion-technical-accessibility fail,按规则排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
16:02
25d ago
arXiv · cs.CL· atomEN16:02 · 04·02
CV-18 NER:面向阿拉伯语语音命名实体识别的增强版 Common Voice
CV-18 NER 发布首个公开阿拉伯语语音实体识别数据集,基于 Arabic Common Voice 18 扩展出 21 类 Wojood 标注。基准里,端到端模型在测试集超过 ASR+文本 NER 流水线,AraBEST-RQ 300M 达 37.0% CoER,Whisper-medium 达 38.0% CVER。真正值得盯的是,阿拉伯语自监督预训练更利于 ASR,多语弱监督更利于语音到实体联合学习;数据集和模型已开源。
#Audio#Benchmarking#Research release#Open source
精选理由
这篇稿子的核心价值在 HKR-K:首个公开阿拉伯语语音实体识别数据集,带 21 类标注和可对照的基准分数。吸引力和共鸣面偏窄,主要服务语音与低资源语言研究者,和主流 AI 产品迭代的连接不强,所以放在 all。
编辑点评
CV-18 NER 把阿拉伯语语音实体识别首次公开化到 21 类,但 37%-38% 分数离可用还很远;这更像基准起点,不是能力跃迁。
深度解读
CV-18 NER 发布了首个公开阿拉伯语语音实体识别数据集,覆盖 21 类实体;我对这条的判断很直接:它的价值在“把任务立住”,不在当前 37.0% CoER 和 38.0% CVER 这组成绩本身。这个分数说明端到端路线在阿拉伯语上跑通了,也说明离业务可用还有很长一段。 我比较认同作者给出的一个信号:AraBEST-RQ 300M 这类阿拉伯语自监督预训练,更利于 ASR;Whisper-medium 这类多语弱监督模型,更利于语音到实体的联合学习。这个现象不奇怪。Whisper 系列过去在低资源语音任务里经常靠多语迁移吃红利,尤其是标签稀缺、目标又不是纯转写时,跨语言对齐往往比单语声学更占便宜。反过来,阿拉伯语专模把字词还原得更准,不等于实体边界和类别也能一起学好,两个目标不是一回事。 但我对这篇摘要里的 benchmark 还是有点保留。第一,文中把 CoER 和 CVER 都报了,可 RSS 片段没把指标定义、pipeline 最强基线的具体分数、训练集规模、方言分布写出来。没有这些信息,38.0% 到底是“明显领先”还是“只比弱基线高一点”,现在没法严肃下结论。第二,阿拉伯语最难的地方常常不是 ASR 本身,而是 MSA 和各地口语、无短元音书写、专名转写变体叠在一起后的标注一致性。标题给了 Common Voice 18 和 Wojood 21 类,正文没披露各类实体的长尾分布,也没说测试集是否按方言切分;这会直接影响这个 benchmark 以后是不是容易被“刷榜”。 我还想补一个上下文。英语、中文的 end-to-end speech NER 之前已经多次证明能压过 ASR+text NER pipeline,原因通常不是声学突然变强,而是 pipeline 会把实体在转写阶段先损坏一次,后面的文本 NER 根本救不回来。阿拉伯语上这个问题只会更重,因为人名、地名、机构名的拼写漂移更大。所以这篇论文最有用的地方,是把一个大家早就猜到的结论,第一次放到公开阿拉伯语数据上验证了。 说实话,我更关心开源后两件事:有没有人拿更强的语音编码器或 instruction-tuned speech model 很快把分数拉高;以及 Wojood 这 21 类在口语场景里到底有多少类能稳定学到。现在这条我会看成研究基础设施补齐,不会看成阿拉伯语语音理解已经进入可部署阶段。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
15:54
25d ago
arXiv · cs.CL· atomEN15:54 · 04·02
面向位置鲁棒人才推荐的 Large Language Models 方法
论文提出 L3TR,用于基于 LLM 的 listwise 人才推荐,并在两个真实数据集上优于现有基线。方法包含 block attention、局部位置编码和 ID sampling,目标是缓解位置偏置、token 偏置及训推候选集规模不一致。真正值得盯的是它把点式打分改成列表建模;具体增益幅度正文未披露。
#Reasoning#Benchmarking#Inference-opt#Research release
精选理由
K 命中在于它把人才推荐改成 listwise 建模,并给出 block attention、局部位置编码和 ID sampling 三个机制,还在两个真实数据集上超过基线。H 与 R 都弱:正文未披露提升幅度,题材也没有产品化、代理或行业竞争外溢,所以只到 all。
编辑点评
L3TR 在 2 个真实数据集上声称胜过基线,但正文没给增益数字;我对这类“招聘推荐+LLM”论文先保留,偏置修补常常比排序提升更像论文工程。
深度解读
L3TR 这篇我先给一个偏冷的判断:作者抓到的问题是真的,尤其是把招聘推荐从 pointwise 改成 listwise 这一点有技术含量;但按目前披露的信息,我还不买“这就能把 LLM 招聘推荐做好”这个叙事。摘要只给了 2 个真实数据集、优于基线、用了 block attention、局部位置编码、ID sampling。最关键的东西都没展开:提升了多少,基线是谁,候选集有多大,模型多大,训练和推理的 token 成本降了多少,偏置评估怎么定义,训练无关 debiasing 到底改了 prompt、logit 还是排序后处理。标题和摘要已经给出方向,正文片段没给足判断商业价值所需的细节。 我还是觉得这条有意思,因为它碰的是一个老问题:LLM 做排序,很多时候不是不会理解候选人文本,而是排序设定本身把模型用错了。pointwise 的典型做法,是岗位 JD 和每个候选人简历一对一反复喂给模型,再把分数拼回列表。这样做有两个已知缺点。第一,重复读 JD,token 开销很高。第二,候选人之间没有相对关系,模型只能做独立打分,没法显式比较“这个人的后端经验是否比那个人的领域经验更贴近岗位”。在传统推荐里,listwise learning 早就不是新鲜事,LambdaMART、ListNet、ListMLE 这些路线讲的就是优化整个排序而不是单个样本分数。L3TR 的价值,不是“LLM 终于会推荐人才”,而是它把一套经典排序直觉,重新塞回长上下文模型里。 问题也在这里。LLM 的 listwise 排序不是把几份简历拼起来就完了。摘要提到的 position bias、lost-in-the-middle、token bias,都是大模型在长输入里反复出现的毛病。你把候选人 A 放在前面,A 更容易被选;把某些 ID、格式、长度写得更整齐,模型也会偏。这个在多文档问答、长上下文 RAG、甚至代码补全排序里都见过。我印象里,过去一年不少工作都在讲 reorder、chunking、sliding window、位置重排,核心思路都差不多:模型不是没有能力,是注意力分配和输入结构把结果带偏了。所以 L3TR 上来的 block attention 和局部位置编码,我并不意外。这更像把“长上下文抗偏置”的工具箱,迁到了招聘排序。 我对这篇的第一处保留,是它的“隐式利用 LLM 潜在输出”到底是什么。摘要这句话写得很像论文里常见的包装:也许是利用 logits,也许是把生成概率映射成排序信号,也许是用 ID 预测替代直接打分。我还没看到全文,不能猜。但这里差别很大。要是它依赖生成候选 ID 的概率分布,那工程上会遇到两个老问题:一是候选 ID 本身的 tokenization 会引入偏差,二是候选集合一变大,softmax 空间和解码稳定性就会变。作者显然意识到了第二点,才加了 ID sampling 去处理训练与推理候选规模不一致。这个点是实的,因为很多 listwise 方法在实验里只排 top-10 或 top-20,一到真实 ATS 场景里变成几百个候选人,性能就塌。可惜摘要还是没说训练时 sample 几个、推理时排几个、性能曲线怎么掉。没有这些数字,我没法判断它是解决了机制问题,还是只是把实验设置调顺了。 第二处保留更现实:招聘推荐不是普通商品推荐,偏置不是只有位置偏置。论文里讲的是 position bias 和 token bias,这当然重要,但招聘系统最难扛的偏差常常来自标签本身。历史招聘结果天然带有人类筛选偏见,学历、公司名、地域、职业断档、性别 proxy 都会渗进训练数据。L3TR 如果只是让模型更稳定地复现“历史上谁更容易被录用”,那排序精度上去,不代表系统更好。这里我有点怀疑论文会不会把“去位置偏”包装成“更公平”,因为这两件事不是一回事。摘要没有提 fairness 指标,没有提 sensitive attributes,也没有提合规约束。对做人力科技的人来说,这个缺口不小。 外部对比上,这条也别看成孤立研究。过去一年,LLM 在推荐系统里的一个明显趋势就是从生成解释回到排序主任务:先是拿 LLM 做 feature enrichment、reranking、query understanding,后来才有人认真处理长列表排序和 candidate interaction。招聘场景又更难,因为文本长、结构杂、字段不标准、结果反馈慢。我记得 LinkedIn、Indeed 这类公司公开分享过不少传统匹配和两塔检索的工程经验,但直接把大模型放进主排序层,行业里一直很克制,原因就是延迟、成本、偏差和可审计性一起卡着。L3TR 要是最后只是证明“在两个离线数据集上,LLM listwise 优于若干 baseline”,学术上过关,离线上线还差很远。 说真的,我对它最感兴趣的不是“优于基线”这四个字,而是它是否给出了可复现的抗偏置评估法。摘要说设计了 evaluation methods 去检测 position bias 和 token bias,还给了 training-free debiasing。这个方向比单次 leaderboard 提升更有积累价值。原因很简单:今天是人才推荐,明天就是简历筛选、广告排序、RAG 文档重排、agent 工具候选选择。只要任务是“把一组文本项按相关性排队”,这些偏置都能复用。如果这篇把评估协议做扎实,后续工作能直接接着跑;如果只是换个任务名、堆几个 tricks、报一个没披露幅度的 SOTA,那热度过去得很快。 我现在的结论很直接:方向对,证据不够。listwise 建模比 pointwise 更像正路,ID sampling 也确实打到训推规模不一致这个老问题;但摘要没给增益数字、成本曲线、候选集规模、偏置定义,也没碰招聘里更麻烦的标签偏差与公平性。论文全文如果补出了这些表,我会把它当成“招聘排序里少见的严肃工程化研究”。如果没有,它更像一篇把长上下文排序问题搬进 HR 场景的技术练习。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
15:37
25d ago
arXiv · cs.CL· atomEN15:37 · 04·02
词汇式与上下文化指代消解系统在提及噪声下会出现不同退化吗?基于科研软件提及的实证研究
作者在 SOMD 2026 跨文档软件提及指代消解三项子任务均获第 2,FM 与 CAR 的 CoNLL F1 达 0.94–0.96,CAR 在官方测试集稳定高 1 分。噪声注入显示,边界噪声下 CAR 从干净到完全损坏只降 0.07,FM 降 0.20;提及替换下 FM 降 0.52,CAR 降 0.63。真正值得盯的是规模效应:FM 推理随语料超线性增长,CAR 近线性,正文称已开源代码。
#Embedding#Benchmarking#Research release#Benchmark
精选理由
文章有实证新信息,HKR-K 成立:CoNLL F1 达 0.94–0.96,还比较了边界噪声、提及替换下的降幅与推理规模效应。问题是门槛高且题材很窄,读者需要先懂科学软件提及指代消解,外溢到产品和行业讨论的空间很小,触发 technical-accessibility fail,importance capped below 40。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
15:27
25d ago
arXiv · cs.CL· atomEN15:27 · 04·02
AstroConcepts:用于天体物理的超大规模多标签分类语料库
论文发布 AstroConcepts 语料库,收录 21,702 篇天体物理论文摘要,并用 Unified Astronomy Thesaurus 的 2,367 个概念做多标签标注。数据集标签极度失衡,76% 概念在训练集里少于 50 个样本;作者还报告词表约束 LLM 表现接近领域适配模型,并主张按频次分层评测,避免总分掩盖稀有术语短板。
#Benchmarking#Reasoning#Tools#Unified Astronomy Thesaurus
精选理由
这篇论文有具体数据与评测主张,HKR-K 成立。可它属于天体物理+AI 的语料与分类任务,缺少 agent、产品或通用工作流外溢,命中 hard-exclusion-传统科学交叉,重要性封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
15:25
25d ago
● P1arXiv · cs.CL· atomEN15:25 · 04·02
简短更好:函数调用语言代理中的非单调思维链预算效应
论文在 Berkeley Function Calling Leaderboard v3 Multiple 的200个任务上扫描0到512个CoT token,发现 Qwen2.5-1.5B-Instruct 在32 token时准确率从44.0%升到64.0%,到256 token反降到25.0%。误差分解显示,短CoT把错选函数率从30.5%压到1.5%,长CoT又抬回28.0%,并带来18.0%幻觉函数;作者据此提出 FR-CoT,用固定“Function/Key args”模板把幻觉函数降到0.0%。
#Agent#Reasoning#Benchmarking#Berkeley
精选理由
这篇 arXiv 的价值在于把一个常见直觉翻过来:函数调用代理不是 CoT 越长越好,而且作者给了200个任务扫描、错因分解和模板修复法。HKR 三项都成立,但它仍是单篇研究,不是头部产品发布或行业级事件,所以放在 78–84 档。
编辑点评
这篇把“多想更准”戳了个洞:在函数调用里,Qwen2.5-1.5B 想到 256 token,准确率反而从 64% 掉到 25%。
深度解读
Qwen2.5-1.5B-Instruct 在 200 个函数调用任务里把 CoT 拉到 256 token 后,准确率掉到 25.0%。我对这条结果很买账,因为它打到一个过去一年被反复偷换的前提:推理 token 增长,不等于行动质量增长。做函数调用时,模型先要选对工具,再填对参数。这个阶段更像路由,不像开放式解题。你让它多写一段“思考”,经常是在给错误路线补叙事。 这篇最有用的地方,不是“32 token 比 0 token 好”这个常识层发现,而是它把失误拆开了。0 token 时,错选函数占 30.5%。32 token 时压到 1.5%。到 256 token 又回到 28.0%,还额外长出 18.0% 幻觉函数。这个形状很说明问题:短 CoT 的收益主要来自早期承诺,模型先把候选函数空间收窄;长 CoT 的伤害来自自由发挥,模型开始脱离候选集,自行编函数名。FR-CoT 那个“Function / Key args”模板能把幻觉函数打到 0.0%,也支持这个机制判断。它不是让模型更聪明,它是在约束输出轨道。 我一直觉得,业界把 CoT 吹得太整齐了。OpenAI、Anthropic、Google 这波 agent 叙事里,大家默认“更多 test-time compute = 更强 agent”。这个结论在数学题、代码修复、长推导上常常成立;到了工具使用,目标函数变了。函数调用的首要指标不是“推得深”,而是“别走错 API”。我记得去年很多工具调用论文已经在讲 constrained decoding、JSON schema、grammar-based generation,这篇论文算是把同一件事往前推了一步:连 reasoning budget 也该被约束,不只是最终输出格式。 我自己的保留也很明确。第一,正文只给了 Qwen2.5-1.5B-Instruct 的主结果,别急着把它上升成所有模型规律。更大模型会不会同样在 8 到 16 token 见顶,摘要没给。第二,数据集只有 Berkeley Function Calling Leaderboard v3 Multiple 的 200 题,任务分布、候选函数规模、参数复杂度,摘要没展开。要是候选集更大,短 CoT 的路由优势可能更明显;要是工具定义更规范,长 CoT 的伤害也可能没这么重。第三,FR-CoT 把幻觉函数降到 0.0% 很漂亮,但“statistically equivalent”没披露具体区间、方差和成本。我还想看它在真实 agent loop 里会不会把参数填错率抬上去。 说真的,这篇对产品侧比对基座侧更有用。很多团队现在一看到 agent 失误,就先加 reasoning budget、加自反思、加多轮审议。我看这条路在 function calling 上经常是反着来的。你该先做两件事:把候选工具集约束死;把思考模板压短,最好让第一行就承诺函数名。能在 8 到 32 token 解决的路由问题,别硬做成 256 token 的作文比赛。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
14:48
25d ago
● P1arXiv · cs.CL· atomEN14:48 · 04·02
用于引导大语言模型推理的可靠控制点选择
论文统计 541 个关键词检测边界,发现 93.3% 在同前缀重生成时无法复现目标行为,并提出稳定性过滤来筛掉失真控制点。该方法再配合内容子空间投影,在 MATH-500 上做到 0.784 准确率,较最强基线高 5.0 分;提取出的 steering vectors 还能迁移到 Nemotron-Research-Reasoning-1.5B 和 DeepScaleR-1.5B-Preview,分别提升 5.0 和 6.0 分。真正值得盯的是,它把“关键词命中=行为信号”这个常见前提直接判错了。
#Reasoning#Interpretability#Benchmarking#Nemotron-Research-Reasoning-1.5B
精选理由
这篇论文拿到 H/K/R:它不是又一篇常规 steering 论文,而是先证明常见控制点筛法大面积失真,再给出过滤方案。541 个关键词里 93.3% 不能复现目标行为,MATH-500 提升 5.0 分且能迁移到两款 1.5B 推理模型,实用性高于普通 benchmark 增分。
编辑点评
论文把 541 个关键词边界里的 93.3% 判成失真点,这对一大票 activation steering 工作都不是小修小补,而是地基抽检不过关。
深度解读
这篇论文最重的一刀,是它先否定了一个大家默认接受的取样流程:用关键词在 chain-of-thought 里抓到一个边界,就把那一层隐藏状态当成“行为发生的位置”。作者检查了 541 个这类边界,结论是 93.3% 在同前缀重生成时复现不了目标行为。这个数字很难轻描淡写。它说明很多所谓 steering vector 学到的,未必是 self-reflection、回溯检查这类推理行为,更多像是一次采样里碰巧出现的表面痕迹。 我觉得这条很对路,因为 activation steering 这两年一直有个老问题:提取步骤看着很干净,行为定义其实很脏。尤其是对“模型自己冒出来”的推理动作,研究者常拿关键词当代理标签,比如 “wait”, “let me check”, “rethink”。这个做法在 2024 年那波 representation engineering、CAA、persona steering 论文里就已经暴露过问题:当标签靠文本表面模式定义,向量很容易绑住语气、答案长度、题目类型,最后不是在控能力,而是在控风格。这里作者直接做了最该做的检验——同前缀重采样。如果重采样都站不住,原来的控制点就不该进数据集。 论文给出的改进也比较克制:先做 stability filtering,只保留会稳定复现目标行为的边界;再做 content-subspace projection,减掉题目内容噪声。在 MATH-500 上做到 0.784,较最强基线高 5.0 分,还能迁移到 Nemotron-Research-Reasoning-1.5B 和 DeepScaleR-1.5B-Preview,分别涨 5.0 和 6.0。这个结果我愿意认真看,因为它不是单纯靠同模型同任务刷分,还碰了跨模型迁移。可迁移这件事很关键:如果一个 steering vector 只能在原模型、原题型、原采样温度下有效,那它更像数据拟合,不像机制信号。 但我还是有两个保留。第一,正文只有 RSS 摘要,没披露 strongest baseline 是谁,也没给重生成的采样设置、温度、每个边界复验次数。93.3% 这个比例对采样参数很敏感。温度高一点,不稳定本来就会上升;温度低一点,又会把“行为随机触发”压扁。我还没看到完整实验表之前,不会把 93.3% 当成可横向搬运到所有 steering 论文的统一判决。第二,MATH-500 体量只有 500 题,适合快速比较,不适合宣告“推理 steering 已经稳了”。去年很多推理方法在 GSM8K、MATH 上涨分,换到更长轨迹或更脏分布就掉得很快,这个坑大家都见过。 说真的,这篇论文的价值不只是一套过滤器,而是逼大家把“控制点发现”当成统计问题,不再当成关键词检索问题。作者还专门把内生推理行为写成带上下文触发概率的随机事件,这个视角我挺买账。它更接近我们实际观察到的模型行为:同一前缀下,某个反思动作不是开关,而是有概率冒出来。用这个框架看,过去很多负结果也好解释了:不是 steering 无效,而是训练样本里混了太多伪边界,把方向均值冲淡了。 如果这条结论后续复现住了,我觉得受影响最大的不是“让模型更会反思”这类小方向,而是所有靠 CoT 文本标记去反推内部机制的工作。很多 papers 默认“命中词=命中机制”,这篇就是在说这一步大多不成立。这个说法我基本赞成。只是现在材料还薄,标题和摘要给了结果,正文没披露更细的消融、失败案例和成本开销。我会先把它当成一个很有杀伤力的方法学纠偏,而不是已经终结 activation steering 争议的定论。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
14:28
25d ago
arXiv · cs.CL· atomEN14:28 · 04·02
Prosodic ABX:一种衡量语音表征韵律对比的跨语言方法
论文提出 Prosodic ABX,用少量样本且无需显式标签,直接测量自监督语音模型表征中的韵律对比。作者还构建并发布英语、日语最小对立对数据集,并结合普通话数据,评测英语重音、日语音高重音、普通话声调三类对比。真正值得盯的是,模型与层排序在多种实验条件下常能保持一致,适合低资源评测;摘要未披露具体样本规模与模型名单。
#Audio#Benchmarking#arXiv#Research release
精选理由
HKR-K 命中:论文给出无需显式标签、少样本测韵律对比的方法,并覆盖英语重音、日语音高重音、普通话声调。HKR-H 与 HKR-R 都弱,题材停在语音表征评测,摘要也未披露样本规模与模型名单,所以只进 all。
编辑点评
这篇论文把 ABX 扩到英语重音、日语音高重音、普通话声调三类韵律对比,我买账这个方向;语音自监督评测长期太偏音素,这个缺口终于有人正面补。
深度解读
论文把 Prosodic ABX 用在 3 类韵律对比上:英语重音、日语音高重音、普通话声调,而且条件很克制——少量样本、无显式标签。我的判断很直接:这条的价值不在又多了一个 benchmark 名字,而在它终于给语音自监督模型补上了一块长期空着的诊断面板。现在很多 S3M 论文把音素辨别、ASR 迁移、speaker robustness 跑得很满,韵律常被顺手带过;可对 TTS、语音翻译、口语评测、对话式语音 agent 来说,重音和声调掉了,系统就不是“略差一点”,而是直接换义或换语气。 我对这套方法基本认可,因为 ABX 本来就适合少样本诊断。ZeroSpeech 那一路把 ABX 用在音素对立上很多年了,社区也知道它比大而全下游任务更容易定位“哪一层在编码什么”。这篇把它搬到 prosody 上,思路是顺的。更重要的是,作者声称模型排序和层排序在多种实验条件下还能保持一致。这个点如果复现得住,含金量不低:低资源语言最缺的不是一个 SOTA 数字,而是一个在 20 个样本、50 个样本时都不乱跳的尺子。很多 probing 方案看着精细,一换采样条件,排名就散了,根本没法拿来做模型选择。 但我还是有保留,而且保留不小。正文只有 RSS 摘要,关键细节没给:样本规模没披露,模型名单没披露,ABX 的具体构造也没披露。A、B、X 是在说话人内比较,还是跨说话人比较?有没有控制时长、语速、录音条件?英语重音和日语音高重音都很容易被 segmental cue、持续时长、F0 轨迹偷带信号,普通话声调更是如此。要是最小对立对没有把这些因素压干净,测到的就不一定是“韵律表征”,而是模型在抓表面声学差异。这个说法我不会直接照单全收,得看论文怎么做 hard negative 和 speaker normalization。 我还想补一个文章里没有的背景。过去一年,语音表征圈子一边在卷更大的 encoder,一边在往语音语言模型和语音 agent 靠,评测却没跟上。像 wav2vec 2.0、HuBERT、w2v-BERT、后来的 E-Branchformer 或一些多语种 speech SSL 变体,大家常比的是 phone discrimination、ASR/WER、speaker/task transfer。我印象里,专门把 prosody 当成核心诊断对象的通用评测一直不多,尤其缺跨语言、最小对立、还不依赖大量标签的方案。所以这篇即便最后分数体系不完美,方向也踩在一个真空带上。 我自己最想看的是两件事。第一,不同模型族在三种语言上的层峰值是不是一致;如果英语重音看第 6 层最好,普通话声调跑到更浅或更深层,那对表示学习很有信息量。第二,这个指标和下游任务到底有没有相关性。要是 Prosodic ABX 高分的模型,在 TTS 韵律控制、语音翻译保调、口语纠音上并不占优,那它就更像一个漂亮但偏窄的诊断工具。现在只能说标题给了一个靠谱的问题意识,正文还没给足让我完全信服的数据。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R0
13:52
25d ago
arXiv · cs.CL· atomEN13:52 · 04·02
Ouroboros:用输入条件 LoRA 调制为递归 Transformer 动态生成权重
Ouroboros在Qwen2.5-3B裁剪版上把训练损失降了43.4%。它保留36层中的17层,只新增9.2M可训练参数,并找回删层造成性能缺口的51.3%;在深度1、4、8、16和秩8、32、64下都优于静态分步LoRA。别被标题骗了,提升目前只在训练分布上成立;留出文本未超过基线,正文归因于下游层冻结。
#Inference-opt#Qwen#RightNow-AI#Research release
精选理由
HKR-K 成立,因为论文给了明确数字,也承认留出文本未超过基线。HKR-H 与 HKR-R 都弱:内容偏递归 Transformer/LoRA 架构细节,缺少通用读者入口,触发 technical-accessibility fail,分数封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
13:48
25d ago
● P1arXiv · cs.CL· atomEN13:48 · 04·02
Goose:用于免训练投机解码的各向异性推测树
论文提出 GOOSE,用各向异性推测树加速免训练投机解码,在 5 个基准和 5 个 7B-33B 模型上实现 1.9-4.3× 无损加速。正文给出的关键机制是把高接受率的上下文匹配 token 组成深链,把低接受率候选铺成宽分支;两类来源的接受率中位差约 6×,范围 2-18×。真正值得盯的是树形分配策略,不是再加一个草稿模型;同等验证预算下,它比平衡树基线高 12-33%。
#Inference-opt#arXiv#GOOSE#Research release
精选理由
HKR-H/K/R 全中:标题钩子是“免训练”加“1.9-4.3× 无损加速”,正文也给出接受率分层机制、5 个基准和同预算高 12-33% 的结果。分数放在 80 分,因为它是偏推理工程的研究论文,不是会立刻改写市场格局的产品发布。
编辑点评
GOOSE 把投机解码的增益点,从“换草稿器”挪到“重排验证预算”,这条我买账。
深度解读
GOOSE 用 1.9-4.3× 无损加速,证明了一个很实在的判断:投机解码卡住的,很多时候不是草稿质量不够,而是你把同一份验证预算分错了地方。论文给出一个关键数字。上下文匹配 token 和统计预测 token 的接受率,中位差约 6×,范围 2-18×。只要这个落差成立,平衡树就已经不合理了。高接受率 token 继续往深处压。低接受率 token 留在横向兜底。这不是小修小补,这是把树当成资源调度问题来做。 我对这条比较认可,因为它击中的正是训练免费路线的老毛病。很多方法默认“候选 token 质量近似同分布”,所以树做得很匀称,验证 pass 也看着干净。问题是,n-gram 复制和上一轮统计外推,本来就不是一类信号。前者吃的是局部重复和长上下文冗余。后者吃的是模型短期惯性。两者接受率差 6×,那还强行均匀分配深度,等于把算力灌给低命中分支。GOOSE 的价值,不在“树更复杂”,而在它终于承认候选质量天然分层。 这和过去一年几条线能对上。像 Medusa、EAGLE、ReDrafter 这类方案,核心思路多半是再造一个更会猜的草稿头,或者把 draft 过程蒸馏进额外参数里。它们常见的问题也很明显:训练成本、部署复杂度、模型绑定都上去了。训练免费方法一直更像工程团队的现实选择,尤其是你不想改权重,或者服务端挂着十几个不同模型时。我记得 Sequoia 那类工作也在玩树搜索和预算分配,但我没核实它和这篇的树形约束是否完全同类。GOOSE 这篇有意思的地方,是它没碰模型,只碰树,收益还能到 1.9-4.3×。这说明推理优化还远没到“只能靠更大 draft model”的地步。 我还是有几个保留。第一,正文没披露硬件、batch size、序列长度分布、首 token 延迟和尾延迟。只给整体 speedup,不够。投机解码在高 batch 场景里,经常把理论增益吃回去,因为验证端的并行效率和 KV cache 访问会改写账本。第二,五个基准和五个 7B-33B 模型,覆盖面不算差,但还不够回答代码、长文、多轮对话谁更吃香。上下文匹配 token 的高接受率,天然偏向重复模式更重的任务。放到开放式对话,6× 这个落差还能不能站住,正文没有展开。第三,论文说同预算下比平衡树高 12-33%。这个数字不错,但 baseline 名单和调参细节在摘要里没有,我没法判断他们有没有把平衡树调到最能打的状态。 还有一个更现实的判断。GOOSE 最适合的地方,我看不是单次离线 benchmark,而是已有 serving stack 的低风险提速。你不训练,不改主模型,不碰输出质量定义,只是在 candidate source 已经存在时重排验证形状。这对 vLLM、TensorRT-LLM 一类系统很友好,前提是工程实现别把控制流开销做爆。树越不对称,调度越难看。GPU 喜欢规则张量,不喜欢花哨分叉。论文里说“lossless”,我信语义等价;我还没看到它在真实服务吞吐里的端到端代价。 我自己的结论很直接:这篇不是那种会刷屏的“新解码范式”,但它很像会被基础设施团队认真抄走的东西。接受率分层这件事,一旦在更多 candidate source 上复现,比如检索片段复制、语法约束候选、工具调用模板,后面会有人把各向异性树做成通用调度器。那时竞争点就不再是谁先猜到 token,而是谁更会给不同置信度的 token 排队。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:48
25d ago
● P1arXiv · cs.CL· atomEN13:48 · 04·02
BidirLM:通过适配与组合因果 LLM,把文本模型变成全模态双向编码器
BidirLM 提出一套开源配方,把因果 LLM 适配成 5 个双向编码器,并在文本、视觉、音频表征基准上超过替代方案。摘要称作者在 Gemma3 与 Qwen3 上做系统消融,指出先验 masking 阶段很关键;扩展时采用线性权重合并与轻量多域数据混合,缓解灾难性遗忘。真正值得盯的是,这条路线不依赖原始预训练数据,但具体基准分数正文片段未披露。
#Multimodal#Embedding#Benchmarking#Research release
精选理由
HKR-H/K/R 都成立:题眼是把因果 LLM 变成 omnimodal 双向编码器,摘要也给出 5 个编码器、Gemma3/Qwen3 消融、先验 masking 与线性权重合并。分数停在高 70 分,因为这还是 arXiv 研究稿,正文片段未披露完整基准分数与复现细节。
编辑点评
BidirLM把因果LLM改成5个双向编码器,这条路我买账一半:配方价值很高,但没分数表前,"全面超过"先别急着信。
深度解读
BidirLM提出5个开源双向编码器,并声称在文本、视觉、音频表征基准上超过替代方案。我的第一判断是:这篇的贡献更像“可复用改装工艺”,不是新的表征范式。它最有价值的地方,不是把 decoder-only 模型再讲一遍能做 embedding,而是给了一套不依赖原始预训练数据的改造流程,还把多模态专用因果模型并进来。这对一线团队很实用,因为大多数人手里有现成的 Qwen、Gemma、Llama 系权重,没有谁真能重跑一遍预训练。 这条路线其实踩中了过去一年一个很现实的趋势:大家越来越不想单养一套 encoder 栈,再养一套 generator 栈。NVIDIA 的 NV-Embed、McGill 那条 LLM2Vec、再到各家基于 Llama 或 Mistral 改 embedding 的工作,都在证明同一件事:decoder-only 基座已经够强,问题变成怎么把单向注意力改成对检索、聚类、跨模态对齐更友好的表征器。BidirLM把答案押在两个机制上。第一是“先做 prior masking 再适配”。摘要说这是常被省略、但很关键的一步。这个判断我觉得靠谱,因为直接拿生成模型做双向目标,最容易把原有 next-token 结构打散,最后两边都不像。第二是线性权重合并,加轻量多域数据混合,用来压灾难性遗忘。这个思路也不新,但放在多模态 encoder 改造里,确实比从头蒸馏省钱得多。 我对“全面超过替代方案”这句还是有保留。正文片段没给任何分数,没说是 MTEB、MMEB、还是自选视觉音频基准,也没说对手是谁。这个缺口很关键。做 embedding 的人都知道,榜单结论高度依赖池化方式、prompt 模板、负样本构造、是否 instruction-tuned、甚至向量维度和 ANN 索引设置。你说超过 e5-large、GTE、NV-Embed,和你说超过一些老 BERT 变体,含金量完全不是一回事。多模态这边更夸张。视觉表征如果对的是 CLIP 系,音频如果对的是专用 encoder,那门槛非常高;如果对的是通用 LLM 改装版,故事就温和很多。现在只有标题和摘要级信息,我不会替作者把这个结论补全。 还有一个我比较在意的点:线性权重合并到底解决了多少问题,还是只是把问题往 benchmark 之外推。权重 merge 这两年很流行,尤其在开源圈,优点是便宜、快、能复用专长模型。缺点也很稳定:分布一旦偏,模型经常在长尾任务、跨语言、长上下文下掉得很难看。BidirLM说用轻量多域数据混合缓解遗忘,这个方向说得通,但没有原始预训练数据时,恢复的通常是“常见能力轮廓”,不是深层统计结构。我自己会特别想看三类测试:跨语种迁移、长文档检索、以及模态混合输入下的稳定性。摘要没给。 这篇还有一个更大的含义。它在试图把“生成模型生态”和“表征模型生态”接起来。过去这两条线经常分开优化:生成看 chat、agent、代码;表征看检索、rerank、聚类、分类。BidirLM如果配方真稳定,意味着以后一个团队拿到 Qwen3 或 Gemma3,不只是在上面做 SFT 和 tool use,也能顺手做出可用的 text-image-audio encoder。成本结构会变。以前你得选专门的 embedding backbone,现在你更像是在一套基座上派生多个工件。这很像过去 LoRA 把“微调一次只服务一个任务”改成“同一底座挂多种能力头”,只是这里动到的是注意力方向和表征目标。 我也得泼点冷水:把 decoder 改成 bidirectional encoder,不等于它就天然适合生产检索。工业上大家关心的不只是 benchmark 均分,还包括吞吐、向量维度、蒸馏后损失、量化后召回、不同 batch 下的稳定性。很多论文模型在 MTEB 上涨 1 到 2 分,线上 QPS 和显存账一算,最后还是输给小一号的专用 encoder。BidirLM现在只给出“开源配方”和“超过替代方案”的方向性结论,离工程决策还差几张表:训练 token 量、合并权重比例、推理成本、各模态输入格式、是否需要任务提示词,正文片段都没披露。 所以我的结论很直接:这篇值得看,不是因为它已经坐实了最强多模态表征器,而是因为它给了开源社区一条更现实的路——不拿原始预训练数据,也能把现成 causal LLM 改成像样的 bidirectional encoder。要不要兴奋,先等完整 benchmark、对手名单、以及失败案例。没有这些,当前更像一份很聪明的 recipe,不是已经定局的 leaderboard 结论。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
13:48
25d ago
arXiv · cs.CL· atomEN13:48 · 04·02
追踪自监督语音模型从语音中学习语言结构的形成
论文分析6个在荷兰语语音上训练的Wav2Vec2与HuBERT模型,追踪语言结构在不同层与中间检查点的形成。结果称,不同层级的语言结构呈现不同的分层模式与学习轨迹,这与其脱离声学信号的抽象程度、输入整合时间尺度有关。真正值得盯的是预训练目标层级:更高阶预测任务会带来更强的并行组织。
#Audio#Interpretability#Research release
精选理由
HKR 里只有 K 成立:论文提供了6个语音自监督模型的层级与训练轨迹比较。主题是荷兰语语音表征中的语言结构形成,专业门槛高,正文也未给出直接产品或 agent 含义,触发 technical-accessibility fail,按规则排除。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
13:11
25d ago
arXiv · cs.CL· atomEN13:11 · 04·02
kNNProxy:面向黑盒零样本文本检测的高效免训练代理对齐
论文提出 kNNProxy,用 kNN-LM 检索把固定代理 LLM 对齐到未知源模型,面向黑盒零样本 LLM 生成文本检测且免训练。方法先用目标反映语料建轻量 datastore,推理时把近邻诱导的 token 分布与代理输出插值;标题已给出“高效”,正文未披露实验数值、查询预算和具体基线。
#RAG#Alignment#Benchmarking#Research release
精选理由
新意是把 kNN-LM 近邻分布与代理 LLM 输出插值,免训练做黑盒零样本文本检测,所以 HKR-K 成立。问题是内容停留在专门方法层,且提供文本未披露实验数值、查询预算和关键基线,对泛 AI 从业者缺少入口,触发 technical-accessibility fail,importance capped 到 36。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
12:39
25d ago
arXiv · cs.CL· atomEN12:39 · 04·02
RuleForge:大规模自动生成并验证 Web 漏洞检测规则
AWS 介绍内部系统 RuleForge,可从 Nuclei 模板自动生成 Web 漏洞检测规则;2025 年 NVD 新增超 4.8 万个 CVE,人工写规则已跟不上。其 LLM-as-a-judge 验证同时评估敏感性与特异性,AUROC 为 0.75,在线上把误报较仅靠合成测试的方案压低 67%。真正值得盯的是 5x5 生成策略与人审反馈闭环,正文已给出机制,未披露模型名称。
#Safety#Tools#Agent#AWS
精选理由
HKR-K 成立,因为正文给出可检验数字与机制:2025 年新增 4.8 万个 CVE、AUROC 0.75、误报降 67%、5x5 生成策略。分层仍是 excluded,因为主题落在漏洞规则生成与验证,理解门槛依赖 Nuclei 与 AppSec 流程,触发 hard-exclusion 的 technical-accessibility fail。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
11:58
25d ago
arXiv · cs.CL· atomEN11:58 · 04·02
如何衡量词序或手势顺序相对交换距离最小化原则的最优性
该论文提出一个数学框架,用置换多面体中的交换距离衡量词序或手势顺序的最优性,并报告跨语言手势达到至少77%最优。摘要称多次命中最优不太像随机结果,还把二次指派问题引入语言研究,作为统一交换距离最小化等原则的总框架;RSS 摘要未披露实验规模与数据集。
#Benchmarking#Research release
精选理由
HKR-K 命中:摘要至少给出 77% 最优和 quadratic assignment problem 这两个新点。HKR-H、R 不足,且题材高度专门,RSS 摘要也未披露数据集规模与复现条件,触发 technical-accessibility fail,按规则 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
11:57
25d ago
arXiv · cs.CL· atomEN11:57 · 04·02
可靠新闻还是宣传新闻?用体裁、主题与说服技术提升分类鲁棒性的神经符号模型
该论文提出一套神经符号分类模型,把 fastText 非上下文嵌入与体裁、主题、说服技术三类符号特征结合,用于区分可靠新闻与宣传新闻。RSS 摘要称,该方法相对同等纯文本方法取得更好结果,消融实验和可解释性分析支持这些特征的价值;具体数据集、指标和提升幅度正文未披露。真正值得盯的是,它把跨来源泛化问题直接当目标,而不只追训练集分数。
#Benchmarking#Interpretability#BERT#fastText
精选理由
论文有一个明确新点:把体裁、主题、说服技术做成符号特征,与 fastText 结合去做跨来源鲁棒分类,不只追训练集分数。问题也很明显:正文未披露数据集、指标和提升幅度,行业共鸣弱,HKR 只有 K 成立,所以给低分 all。
编辑点评
论文把 fastText 与三类符号特征拼在一起做新闻分类;我对“更稳健”先保留意见,没看到跨源测试口径前,这更像一篇反过拟合方法论文。
深度解读
论文提出一个神经符号分类器,把 fastText 嵌入与体裁、主题、说服技术三类特征结合,用来区分可靠新闻和宣传新闻。我的判断很直接:这条方向是对的,但“鲁棒性提升”现在证据不够,标题给了目标,正文没披露数据集、测试切分、指标、提升幅度,也没说跨来源泛化到底怎么做。 我愿意认真看它,不是因为它用了 neurosymbolic 这个标签,而是它绕开了这类任务里最常见的坑:模型抓住来源偏差、写作习惯和话题捷径,然后在同分布测试集上拿高分。过去几年 fake news 和 propaganda detection 论文反复踩这个坑。BERT 一类上下文模型在站内切分上常常很好看,一换媒体源、一换时间段,分数就掉。我没核过这篇全文,但这个问题在此前不少数据集里都很明显,尤其当“宣传”标签和具体媒体、国家、议题绑得太紧时,模型学到的是 domain ID,不是 persuasion pattern。 它选 fastText 也挺有意思。很多人会本能地觉得这是退步,因为 2026 年了还不用更强编码器。但如果目标是压低数据集记忆、把可泛化信号交给显式特征,弱一点的文本表征反而有逻辑。说真的,这让我想到早些年一些作者故意拿线性层或浅模型做内容审核基线,不是因为它们更强,而是因为更容易看出增益来自哪里。问题也在这:如果符号特征本身是人工标注,或者依赖另一个 persuasion-technique 检测器,那整套系统的误差传播、标注成本、跨语言迁移,正文现在都没交代。 我还有个保留。genre、topic、persuasion 这三类特征听起来合理,但 topic 往往最危险。它很容易把“讨论乌克兰、移民、疫苗”这种议题分布偷渡成 propaganda proxy。这样做在当前数据上可能涨点数,换一批来源就未必成立。反倒是 persuasion techniques 如果标注一致、定义清楚,才更接近可迁移机制。可惜 RSS 摘要只说有消融和可解释性分析,没说哪一组贡献最大。 所以我现在的态度是:这篇论文有研究品味,至少在跟过拟合正面交手;但“更稳健”还不能收货。要让我买账,我得看到三样东西:跨来源或跨时间切分的明确设计,和 BERT/更强编码器的同口径对比,以及符号特征的获取成本。没有这些,这篇更像一篇思路正确的分类实验,而不是可落地的 propaganda detection 方案。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
11:43
25d ago
● P1arXiv · cs.CL· atomEN11:43 · 04·02
ImplicitBBQ:用特征线索评测大语言模型隐性偏见
论文提出 ImplicitBBQ 基准,用年龄、性别、地区、宗教、种姓和社会经济地位等特征线索评测 LLM 隐性偏见,并测试了 11 个模型。结果显示,开放权重模型在歧义语境下的隐性偏见是显性偏见的 6 倍以上;few-shot 提示可把隐性偏见降 84%,但种姓偏见仍是其他维度的 4 倍。真正值得盯的是,安全提示和 chain-of-thought 都没补上这道缺口。
#Alignment#Safety#Benchmarking#Research release
精选理由
这篇论文不是泛泛谈偏见,而是给出 11 个模型、6 倍差距、84% few-shot 降幅和种姓维度高 4 倍的具体结果。HKR 三轴都成立,且“安全提示无效”这个结论有讨论度;但它仍是学术基准,不是头部模型或产品发布,所以定在 79 分、featured。
编辑点评
ImplicitBBQ 把开源模型的偏见短板量化到 6 倍,这比很多安全 demo 都更扎眼。few-shot 能压 84%,说明问题不只在模型里,也在你平时怎么测。
深度解读
论文用 11 个模型测出一个很刺眼的结果:开放权重模型在歧义语境里的隐性偏见超过显性偏见 6 倍。这个数字我很买账,因为它打穿了过去一年一堆“安全对齐有效”的展示方式。很多对齐评测靠显式身份词触发,模型一看到 gender、religion、race 这类词,就学会走安全模板;题目把身份换成职业、口音、地区、生活条件这些特征线索,旧有护栏马上变薄。这不是模型突然变坏,是评测口径以前太顺着模型了。 这篇的价值,在于它把 name-based proxy 往前推了一步。前几年的 BBQ、CrowS-Pairs、StereoSet 都很有用,我自己一直觉得它们有个共性毛病:身份信号太“明牌”。名字代理也有覆盖问题,既不稳定,也很难外推到年龄、种姓、社会经济地位这类维度。ImplicitBBQ 改成 characteristic-based cues,至少在方法上更接近日常输入分布。用户不会天天把“我是某宗教、某种姓、某年龄层”写进 prompt,更多时候是通过住址、教育、穿着、家庭结构、说话方式泄露出来。按这个场景测,才更像真实部署环境。 我对摘要里另一组结果更在意:few-shot 提示把隐性偏见压了 84%,安全提示和 chain-of-thought 却补不上缺口。这里有两个信号。第一,偏见并不只是参数里写死的倾向,推理轨迹和回答格式也在放大它。给几个示例就能大幅下降,说明模型能学会“在这种题型里别沿着社会刻板联想走”。第二,常见 safety prompting 没起效,说明很多安全层主要盯显式违规词,不太处理模糊线索触发的默认联想。chain-of-thought 也没救,甚至我会怀疑在某些设置里它会把偏见合理化成“推理步骤”。正文没给细分数字,我还不能下更重的结论,但这个方向很值得复现。 种姓偏见仍高出其他维度 4 倍,这个结果也不该被当成一个孤立异常。过去一年不少多语种和南亚语境评测都碰到类似问题:主流英语安全数据集对 caste 的覆盖远弱于 gender 和 race,RLHF 标注规范也常常没有把它当一等公民变量。模型如果主要吃英语互联网语料,再叠加稀薄的对齐样本,最后就会在这类文化局部变量上露底。说实话,我怀疑很多美国厂商内部 eval 根本没把 caste 做成常驻维度,至少公开材料里很少见到系统披露。 我也有保留。第一,摘要把“open-weight models”单独点出来,但没说 11 个模型里闭源和开源各占多少、型号是什么、提示词是否统一、温度是否固定。没有这些条件,6 倍这个数更像方向性证据,还不是采购级结论。第二,隐性偏见 benchmark 天生容易掺进文化常识题和语言理解题。一个模型答偏了,到底是社会刻板印象,还是没读懂 cue,得看作者怎么做对照。RSS 摘要没给构造细节,我还没法完全排除这个混杂因素。第三,few-shot 降 84% 很亮眼,但部署上未必便宜。你要多塞示例,就会吃上下文、拉高延迟,还可能在别的任务上引入格式依赖。实验室里有效,不等于线上系统愿意付这个 token 税。 给从业者的结论很直接:别再拿显式敏感词测试当偏见评估的主体,也别把“模型拒答了”当成安全完成。你得把身份线索拆散,埋进背景描述、生活条件、地域信号、职业线索里,再看模型是否在歧义题上系统性偏向某一类人。要是你的产品面向招聘、信贷、教育辅导、医疗分诊,这种测法比红队去撞几句辱骂词更接近风险本体。论文标题已经给出一个靠谱方向,正文没披露更细的模型排名和误差区间;在这些信息出来前,我会把它看成一个很有用的告警器,不会急着把它当最终裁决。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
11:41
25d ago
arXiv · cs.CL· atomEN11:41 · 04·02
临床文本够用吗?心力衰竭患者死亡率预测的多模态研究
这篇 arXiv 论文在法国心衰队列中比较文本、结构化 EHR、多模态与 LLM 方法,结论是监督式多模态融合总体表现最好。正文未披露具体样本量与 AUC 数值;已给出的细节是,实体级文本表示优于单纯 CLS 嵌入,而 LLM 在不同模态和解码策略下结果不稳定,且文本提示好于结构化或多模态提示。真正该盯的是,临床决策支持里提示工程还没赢过针对任务训练的多模态 transformer。
#Multimodal#Benchmarking#Research release#Benchmark
精选理由
这篇论文有研究信号:摘要明确给出监督式多模态融合优于 LLM 提示、实体级文本表示优于 CLS 两个可检验结论。分数仍压到 excluded,因为它属于临床科研交叉,离通用 AI 产品、agent 与模型竞争较远,且正文未披露样本量与 AUC。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
11:32
25d ago
arXiv · cs.CL· atomEN11:32 · 04·02
SURE:用于对话多模态情感识别的协同不确定性感知推理
论文提出 SURE,用于对话多模态情感识别,并以三模块处理噪声与上下文推理。框架包含不确定性感知 MoE、迭代推理、Transformer Gate;标题与摘要称其在基准数据集上持续优于现有方法,但正文未披露数据集名称、分数提升幅度和复现条件。真正值得盯的是,它把不确定性建模和多轮推理一起放进 MERC,而不只做模态融合。
#Multimodal#Reasoning#Benchmarking#Research release
精选理由
这篇论文有一条明确的新机制线,所以 HKR-K 成立:它把不确定性建模和多轮推理一起用于多模态对话情感识别。分数压低在于正文未披露数据集、提升幅度和复现条件,题材也偏窄,难触达主流 AI 从业者最关心的产品、成本或竞争议题。
编辑点评
SURE 把 3 个模块塞进 MERC,但正文没给数据集和分数,我先不买“持续领先”这句结论。
深度解读
SURE 这篇 paper 用 3 个模块处理 MERC:不确定性感知 MoE、迭代推理、Transformer Gate。我的判断很直接,这个方向是对的,证据还远远不够。 MERC 这类任务一直有个老问题:论文很爱把提升归功于“更好的多模态融合”,实际误差常常出在两处。第一处是模态噪声,语音情感特征会被录音质量、说话人差异、停顿和重音干扰;第二处是对话上下文,单句标签看着像愤怒,放回前后轮次可能更接近讽刺、委屈或防御。SURE 把这两处一起处理,思路比“再堆一层 cross-attention”更像样。我一直觉得 MERC 里光做 fusion 已经有点卷不动了,把 uncertainty 和 multi-turn reasoning 拉进来,至少方向上没跑偏。 但我对这条摘要里的胜负判断有保留。正文只给了“benchmark datasets”这种泛称,没给数据集名字,没给 F1、accuracy、weighted-F1 这些指标,没给提升幅度,也没说 iterative reasoning 跑了几轮。没有这些条件,“consistent outperformance”基本没法判读。MERC 领域过去几年常见的数据集就那几套,像 IEMOCAP、MELD、EmoryNLP,我没在这条正文里看到任何一套被明确点名。不同数据集的说话人数量、类别分布、场景偏差差很多,提升 1 个点和 5 个点不是一回事,跨数据集稳定也不是一句摘要能替代的。 还有一个我会追着看的地方:Uncertainty-Aware MoE 听着顺,但很容易变成参数量套利。多专家结构经常靠容量和路由带来收益,不一定真来自“不确定性建模”。如果作者没有做 ablation,把普通 MoE、带温度标定的分类头、去掉 iterative reasoning 的版本并排给出来,这个叙事我不会轻信。我自己也没跑过这篇代码,现在连代码是否公开都没看到。 说真的,这篇更像一个“任务建模方向提示”,还不是结果已经坐实的 SOTA 信号。等正文、表格、复现配置出来,再判断它到底是在修 MERC 的老毛病,还是又一次把复杂结构堆进小基准。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
10:40
25d ago
● P1arXiv · cs.CL· atomEN10:40 · 04·02
HieraVid:用于加速视频大语言模型的分层 Token 剪枝
HieraVid 在 4 个视频理解基准上仅保留 30% token,就取得新的最优结果,并保住 LLaVA-Video-7B 超 98%、LLaVA-OneVision-7B 超 99% 的性能。方法把剪枝拆成 3 层:segment 级先做时序分段与空间合并,frame 级联合裁掉相似帧,layer 级随 LLM 层数增加继续收缩冗余。真正值得盯的是它不只做输入端裁剪,而是按视频结构和层间信息流动态减算。
#Multimodal#Vision#Inference-opt#HieraVid
精选理由
这篇 arXiv 论文命中 HKR-H/K/R:30% token 保住 98%+ 性能的数字够抓人,三层剪枝路径也给了可复现的技术线索。它直接对应视频多模态推理成本,但还停在研究阶段、实体影响力有限,所以给 79 分 featured,不进 p1。
编辑点评
HieraVid 用 30% 视频 token 刷了 4 个基准,这条我买账一半:方向对,SOTA 先别急着当部署结论。
深度解读
HieraVid 在 4 个视频基准上用 30% token 拿到新 SOTA,这个结果先把一件事坐实了:VideoLLM 的算力账,问题早就不只是编码器贵,而是冗余管理太粗。过去一年不少工作都在输入端做 token pruning,常见做法是按 saliency、相似度、注意力分数先砍一轮。那套东西在图像上还能凑合,放到视频里经常失真,因为视频冗余有两层:相邻帧重复,长时段里又有事件结构。HieraVid 把剪枝拆成 segment、frame、layer 三层,至少在方法论上是对路的。它承认“该删什么”不是一次性决定,而是跟时间段、帧差异、层深一起变化。 我对这条的积极判断,主要来自 layer-level pruning 这个点。很多视频压缩论文喜欢把计算都前置,进模型前先裁完,后面就当信息密度恒定。这个假设我一直不太买账。多模态 token 在前几层往往还没完成对齐,删早了,伤的是 grounding;到了更深层,很多视觉 token 只是在重复支持已经成形的语义,这时继续保留全量,性价比很差。HieraVid 明确利用“层越深,冗余越低价值”这个机制,这比单次输入裁剪更像能迁移到真实系统的思路。类似的想法,其实在语言侧和视觉侧都出现过:LazyLLM、DynamicViT、ToMe 这类工作都在证明一件事,推理时保留全部 token 只是最省事,不是最优。 但我对它“部署价值”的保留也很明确。正文只有 RSS 摘要,没给四个 benchmark 的名字,没给绝对分数,没给吞吐、延迟、显存、batch size,也没说 30% token 保留后墙钟时间降了多少。这个缺口很大。学术里“保留 98% 性能”常常只代表分数几乎不掉,不代表系统端真的省下同等比例成本。尤其是 VideoLLM 的瓶颈不只在 attention FLOPs,还在视频解码、视觉编码器前处理、KV cache、跨模态投影、长序列调度。要是剪枝发生在视觉特征抽取之后,那省的是后段,不是整条链路。标题给了 fast,正文没披露 speedup 数字,我不会替它补。 还有一个我想追问的地方:这套方法绑定 LLaVA-Video-7B 和 LLaVA-OneVision-7B 的程度有多深。视频 token 冗余当然是共性,但“层间单向传播”这个假设,在不同连接器、不同视觉塔、不同采样策略上未必一样。Qwen2.5-VL、InternVL、Gemini 这路模型的跨模态融合细节并不相同。我自己还没看到 paper 全文里的消融,要是 pruning policy 需要跟 backbone 紧耦合,它更像一个论文 SOTA 技巧;要是 policy 能跨模型稳定迁移,它才有机会变成推理栈里的默认组件。 说真的,这条我看好的是研究方向,不是 headline。视频模型过去一年一直在堆更长上下文、更密采样、更大视觉塔,账单涨得比能力涨得快。HieraVid 这类工作至少在逼社区承认:视频理解不是“把更多帧塞进 LLM”就完了。下一步要看的不是又一个 30% token 的分数图,而是同一硬件、同一 batch、同一分辨率下,端到端延迟能不能稳定降 2 倍以上;如果没有,这篇论文的价值还是偏算法展示,不是部署拐点。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
10:08
25d ago
arXiv · cs.CL· atomEN10:08 · 04·02
超越检测:自动化阅读障碍拼写错误归因的伦理基础
这篇论文把阅读障碍拼写错误归因建成二分类任务,并在写作者独立条件下把双输入神经模型做到93.01%准确率、94.01% F1。模型输入是错拼词与正确目标词,特征覆盖正字法、音系和形态属性;最强信号是语音上合理的错误与元音混淆。真正值得盯的是部署边界:论文把公平性、可解释性、同意、透明度、人类监督与申诉列为教育场景前提,结论不是“能做”,而是“高风险场景不能只看精度”。
#Benchmarking#Safety#Interpretability#Research release
精选理由
论文给出可验证指标,也把教育部署的同意、透明度和申诉边界写进讨论,HKR-K 成立。场景局限在阅读障碍错误归因,缺少代理、产品或平台含义,HKR-H 与 HKR-R 都弱,放在 all 的低位。
编辑点评
这篇论文把“识别支持需求”往“自动贴标签”推近了一步。93.01% 准确率不低,我对教育场景里的滥用风险比模型分数更警觉。
深度解读
论文把阅读障碍错误归因做成二分类,并在写作者独立评测下做到93.01%准确率、94.01% F1。我的判断很直接:技术上它已经够“能用”,制度上它远没到“该用”。这两者差得不只是几页 ethics discussion,而是用途边界。你把它放进辅写工具,和你把它放进学校筛查流程,风险不是一个量级。 我比较认同作者没有把高分包装成部署许可。错拼词加目标词,这个设定很强,因为它把任务从开放文本理解收窄成配对判别。音系合理错误、元音混淆能拉高信号,这也符合过去几十年 dyslexia 研究里的老结论。就这点说,这篇不是凭深度模型“学出玄学特征”,而是在吃一个本来就存在的人类可解释结构。这个路数比很多教育 AI 论文老实。 我还是有个明显保留。正文没披露数据规模、语言分布、年龄层、子群体切分口径,也没给出部署时的基线误伤成本。93.01% 放在论文里很好看,放在校园里就完全不是一回事。假设阳性比例很低,哪怕 F1 很高,假阳性也足够把一批学生推向不该有的标签。教育场景最怕的不是模型看不见,而是机构太愿意相信它看见了。 这条让我想到前些年自动作文评分和情绪识别进校园的争议。那类系统一开始也都强调“辅助老师”,后面很快就滑向排序、预警、筛查。阅读障碍归因比作文打分更敏感,因为它碰的是学习障碍标签,后面连着资源分配、家校沟通、心理压力,甚至特殊教育流程。作者把 consent、transparency、human oversight、recourse 写进去是对的,但我说实话有点怀疑:学校采购时,谁会真的为申诉和人工复核买单? 还有一个技术外的问题。这个任务依赖“错拼词+正确目标词”,现实里谁来提供目标词?如果来自人工标注,成本高。如果来自自动纠错器,前一层系统的偏差会直接传进归因器。文章摘要没展开这层串联误差,我还没查到全文细节。少了这块,离真实部署还差一大截。 所以我对这篇的评价不低。它有价值,不在于“终于能识别 dyslexic writers”,而在于它把一句很多人不爱听的话写得很清楚:教育里的高准确率,从来不自动等于高正当性。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
10:03
25d ago
● P1arXiv · cs.CL· atomEN10:03 · 04·02
从猜测到占位:面向不确定性感知代码补全的成本理论框架
论文提出 Adaptive Placeholder Completion,用显式占位符替代高熵位置的硬补全,并在 1.5B 到 14B 参数模型上把预期编辑成本降了 19% 到 50%。作者分析 300 万次真实交互后发现,61% 的建议虽与用户后续代码相似度超 80%,仍在接受后被编辑或被直接拒绝。真正值得盯的是训练机制:方法从真实编辑日志构造数据,并用基于成本的强化学习奖励学习何时留空。
#Code#Reasoning#Fine-tuning#Research release
精选理由
这不是常规代码补全论文刷分。作者用300万次真实交互训练“何时留空”,并在1.5B到14B模型上把预期编辑成本降19%-50%;HKR三项都成立。分数没到85,因为它还是研究稿,离主流产品落地差一层。
编辑点评
这篇论文把代码补全从“猜对更多”改成“少猜错几处”,方向我买账;Copilot 类产品早该把弃答学成一等能力。
深度解读
作者用 300 万次真实交互证明了一件事:代码补全里有 61% 的建议,即便和用户后续代码相似度超过 80%,最后还是被改写或直接拒绝。这个数字很扎实,也直接戳破了一个老问题——我们一直拿 token-level accuracy、pass@k、甚至编辑前相似度当代理指标,但开发者真正付出的成本,常常卡在那几个模型“自信乱补”的高熵位置。 我对这条的判断很明确:这不是一个小修小补的 UX 技巧,而是在给代码助手补一块长期缺失的目标函数。过去两年,行业默认“更长、更完整”的补全更好,很多产品还会把整段函数补完当能力展示。这个前提本身就有问题。对程序员来说,改错一处变量名、接口参数或控制流分支,认知负担通常比自己填一个明确留空位更高。论文把这个直觉形式化成 cost-theoretic framework,再用 RL 学“什么时候别硬写”,这一步比“占位符”三个字本身更有价值。 外部对比也很清楚。去年到今年,代码模型主线一直是把 benchmark 往上顶:SWE-bench、HumanEval、LiveCodeBench、repo-level completion,大家都在比通过率和长上下文。Cursor、GitHub Copilot、Codeium 这类产品的产品逻辑也相近:先尽量给出完整答案,再靠用户 Tab、Esc、局部编辑去收尾。这个范式默认拒答是失败。APC 反过来把“有控制地弃答”当成功策略的一部分,这和检索问答里 selective prediction、分类任务里的 abstention 更接近。说真的,这个想法在别的 ML 子领域不新,在代码补全里反而一直缺位,挺反常的。 论文里给出的收益是 1.5B 到 14B 模型上预期编辑成本下降 19% 到 50%。这个区间很大,我会先保守看。因为摘要没有披露三件关键事:第一,编辑成本的具体定义和权重怎么设;第二,RL reward 是否高度依赖特定 IDE 交互日志;第三,placeholder 的样式、数量、跳转方式会不会把收益放大在实验环境里。我自己对“50%”这种上界天然会留个问号。代码助手论文经常在离线回放里很好看,线上一接入真实工程、延迟、语言切换、插件兼容,收益就会掉一截。这里作者至少给了真实日志来源,这比纯合成 benchmark 靠谱,但正文没展开,我还不能完全买单。 还有一个我挺在意的点:这套方法的价值,和模型大小未必强绑定。摘要写了 1.5B 到 14B 都有效,这反而说明它更像产品层和训练目标层的改造,不只是“大模型更强”的自然结果。这个判断很重要。过去很多团队遇到代码补全不稳,第一反应是换更大的基座、加更多仓库数据、加更长上下文。APC 提醒的是另一条路:如果错误集中在少数高熵 token,最优动作不是继续猜,而是把不确定性显式暴露给用户。这个思路对端侧、小模型、企业私有部署尤其有意义,因为这些场景算力预算最紧,没法永远靠 bigger model 硬推。 我也有一个保留意见。占位符在 IDE 里是不是低成本,强依赖交互设计。若 placeholder 跳转顺滑、语义标签清楚,用户会觉得像 snippet tab-stop;若只是吐出一堆空洞标记,体验会很快变差。也就是说,这篇论文表面在讲模型训练,落地时其实是 model × IDE 联合设计问题。历史上很多代码补全方案输就输在这里:离线指标提升,线上交互摩擦把收益吃掉。JetBrains 很早就在模板和多光标编辑上证明过,编辑器交互本身就是能力的一部分;只改模型不改 IDE,效果常常不完整。 我还想补一个更大的背景。过去一年 agent coding 很热,很多团队把焦点放在“让模型独立写更多文件”。这篇论文走的是反方向:先承认模型在局部位置就是不知道,再把不知道设计成协作接口。我一直觉得这条更接近真实开发。多数工程工作不是一次性生成 50 行,而是在人脑已知目标下处理 2 到 5 个不确定点。谁能把这些点标得准、留得稳、补得快,谁的日常留存会更好。 所以,这篇论文我会把它看成代码助手从 accuracy 竞赛转向 decision quality 的一个信号。标题说的是 placeholding,我读下来更关键的是 calibrated abstention。要是后续正文能披露线上 A/B、不同语言拆分、以及对接受率和延迟的影响,这条会更硬。现在这版已经够让我认真看了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
09:46
25d ago
arXiv · cs.CL· atomEN09:46 · 04·02
语言预训练诱导偏置:通用视觉任务的强基础
论文提出在 LLM 与视觉任务间加入 bridge training,并用 random label bridge training 对齐参数,条件是不依赖人工标注。摘要称语言预训练模型与视觉预训练模型的离群参数比例差异显著,跨模态适配因此比跨域迁移更难。作者还称 partial bridge training 常更优,因部分 LLM 层即使不做视觉微调也保留基础能力;正文未披露模型规模、数据集与量化结果。
#Vision#Multimodal#Fine-tuning#Research release
精选理由
有 HKR-H 与 HKR-K:标题有反直觉点,摘要也给出可讨论的机制。短板是正文未披露模型规模、数据集和量化结果,行业读者难判断强度;HKR-R 不足,所以进 all,不到 featured。
编辑点评
论文提出 random label bridge training,且不靠人工标注。这个方向我买一半:想法有劲,但正文没给模型、数据集、指标,现阶段还像机制猜想,不像可复现实验结论。
深度解读
论文声称 bridge training 能把语言预训练参数拉到视觉任务上,条件是加入一个无人工标注的 random label 阶段。我的第一反应不是“LLM 终于能做视觉底座”,而是作者在试图解释一个老问题:为什么语言模型迁到视觉,常比 NLP 内部迁移难得多。摘要给出的钥匙是 outlier parameter ratio 差异显著,但正文摘录没有披露模型规模、层数、视觉任务类型,也没有量化“显著”到底是多少,这会直接决定这条结论是普适规律,还是某组架构上的局部现象。 我对这条的兴趣点,其实在 partial bridge training。作者说部分层不做视觉微调,反而能保留基础能力。这说法我不排斥。过去一年里,多模态模型反复出现一个经验:底层表征和中层路由,未必需要全量重写。像早期 LLaVA、Q-Former 路线,本质上就是承认语言主干不该被视觉信号粗暴灌穿;很多工作最后有效的,不是“把 LLM 变成视觉模型”,而是给它加一个窄桥,把视觉特征翻译到它已经会处理的 token 空间里。这个论文如果成立,等于把这种工程经验往参数统计上推进了一步:不是因为 adapter 好用,而是语言预训练本身在某些层里留下了可迁移结构。 但我对 random label 这块有点怀疑。随机标签训练能起作用,通常说明目标不是学语义,而是在改优化几何、激活分布,或者修正参数尺度。这个解释是通的,可也带来一个问题:收益到底来自“跨模态对齐”,还是来自任何足够便宜的扰动式预适配?如果把 random label 换成 shuffled caption、合成噪声目标、甚至自监督 reconstruction,结果差多少?摘要没说。没有这组消融,我不会急着把它看成一种新范式,更像一种便宜的 initialization surgery。 这里还有一个文章外的参照。视觉界以前也有“随机目标也能学到有用表征”的脉络,像 early self-supervised 和一些 lottery-ticket 式观察都碰过这个边。语言侧也一样,很多人这两年发现 instruction tuning 改变的常是输出分布和路由习惯,不一定重写底层知识。把这两条放一起看,这篇论文最有价值的部分,不是“LLM 可直接做视觉”,而是它在挑战一个默认前提:跨模态失败,未必是知识缺失,很多时候是参数空间和训练路径不兼容。 问题也正卡在这里。摘要说 cross-modality 比 cross-domain 更难,这个判断方向大概率对,但缺少比较基线就站不稳。到底是拿语言→视觉,对比语言→代码,还是对比 vision→medical vision?差一个基线,结论强度完全不同。还有,作者提到 outlier parameter ratio,我想看的是层级分布、激活重尾程度、以及 bridge 前后哪些层发生移动。如果只给一个全局比例,那很容易变成“统计上好看,工程上不知道怎么用”。 所以我现在的判断很直接:这篇东西像一篇值得追正文的机制论文,不像已经坐实的通用方法论文。要让我信,它至少得补四样东西:模型名字和规模,视觉任务与数据集,full vs partial bridge 的量化差距,random label 相对其他 cheap objective 的消融。补齐这些,它就不只是一个有趣解释,可能会影响多模态训练里“全量微调是不是必要”这个老决策。现在只有标题和摘要级信息,我还不会把它当成 vision-language transfer 的新共识。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
08:55
25d ago
arXiv · cs.CL· atomEN08:55 · 04·02
DEFT:面向人类对齐的分布引导高效微调
论文提出 DEFT 框架,用分布差分奖励筛出小规模高质量偏好子集,并把该信号接入现有对齐方法,以更少训练时间提升对齐与泛化。机制是同时利用语言模型输出分布和偏好数据差异分布计算奖励;摘要未披露样本量、基座模型规模与具体增益。
#Fine-tuning#Alignment#Research release
精选理由
这篇 arXiv 论文命中 HKR-K:摘要说明了用分布差分奖励筛出小规模偏好子集,并接入现有 human alignment 方法。HKR-H 与 HKR-R 偏弱,因为摘要未披露样本量、基座模型、训练时间节省和具体增益,行业读者暂时拿不到可验证的强结论。
编辑点评
DEFT 用“小子集筛选+分布奖励”压缩对齐成本,这个方向我买账;但正文没给样本量、基座规模和增益,现阶段还谈不上方法级突破。
深度解读
DEFT 这篇先做了一件务实的事:它把“多收偏好数据”改成了“先挑更值钱的数据”。摘要给出的核心事实很清楚,框架用模型输出分布和偏好差分分布算奖励,再从原始偏好数据里筛出一个小规模子集,接进现有对齐方法,目标是同时提升对齐与泛化,并减少训练时间。这个思路我基本认同,因为 RLHF 这两年卡住的地方,本来就不只是 PPO 不稳定,还是偏好数据太贵、太脏、重复度太高。很多团队内部早就在做各种启发式 filtering,只是论文里常写成 data curation,不把它放到方法主位上。DEFT 把筛数机制抬到台面,这点是有价值的。 我对它的保留也很直接。摘要没披露三个关键量:样本量、基座模型规模、具体增益。没有这三项,"显著减少训练时间"这句话很难判断。训练时间减少 30%,和减少 90%,含义完全不同;在 7B 模型上成立,和在 70B 模型上成立,也不是一个级别。标题已经给出框架名,正文摘要没给可复现条件,这里不能替作者补。说实话,我对很多 alignment 论文里“更少数据还更强泛化”的说法都比较谨慎。过去一年这类结果经常成立在固定 benchmark 上,换任务族或换 judge model 就回落。尤其只要方法里带 data filtering,第一反应就该问:它筛掉的是噪声,还是顺手也筛掉了难例?如果难例被系统性排除,离线指标会上去,部署后的边角场景反而更脆。 从外部参照看,DEFT 落在一个已经很拥挤、但还没定型的技术带上。DPO、IPO、KTO、ORPO 这一串方法,过去一年都在试图绕开 PPO 的高成本和高方差;很多开源对齐配方也在把 SFT、preference optimization、rejection sampling 混着用。DEFT 的新意如果成立,不在于它又造了一个替代 RLHF 的口号,而在于它把“分布差异”变成了可操作的筛选信号。我自己没看到全文,不确定这个 differential distribution reward 到底是 KL 类目标、ranking-style reward,还是更像 density-ratio 的近似。如果只是给已有 pipeline 加一层样本重加权,那工程价值可能高于学术新颖性;反过来,如果它真能稳定改善 out-of-distribution generalization,那就比多数 preference-tuning 小修补更硬。 还有一个我会追问的点:这个方法是否依赖当前模型本身的输出分布来筛数据。如果答案是依赖,那它天然带有 bootstrap 偏见——模型先天看不懂、答不好的样本,容易被当成低价值样本排掉。这样做会让训练更高效,也会让模型更像自己,未必更像人类偏好。Anthropic 和 OpenAI 过去公开过的一些对齐经验里,都反复碰到这个问题:用模型自己生成或评估信号,效率会上来,但分布会收窄。我还没查到 DEFT 有没有专门处理这个塌缩风险。 所以这篇我会先给“方向正确,证据未满”的判断。要让我提高评级,至少得看到四样东西:筛选后保留比例、训练时长或 FLOPs 节省、跨模型规模复现、还有在 out-of-domain 任务上的具体分数。没有这些,它更像一个值得试的 training recipe,不是已经坐实的新对齐范式。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R0
08:44
25d ago
arXiv · cs.CL· atomEN08:44 · 04·02
Taming CATS:用控制 token 指令微调实现可控自动文本简化
论文提出一个领域无关的 CATS 框架,用离散控制 token 指令微调 Llama、Mistral、Qwen 三个模型族的 1–14B 模型,定向控制可读性等级和压缩率。实验覆盖医学、公共管理、新闻、百科 4 个领域;结果显示 1–3B 小模型也能竞争,但稳定可控性取决于训练数据里目标属性的变异度,且压缩控制弱于 FKGL、ARI、Dale-Chall 可读性控制。真正值得盯的是评测:正文指出常见简化与相似度指标测不准控制,对齐误差指标和避免分布失配的数据划分更关键。
#Fine-tuning#Benchmarking#Llama#Mistral
精选理由
这篇 arXiv 论文有明确新信息:它在 1–14B 模型、4 个领域上测试离散 control token 指令微调,并指出常见简化指标测不准控制误差。题目偏窄任务评测,和 agent 或产品更新关联弱,HKR 只有 K 明显成立,所以给 all。
编辑点评
CATS 用 1–14B 开源模型做出了可控简化,这条不新;它把问题从“怎么解码”拉回“数据有没有控制信号”,这一下更像在纠正整个子领域的偷懒评测。
深度解读
CATS 这篇把可控文本简化拉回了一个更老派、也更扎实的结论:控制先是监督信号问题,后才是生成技巧问题。作者拿 Llama、Mistral、Qwen 的 1–14B 模型做指令微调,用离散 control token 去控可读性和压缩率。结论很直接:FKGL、ARI、Dale-Chall 这类可读性目标能学稳,压缩率学不稳;1–3B 小模型也能打,但前提是训练集里目标属性本身有足够方差。这个判断我买账,因为它解释了过去几年很多 controllable generation 论文一个很别扭的现象:解码策略越写越花,控制效果却不稳定,最后常常只是把 prompt 包装成“可控”。 我一直觉得,文本简化这条线有个老问题:社区太爱把“简化质量”和“控制精度”混成一件事。T5、BART 那一代做 simplification 时,SARI、BLEU、BERTScore 这些指标就已经经常互相打架;你把句子改得更短,不代表你打到了指定年级;你把术语换成常用词,也不代表压缩率贴近目标。CATS 这里明确说标准 simplification/similarity metrics 测不准 control fidelity,这个批评是对的。很多论文其实在测“像不像参考答案”,不是在测“有没有按指定控制量输出”。如果目标是 level 3 可读性或 30% 压缩,误差型对齐指标就该进主表,不该只放附录。 有意思的是,小模型结果不错。1–3B 仍有竞争力,这和过去一年很多 task-specific instruction tuning 的经验是对得上的:只要标签定义清楚、目标空间不乱,小模型学条件映射并不差。我记得去年一些 style transfer 和 constrained rewriting 论文也有类似结论,7B 往上常常提升 fluency,不一定提升 controllability。本题里如果 1–3B 已经能接近 14B,含义不是“大模型没用”,而是这类任务的瓶颈不在参数量,更多卡在数据覆盖和标签设计。对做产品的人,这很实际:企业内的法规改写、医疗说明降难、客服话术分层,未必要上最贵那档模型。 我对这篇最认同的一点,是它把分布失配单独拎出来。naive split 会把训练和测试的控制分布切坏,这个问题在很多 benchmark 里都存在,只是平时没人认真报。比如如果高压缩样本本来就少,随机切分后测试集刚好多一点极端样本,模型看上去像“泛化差”;其实是训练时根本没见够目标范围。这个洞不只在 ATS 里。做 instruction tuning 的人都见过,标签桶分布一歪,模型就学会均值回归,输出往中间缩。CATS 至少把这件事说明白了。 我也有保留。第一,正文摘要没有披露 control token 的具体设计、token 数量、以及不同模型族是否共用同一离散方案;这些细节会直接影响可迁移性。第二,压缩控制弱,作者归因于语料里 signal variability 不足,我觉得只说到一半。压缩率本身就是一个更脏的目标:它和删除、释义、句法重排纠缠在一起,还受 tokenizer、句子边界、信息保真约束影响。你让模型学“30% 压缩”,很多时候它学到的是“删掉修饰语”这个廉价策略,不是结构化重写。第三,标题写 domain-agnostic,我会谨慎一点。医学、公共管理、新闻、百科这 4 类已经比单域强,但离真正的跨域还差一截。法律合同、教育材料、用户论坛,这些文本的简化目标和容错空间都不一样。现在我还不愿意把它叫成通用框架。 说真的,这篇对从业者的价值不在“又一个 controllable generation recipe”,而在它把评测口径掰正了一点。过去不少 ATS 工作把解码调得很复杂,最后只给一个 SARI 或 BERTScore,就宣布模型“可控”。这篇至少提醒你:先检查训练数据里目标属性有没有覆盖,再问模型会不会控制;先看 target-output alignment error,再谈生成质量。要是正文后续实验真能给出按属性分层的误差曲线、不同 split 策略下的掉点幅度,这篇会比很多大词很满的 controllable text generation 论文更有用。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R0
08:30
25d ago
arXiv · cs.CL· atomEN08:30 · 04·02
FourierMoE:大语言模型的傅里叶混合专家适配
论文提出 FourierMoE,在 28 个基准上用更少可训练参数完成 LLM 单任务与多任务微调,并报告结果持续优于竞品 PEFT 基线。方法把适配从空间域改到频域:路由器按频带分发 token,专家学习共轭对称复系数,再经 IDFT 无损还原为实值权重。真正该盯的是机制变化,不是又一个 MoE 名字。
#Fine-tuning#Benchmarking#Tools#Research release
精选理由
这篇论文有具体机制和28个基准结果,HKR-K成立。问题在于主题落在频域 PEFT 与 MoE 路由,理解门槛高,正文也未披露代码、训练成本或生产替换条件,触发 hard-exclusion-technical-accessibility fail,因此排除并将分数压到39以下。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
08:22
25d ago
● P1arXiv · cs.CL· atomEN08:22 · 04·02
LiveMathematicianBench:面向数学家级推理与证明草图的实时基准
论文提出 LiveMathematicianBench,用训练截点后的 arXiv 新定理评测研究级数学推理;Gemini-3.1-pro-preview 常规设置仅得 43.5%。该基准含 13 类定理逻辑分类、证明草图引导干扰项和抗替换机制;抗替换评测中 GPT-5.4 最高 30.6%,Gemini-3.1-pro-preview 降至 17.6%,低于 20% 随机线。真正值得盯的是,它在压测答案识别与实质推理的差异。
#Reasoning#Benchmarking#arXiv#Google
精选理由
这篇稿子 H/K/R 三项都过:live 数学推理 benchmark 有新鲜度,摘要也给出机制与分数,不是空泛刷榜。重要性落在 78-84 档;它会引发评测讨论,但还没到改写产品路线或行业叙事的级别。
编辑点评
LiveMathematicianBench把Gemini-3.1-pro-preview压到43.5%,这条我买账一半:它确实在测研究级数学,但更像在揭穿模型会不会认答案。
深度解读
LiveMathematicianBench用训练截点后的 arXiv 定理评测模型,Gemini-3.1-pro-preview 标准设置 43.5%,替换抗性设置里 GPT-5.4 最高 30.6%。我对这组结果的判断很直接:这篇论文的价值,不在于又做了一个“更难数学集”,而在于它把很多模型擅长的那部分能力拆开了——选项识别、表面模式匹配、 proof sketch 跟随,这些和“自己推出来”不是一回事。 20% 随机线这件事很扎眼。Gemini 在 substitution-resistant 里掉到 17.6%,低于五选一随机猜测。这个结果如果复现实验无误,说明替换机制不是单纯加难度,而是在系统性打掉模型原先依赖的捷径。我一直觉得,过去一年很多数学 benchmark 的高分都掺着“格式熟悉度”红利。MATH、AIME、OlympiadBench 这类题集很有用,但它们的题型、语气、解法套路已经被公开语料反复覆盖。拿 arXiv 新定理做后截点评测,至少把 contamination 这个洞补上了一大块。 这篇还有个设计我比较认可:它不用完整证明做唯一标准,而是引入 13 类定理逻辑分类,再配 proof-sketch-guided distractors。这个思路比单看 final answer 更像研究场景。研究数学里,很多时候先看你抓没抓到 existence、uniqueness、equivalence 这种逻辑骨架,再看你能不能补细节。我记得 FrontierMath 早些时候也在推“前沿、低污染、高门槛”这条线,但它偏自由生成,评分和可扩展性都更难。LiveMathematicianBench 把题做成多选,学术味淡一点,工程可复现性高很多,这个取舍我能理解。 我还是有两个保留。第一,正文没披露样本量、选项数分布、替换机制具体怎么做。17.6% 低于 20% 看着很狠,但如果不是严格五选一,或者不同子集选项数不一致,这个“低于随机”就要重新解释。第二,proof sketch 会带来一致增益,这件事不能自动推出模型具备高水平数学抽象。它也可能只是更会沿着提示缩小搜索空间。说实话,我对很多“模型会用策略所以在推理”的说法一直有点怀疑;会跟随高层提示,和会自己发明高层策略,中间差了至少一层能力。 还有一个文章里没展开、但从过去一年的模型表现看很关键的背景:前沿模型在竞赛数学和形式化证明上已经分叉了。一个方向是刷 AIME、USAMO 风格题,靠长链推理和 test-time compute 提分;另一个方向是 Lean、Isabelle 这类 formal proof,靠可验证搜索逼近正确性。LiveMathematicianBench 卡在两者之间:它评的是研究论文里的新定理,却仍然是自然语言多选。这个位置很聪明,因为它避开了 formalization 成本;这个位置也有局限,因为多选题天然允许 elimination 和 pattern prior。论文自己其实已经承认了这个问题,所以才加 substitution-resistant 机制。我的看法是,这部分才是整篇最有信息量的地方。 如果后续版本能把每道题的 proof sketch 来源、干扰项构造规则、标注一致性和模型温度设置都公开,这套 benchmark 会很有用。要是这些没披露,它更适合当研究信号,不适合拿来排产品榜。现在我会把它读成一句不太客气的话:很多模型在“数学推理”上的进步,至少有一部分还是答题术,不是定理理解。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
08:06
25d ago
arXiv · cs.CL· atomEN08:06 · 04·02
保加利亚语文本毒性检测:本体与 BERT 方法
论文提出两种保加利亚语毒性检测方法,并在4,384条人工标注论坛句子上把BERT分类器做到0.89宏平均F1。数据分四类:毒性语言、医学术语、非毒性语言、少数群体相关术语;另一条路线是构建保加利亚语潜在毒性词本体。真正值得盯的是,它把医学和少数群体术语单独分层,目标不是多拦截,而是少误杀。
#Safety#Benchmarking#Research release#Safety/alignment
精选理由
这篇论文有清楚的新信息:4,384条人工标注语料、四类标签设计、0.89宏平均F1,且把医学术语和少数群体术语单列,重点是减少误判拦截。语言范围很窄,离主流模型、产品发布和代理工作流都远,HKR只过K,放在all。
编辑点评
论文把保加利亚语毒性检测做到0.89宏F1,但这条更像“小语种标注规范”论文,不是可直接上线的审核答案。
深度解读
这篇论文用4384条论坛句子把保加利亚语毒性分类做到0.89宏F1,但我对“可直接用于真实环境”这句保留意见。数字不差,问题是正文只给了宏平均F1,没给训练测试切分、各类样本分布、阈值、混淆矩阵,也没披露标注一致性。做过审核的人都知道,少了这几项,0.89离上线还差很远。 我觉得这篇最有价值的地方,不在BERT本身。BERT做四分类,2026年已经不是技术亮点。它把“医学术语”和“少数群体相关术语”单独拎出来,这个标注设计才是重点。很多毒性系统坏就坏在这里:模型把identity terms和疾病词当成风险代理,最后不是漏拦脏话,就是误杀患者讨论、少数群体自我指称和新闻语境。英文世界这坑早就踩过,Perspective API 和 Jigsaw 那几年被反复拿出来批,说的就是这个偏差:同一句子,只因出现 gay、Muslim 这类词,毒性分数就抬高。保加利亚语这篇至少在任务定义上是清醒的,它想修的是误杀,不是把召回继续堆高。 我也得泼点冷水。4384条样本对“小语种起步研究”够用,对审核部署偏小。四类一分,每类实际样本数如果不均衡,宏F1会比线上体验好看。文章摘要还没说清楚模型用的是哪一个BERT变体,是保加利亚语单语模型,还是multilingual BERT;也没说论坛来源、时间跨度、是否去重、是否按主题分层切分。这里的泄漏风险很现实:同一论坛里相似表达很多,随机切分很容易把模板化语言分到训练和测试两边,分数会被抬上去。 本体那条线我反而觉得有点老派,但不是没用。词本体单独拿来做检测,召回和迁移一般不会太强,遇到变体拼写、谐音、反讽、上下文翻转,词表很快失效。可在审核系统里,它可以做别的事:给标注员统一边界,给模型输出做可解释审计,给政策团队列出“哪些词在医学语境无害、在辱骂语境有害”。这类资产在小语种上很缺。大厂英语系统能靠海量数据吃掉很多歧义,小语种没这个奢侈,先把ontology和policy写清楚,常常比盲目追更大模型更实在。 我还有一个疑虑:摘要把“少数群体相关术语”单列成类,这一步很有必要,也很危险。必要在于减少误杀。危险在于一旦产品团队偷懒,把这类标签直接当成“敏感内容”路由,系统就会从反偏见滑向制度化偏见。正文没披露他们怎么定义 minority-related terms,也没说是否区分自我指称、引用、攻击、学术讨论四种语用场景。没有这层,数据集的价值会被产品侧误用。 所以我对这篇的判断很明确:它在“小语种审核任务定义”上做对了一步,在“可部署性”上证据还不够。要让我更信,我想看三样东西:第一,各类precision/recall,尤其医学和少数群体两类的误杀率;第二,跨论坛或跨时间测试,而不是只在同分布里跑;第三,和更强基线比,比如XLM-R、mDeBERTa,或者至少给出人工规则+词表的对照。现在这篇更像给保加利亚语内容审核打地基,不像已经把楼盖起来了。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H0·K1·R0
07:53
25d ago
● P1arXiv · cs.CL· atomEN07:53 · 04·02
从 BM25 到 Corrective RAG:文本与表格文档检索策略基准测试
论文在含文本与表格的金融问答集上比较10种检索策略,覆盖23,088个查询与7,318份文档。两阶段方案把混合检索与神经重排结合,Recall@5达0.816、MRR@3达0.605,显著强于单阶段方法。真正该盯的是反直觉结果:BM25在金融文档上胜过SOTA稠密检索,HyDE、多查询与自适应检索对精确数值题增益有限;作者还开源了完整基准代码。
#RAG#Benchmarking#Tools#Research release
精选理由
HKR 三项都成立。反直觉结论很抓人:BM25 在金融文本+表格任务里压过稠密检索;正文还给出 23,088 个查询和两阶段方案 0.816 Recall@5、0.605 MRR@3。分数留在 80,因为它是垂直场景基准论文,不是会带动全行业当天跟进的大事件。
编辑点评
这篇论文用 23,088 个查询把一个老事实又钉了一遍:做金融 RAG,先别迷信稠密检索,BM25 还没退场。
深度解读
这篇基准把两阶段检索推到 Recall@5 0.816、MRR@3 0.605,也顺手戳破了“混合文档里稠密检索天然更强”这层行业惯性。 我对这条结果是买账的。金融文档不是通用网页,也不是聊天语料。ticker、会计科目、脚注编号、表头缩写、百分号、小数位,这些信号高度词法化。你把“diluted EPS”“Q3 2024”“Note 7”“bps”这类 token 打散进 embedding,语义上看着接近,定位上经常跑偏。BM25 在这种场景里赢,并不反常;反倒是过去一年很多 RAG demo 把 dense retrieval 当默认项,这个我一直觉得有点偷懒。企业知识库里只要实体名密、缩写多、数字多,稀疏检索经常就是更硬的起点。 论文里更有价值的,不是“hybrid + reranker 最强”这个结论本身,而是它给了一个可复现的幅度:两阶段显著领先单阶段。这个和过去一年 production RAG 的经验是对得上的。很多团队最后都收敛到 BM25 或 hybrid 先召回,再用 cross-encoder 或 reranker 收口,因为第一跳负责别漏文档,第二跳负责别把表格附近的错段落排前面。长上下文没有把这个问题消掉。上下文窗口变大,只是让你有机会把更多错东西一起塞进去。 我也认同它对 HyDE、多查询、自适应检索的冷处理,尤其是“精确数值题增益有限”这点。数值问答最怕的不是召回不够广,而是把相近但不相同的数字一起召回。你扩写 query,常常会把“revenue”扩到“net sales”,把“operating margin”扩到“gross margin”,表面召回更高,生成端反而更容易抄错列、错期、错单位。这个现象在财报、合同、风控报表里都常见。我自己也见过不少系统,offline Recall 漂亮,最后 Number Match 一塌糊涂。 但这篇稿子现在给我的信息还不够让我完全下结论。摘要没披露 dense retriever 的具体名字,没说是 bge、e5、contriever 还是金融域微调版本;也没给 reranker 型号、切块策略、表格线性化方法、token 预算、单次查询成本。没有这些,你很难判断“BM25 胜过 SOTA dense”到底是范式结论,还是实现细节没吃满。尤其表格检索,chunk 是按行、按表、按段,差别会非常大。作者说给了 cost-accuracy recommendation,这部分我想看原文数字;没有每千查询成本和延迟,工程上还谈不上可执行。 说真的,这篇论文最该影响的,不是 leaderboard,而是默认配置。过去一年不少 RAG 框架把 query expansion、agentic routing、adaptive retrieval 包成标准套餐,像是不加就落后。这个基准给出的信号更朴素:面对文本+表格的金融文档,先把 BM25、hybrid fusion、reranker depth、contextual retrieval 调明白,再谈花活。检索层的复杂度不是越多越好,尤其当答案是一个数字时,额外“智能”经常只是在扩大误差面。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
07:24
25d ago
arXiv · cs.CL· atomEN07:24 · 04·02
面向越南语语音情感识别的 LLM 人类引导推理
该论文在 2764 条越南语语音上,用人类规则引导的 LLM 推理做情感识别,最高准确率达 86.59%。方法先用声学特征模型给出置信度和特征证据,再把模糊样本路由给 LLM 按标注规则深推;数据含 calm、angry、panic 三类,Fleiss Kappa 为 0.8574,Macro F1 约 0.85-0.86。真正值得盯的是人机协同和置信度路由,正文未披露所用 LLM 名称与推理成本。
#Reasoning#Audio#Benchmarking#Research release
精选理由
HKR-K 成立:论文给出 2764 条语音、86.59% 准确率、0.8574 一致性,以及低置信样本交给 LLM 的机制。HKR-H/R 偏弱:题材局限在越南语情感识别,正文未披露 LLM 名称与推理成本,离通用产品信号还远。
编辑点评
论文把 2764 条越南语语音做到 86.59% 准确率,这个成绩不算惊人;我更买账的是“低置信样本才交给 LLM”这条工程思路。
深度解读
论文在 2764 条越南语语音上把三分类准确率做到了 86.59%,但这条的重点不是分数,而是它承认端到端模型在模糊样本上会失手。作者先让声学特征模型处理高置信样本,再把低置信样本路由给 LLM,按人工标注规则补一层推理。这个设计很务实,尤其适合低资源语种,因为你最缺的往往不是模型,而是稳定标注和可解释纠错链路。 我对 86.59% 这个数字本身没有太强感觉。数据只有 2764 条,类别只有 calm、angry、panic 三类,任务难度和常见的多情绪 SER 还不是一个量级。Fleiss' kappa 0.8574 说明标注一致性不错,这比单纯报 accuracy 更有说服力;至少 ground truth 没那么飘。问题也在这里:正文只有 RSS 摘要,没给基线模型名字、置信度阈值、LLM 名称、prompt 结构、调用比例、单样本成本。这些都不披露,外部几乎没法判断 86.59% 里有多少来自 routing,本身有多少来自更强的 acoustic encoder。 这套方法让我想到过去一年不少“selective generation / cascade inference”的做法:简单样本走便宜模型,难样本再交给更贵模型,目标不是刷绝对 SOTA,而是把成本花在边界样本上。这个思路放到语音情感识别里是成立的。我自己更关心两个复现条件。第一,低置信样本占比是多少;如果 40% 以上都要进 LLM,系统吞吐和成本会立刻难看。第二,规则是从标注员行为里抽出来的,还是研究者手写的;前者还能扩展,后者很容易过拟合这 2764 条数据。 我还对“model-agnostic”这个表述有点保留。理论上可以替换 LLM,工程上却未必一样。不同模型对声学描述文本、标签定义、越南语细粒度情绪线索的理解差很多,换模型就可能重跑 prompt 和规则。说白点,路由框架也许是通用的,效果曲线未必通用。要让我更信这条,至少得看到一组消融:不用 LLM、只加规则、不做 routing、换一个更小模型,分别掉多少分。现在摘要没给,我只能先把它看成一篇方向正确、证据还不够硬的低资源 SER 工程论文。
HKR 分解
hook knowledge resonance
打开信源
63
SCORE
H0·K1·R0
07:13
25d ago
arXiv · cs.CL· atomEN07:13 · 04·02
面向真实胃肠内镜人机协作的领域自适应语音识别开发与多中心评估
研究团队提出 EndoASR,并在 5 家独立内镜中心验证其实时语音识别,CER 从 16.20% 降至 14.97%,医学术语准确率从 61.63% 升至 84.16%。回顾性评估覆盖 6 名内镜医生,CER 从 20.52% 降至 14.14%,Med ACC 从 54.30% 升至 87.59%;模型 220M 参数,RTF 仅 0.005,快于 Whisper-large-v3 的 0.055。真正值得盯的是两阶段适配:基于合成内镜报告,同时补语言域适配和噪声鲁棒性。
#Audio#Fine-tuning#Benchmarking#Whisper
精选理由
多中心实测和明确指标让 HKR-K 成立。题材落在医疗细分 ASR,缺少通用 agent 或产品外溢,按硬排除 4 处理,分数封顶 39。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
07:00
25d ago
● P1arXiv · cs.CL· atomEN07:00 · 04·02
推理模式在长 Chain-of-Thought 监督微调泛化差异中的作用
论文比较 DeepSeek-R1-0528 与 gpt-oss-120b 生成的已验证 CoT 轨迹后发现:前者监督微调训练损失更低,但在推理基准上的泛化更差。作者把题集控制为相同,并分析 token 级损失与步骤级行为;gpt-oss-120b 轨迹更收敛、更偏演绎,DeepSeek-R1-0528 更分叉,筛掉高频分叉轨迹后,AIME25 提升 5.1%,BeyondAIME 提升 5.5%,五个基准平均提升 3.6%。
#Reasoning#Fine-tuning#Benchmarking#DeepSeek
精选理由
HKR 三项都成立:标题有反常识钩子,正文也给出可复现的筛选机制与 AIME25 +5.1%、BeyondAIME +5.5%、五基准均值 +3.6% 的结果。影响面主要在推理 SFT 与评测人群,不是全行业级新闻,所以给 featured,不到 p1。
编辑点评
论文把 DeepSeek-R1-0528 的长 CoT 毛病说得很直:训练更顺,不等于推理更强,分叉太多会把学生也带偏。
深度解读
作者用相同题集比较两套已验证 CoT,发现 DeepSeek-R1-0528 数据把训练损失压得更低,却让下游推理泛化更差。这个结果我买账,而且它戳穿了过去一年一个很偷懒的默认前提:只要 teacher 轨迹可验证、token loss 够低,学生自然会学到“更强推理”。这篇论文给的答案很直接,学生学到的先不是答案,而是搜索习惯。 摘要里给了三个硬点。第一,gpt-oss-120b 轨迹更收敛、更偏演绎。第二,DeepSeek-R1-0528 轨迹更分叉、更像到处试探。第三,把高频分叉轨迹筛掉后,AIME25 提升 5.1%,BeyondAIME 提升 5.5%,五个基准平均提升 3.6%。这说明问题不在“题对不对”,而在“解题过程长什么样”。同样是 verified CoT,质量差异可以落在轨迹形状上,不只落在 final answer。 这和很多人这两年做 long-CoT 蒸馏时的经验其实能对上。我一直觉得,长推理监督有个很烦的地方:模型会把“探索痕迹”当成“必要步骤”。训练时这很好学,因为局部 token 都有条件依赖,loss 往往很好看;测试时就出事,模型把本该一次走通的证明,学成了三四次岔路搜索。你在 math 和 code benchmark 上看到的,不是不会做,而是路径效率太差,context 被无效分支吃掉了。去年不少 open reasoning 数据集都偏爱保留完整思维过程,我当时就怀疑这会把 search style 一起蒸进去,只是很少有论文像这篇一样把 teacher source 控到一致题集再拆。 外部参照也很明确。OpenAI、Anthropic 过去一年的公开材料,越来越少直接放完整长 CoT,转去强调 outcome supervision、process reward、tool use traces,背后一个原因就是原始 CoT 很容易把脏搜索带进学生里。我没看到这篇正文,所以不清楚作者具体用的是纯 SFT,还是混了拒答筛选、长度控制、best-of-n 之类策略;正文未披露这些细节前,没法把结论外推到所有 reasoning pipeline。但“低训练损失不等于高泛化”这件事,和大家在 GRPO、RFT、process supervision 里反复撞到的墙是同一堵墙。 我对这篇也有两个保留。第一,摘要只说筛掉“frequently branching trajectories”,没说分叉的定义、阈值、统计粒度。是按 step 数、回溯次数、还是某种状态转移熵?如果这个指标设计得太贴近评测集风格,5.1% 和 5.5% 里会混进选择偏差。第二,比较对象是 DeepSeek-R1-0528 和 gpt-oss-120b。两者不仅是“轨迹风格不同”,也可能有 tokenization、长度分布、格式习惯差异。正文如果没有把平均长度、验证器规则、采样温度、pass@k 采样方式一起控住,那就还不能把锅全甩给 branching pattern。 但即便保留这些疑问,这篇的方向还是对的。它提醒大家别再把 reasoning data 当成“答案+解释”的静态语料,而要当成“搜索策略样本”。你监督的不只是结论链条,你在把老师的决策惯性拷给学生。对做后训练的人,这个信号很实用:先看轨迹有没有反复试探、回头改写、局部岔开,再看 loss 曲线。loss 漂亮,学生照样会学歪。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
06:37
25d ago
arXiv · cs.CL· atomEN06:37 · 04·02
注意力中的耦合式 Query-Key 动力学
论文提出耦合式 QK 动力学,在注意力打分前联合演化 queries 和 keys;60M 参数语言模型在 WikiText-103 上把困惑度从 24.22 降到 22.55–22.62,仅增 0.11% 参数。消融显示关键是 Q/K 耦合而非积分器类型或步数,单步已够;算力匹配下,标准注意力需训练 2.4× 更久才追平。真正值得盯的是适用边界:它在 PubMed 降 4.5%,在异构网页文本反而升 10.3%,GLUE 无收益。
#Reasoning#Inference-opt#Benchmarking#Research release
精选理由
HKR 只中过 K。论文给出明确机制和多组数字,知识密度够;标题偏学术,讨论点集中在 60M 小模型困惑度和数据分布边界,离产品更新或行业竞争还远,所以放在 all。
编辑点评
这篇论文用 0.11% 参数换来 WikiText-103 上 6.6% 到 6.9% 的困惑度下降,我买账一半:它更像“语料一致性偏置”,还谈不上通用注意力改造。
深度解读
论文在 60M 语言模型上,把 WikiText-103 困惑度从 24.22 降到 22.55–22.62,额外参数只加 0.11%。我的判断很直接:这不是“注意力终于被改写”那一类结果,它更像给 Q/K 投影塞进了一层很强的结构先验,让模型在主题稳定、局部统计重复的语料上更快收敛。 我会先买它的一个点:作者没有把功劳硬甩给 Hamiltonian 或更花的积分器。摘要里最有信息量的是消融。对称积分和 Euler 表现接近,1 到 7 步差别也不大,单步就够;反过来,参数量匹配但不做 Q/K 耦合的 MLP 只能到 23.81,而且 seed 方差高 8 倍。这个组合基本说明,收益不是数值分析技巧,也不是“多算几步更深了”,而是 Q 和 K 在打分前共享演化这件事本身。对做架构的人来说,这比 headline 更重要,因为它把搜索空间收窄了。 但我对“sample efficiency mechanism”这句会留个心眼。摘要说标准注意力要训练 2.4× 更久才能追平,同等 wall-clock 下需要 2.4× tokens。这个说法成立的前提,是实现没有把耦合动力学的常数项开销吃得太狠,而且训练配方、优化器、batch、序列长度都做了严格匹配。RSS 摘要没给这些细节,我还没法确认。学术论文里这类“算力匹配”经常在 FLOPs、wall-clock、tokens 三个口径之间来回切,最后结论会变味。标题已经给出效率结论,正文摘要没披露更细的训练配置,我不会把它直接当成部署收益。 边界条件反而让我更感兴趣。PubMed 降 4.5%,异构网页文本升 10.3%,GLUE 没收益,这组结果很说明问题。它像是在强化“相似 token 子空间会彼此拉着走”的偏置,所以在域内一致、术语复用高、文体稳定的语料上占便宜;一旦语料混杂、风格跳变、主题切换频繁,这种耦合就容易把本来该分开的 key/query 关系抹平,注意力分数反而被污染。说真的,这让我想到前两年很多状态空间模型和卷积替代路线的共同命运:在特定分布上很好看,一换到开放网页混合分布就掉。Mamba、Hyena 那波讨论里也反复出现过这个规律,我记得不少结果都是训练吞吐和长序列占优,但通用 LM 质量没有稳定碾压标准注意力;这里的味道有点像,只是作者选的是在注意力前加动力学约束。 还有一个信号不能忽略:150M 还能拿到 6.7%,350M 只剩 1.0%,而 Differential Attention 到了 18.93,已经压过 coupled dynamics 的 19.35。这基本在说两件事。第一,这个方法更像小中模型的样本效率补丁,不像大模型时代那种越放大越吃香的机制。第二,随着模型容量上去,标准注意力本身就能学到一部分“Q/K 协同整形”,显式耦合的边际价值会收缩。这个走势我挺在意,因为过去一年很多架构论文都卡在这里:小模型曲线很漂亮,规模一上去,优势被更简单的 recipe、数据清洗、或者别的注意力变体吃掉。 我还想 push back 一下 GLUE。摘要说 GLUE 无收益,这不奇怪,但它的解释价值也有限。GLUE 对 2026 年的架构判断力本来就弱,很多 token-level inductive bias 在这套任务上都测不出来。更有用的,我觉得应该是看长上下文检索、跨文档 QA、代码补全、以及 instruction tuning 之后的稳定性。尤其代码和 agent 轨迹数据,主题一致性高,但局部依赖也很尖,如果 coupled QK 在这类数据上还能保持收益,那它才有继续看的必要。现在材料里没有这些实验,我不想替作者补结论。 我自己的总体看法是:这篇论文给了一个挺干净的架构信号,说明“在打分前让 Q/K 共同演化”确实能换到更好的优化路径,而且不是靠堆参数。但它也把适用面写得很诚实——网页混合语料会翻车,GLUE 没帮助,规模放大后优势变薄。对从业者来说,这更适合当领域模型、压小模型训练 token 成本、或者做专用语料 pretraining 的招,不适合马上往通用基座上无脑迁移。我要是继续跟,我会先去看论文正文里三样东西:compute matching 的具体口径、异构网页退化发生在哪些层或头、还有 350M 之后曲线是不是继续贴近 0。没有这三项,这条还只是“有想法的 inductive bias 论文”,不是 attention 的新主线。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
06:35
25d ago
arXiv · cs.CL· atomEN06:35 · 04·02
PRISM:用跨度内掩码做知识敏感对齐的概率重分配
PRISM 在带句级事实风险标签的 SFT 中,只在事实关键位置重分配目标概率,抑制高风险 token 的过度自信生成。方法结合跨度级风险权重、模型感知门控与知识掩码;摘要称其在幻觉敏感基准上提升事实性,同时保持总体能力,但正文未披露具体模型、分数和增幅。
#Fine-tuning#Alignment#Benchmarking#Research release
精选理由
HKR-K 成立,因为稿子给出了一个可辨认的新机制:把 SFT 的目标概率重分配限制在事实关键 span,并加入风险权重、门控和知识掩码。HKR-H 与 HKR-R 偏弱,标题和摘要都没给出模型、基准分数与增幅,所以只能进 all,不到 featured 线。
编辑点评
PRISM 只改事实关键 token 的 SFT 目标分布。思路不新,但比整句降权更像能落地的细修补。
深度解读
PRISM 这篇先把刀下在 SFT 最容易出事的位置:模型对“看起来像事实”的 token 过度自信,而且一旦写错,后面几句会顺着错下去。它给出的动作很克制:不是重写整条损失,也不是上一个大检索模块,而是在带句级事实风险标签的样本里,只对事实关键位置重分配目标概率。这个方向我买账,因为很多“抗幻觉”方法败在手术面太大,最后 factuality 涨一点,通用能力掉一截。摘要自己也承认,辅助信号要“保守使用”才有效,这反而像真做过消融,不像纯口号。 我对这条的直觉是:它更像训练目标层的小修复,不是知识问题的总解。过去一年这条线已经很清楚了。RAG、工具调用、拒答校准、DPO/RLHF 后处理,都在解决不同环节的幻觉。PRISM 瞄准的是更早一层:SFT 在模仿不可靠参考答案时,会把错误 token 学成高置信默认项。这个判断和不少 work 的经验一致——一旦 teacher response 本身带着半真半假的事实,交叉熵硬压 one-hot,本来就会把“不确定”学成“确定”。如果 PRISM 真能只在高风险 span 上把分布拉平一点,它至少抓住了病灶,不是在外面贴创可贴。 问题也很直接。标题给了“Probability Reallocation with In-Span Masking”,正文没披露 3 个关键信息:用的是什么 backbone,风险标签怎么标,提升幅度是多少。没有这三样,这篇现在还不能判断成“方法有效”,只能判断成“方法方向合理”。我自己最在意第二点。句级 factual risk label 和句间依赖标注,听起来比普通 SFT 数据贵不少。要是这些标签靠人工或强模型蒸馏生成,训练成本会迅速上去,适用面就窄了。很多 alignment 论文在 loss 上赢,最后输在数据管线上,这条我有点警觉。 还有一个我想 push back 的地方:摘要说“across backbones”有效,但没给 backbone 名字。这个表述很滑。7B 到 70B、base 到 instruct,行为完全不同。小模型常见问题是知识缺口,大模型常见问题是错误时还很自信;同一套风险门控不一定都占优。我还没查到原文表格,所以不想替作者补结论。 要是后续正文放出,我会先看两件事。第一,和 vanilla SFT、label smoothing、token-level unlikelihood 比,增益有没有超过 1-2 个点。第二,开放域问答之外,在摘要、长文生成、multi-hop 场景里是否还成立。要是这两项都站得住,PRISM 会是个挺实用的训练 recipe;站不住,它就只是把“别太自信”写进 loss 的又一个变体。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
06:18
25d ago
arXiv · cs.CL· atomEN06:18 · 04·02
PRCCF:面向情感支持对话的人设引导检索与因果感知认知过滤框架
PRCCF 在 ESConv 数据集上超过现有 SOTA 基线,并公开了代码仓库。框架包含人设引导检索与因果感知认知过滤两部分,前者联合建模语义兼容和 persona 对齐,后者优先选择具因果相关性的外部知识;具体分数、样本规模和基线名单正文未披露。真正值得盯的是,它把检索排序目标从相似度扩到 persona 与因果相关性,不只是多接一点外部知识。
#RAG#Reasoning#Alignment#GitHub
精选理由
这篇 arXiv 论文有一条明确的新机制线:把情感支持对话的检索目标扩到 persona 对齐与因果相关性,还公开了代码,所以 HKR-K 成立。短板也很直接:标题很学术,正文未披露具体提升分数、基线名单与复现成本,赛道又偏窄,所以留在 all。
编辑点评
PRCCF 在 ESConv 上宣称超过 SOTA,但正文没给分数;我先把它看成一次检索目标改造,不把它看成情感陪伴有了新突破。
深度解读
PRCCF 这篇把检索打分从“像不像”改成“像不像这个人、因果上对不对”,这个方向是对的,但证据现在还不够硬。正文只说它在 ESConv 的自动指标和人工评测上超过 SOTA,分数、提升幅度、基线名单、标注设置都没披露;只靠这点信息,我不会把它直接升格成 ESC 的新基线。 我一直觉得,情感支持对话里的 RAG 问题,卡点本来就不是“知识接进来没有”,而是“接进来的东西会不会把人设和情境带偏”。早期很多做法更像把通用共情模板、策略标签、外部案例往上下文里塞,检索器按语义相似度排,结果常见毛病是回复听起来顺,但对这个说话者不贴脸。PRCCF 把 persona alignment 单独拉进检索目标,这比继续堆 encoder 更像个正经修补。另一半的 causal-aware filtering 也有意思:情绪支持场景里,相关知识不等于因果相关知识,用户说“我失眠”时,模型抓到“压力大”还是“昨晚喝咖啡”,对建议走向差很多。 但我对“causal-aware”这个词会先打个问号。因果在这类论文里很容易退化成一套相关性代理变量,或者依赖 LLM 打标签。正文没说它的因果信号从哪来,是人工标注、规则抽取、还是模型判别;也没说过滤前后召回率、误杀率是多少。这个缺口不小。过去一年不少对话论文都喜欢把 reasoning、cognitive、causal 写进模块名,最后增益主要来自 reranking 和更干净的 prompt。我还没看代码,暂时不敢替它背书。 外部参照也要摆出来。ESConv 不是新数据集,规模本来就不大,我记得是千级对话量,不是能把泛化讲得很满的那类 benchmark;这个细节我没现查,但大体量级就是这样。小数据集上做 persona-aware reranking,常常能把自动指标和人工偏好一起抬一点,问题是换到真实用户、长会话、用户 persona 稀疏甚至自相矛盾时,收益会掉得很快。所以这篇我更关心两个复现条件:第一,离开 ESConv 后还能不能赢;第二,persona 是从对话里在线抽,还是吃人工整理的人设字段。标题和正文都没给。 代码公开是加分项,至少这不是只留结论不给抓手的 paper。可在更多数据、消融和失败案例出来前,我的判断很简单:这是一次像样的检索排序改造,离“情感支持对话取得实质进展”还有距离。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
05:54
25d ago
● P1arXiv · cs.CL· atomEN05:54 · 04·02
事实核查数据集到底在测什么?一项推理轨迹分析
论文用 GPT-4o-mini 为 9 个数据集的 2.4 万条事实核查样本生成结构化推理轨迹,发现主导能力是直接证据抽取,而多句综合与数值推理明显缺位。作者再用一个 10 亿参数验证器归纳出 5 类错误:通用域偏词面重叠,科学域偏过度保守,数学域偏算术失败。真正值得盯的是,高分更多在测检索加蕴含,不等于系统真的会复杂推理。
#Reasoning#Benchmarking#Tools#GPT-4o-mini
精选理由
这篇 paper 有明确反直觉结论,也给了可核对的方法细节,HKR 三项都成立。分数不再上提,因为它是 benchmark 分析,不是模型或产品发布;正文摘要已给出样本量与机制,外部影响仍主要在评测讨论层。
编辑点评
论文分析了9个数据集、2.4万条样本,结论很刺耳:很多“事实核查”高分,测到的还是检索加蕴含,不是大家挂在嘴边的推理。
深度解读
论文用 GPT-4o-mini 给9个 claim verification 数据集的2.4万条样本生成推理轨迹,再用1B 验证器归纳错误类型,结论很清楚:这批基准主要在测直接证据抽取,多句综合和数值推理覆盖很薄。我对这条很买账,因为它击中的不是某个模型的短板,而是这类评测过去几年一直没拆开的口径问题。很多团队把“能核查主张”直接讲成“会复杂推理”,这一步跨得太大了。要是样本大头都能靠证据句匹配加局部蕴含过关,那 leaderboard 上的提升就更像检索器、reranker、evidence selection 的联合优化,不该直接记到 reasoning 账上。 这个判断放到过去一年的评测讨论里,其实很顺。我们已经看过太多类似情况:多项 QA、RAG、长文档基准最后拆开看,涨分常常来自 better retrieval、prompt scaffolding、答案格式约束,不是模型内部推理突然变深。我记得 FEVER 时代就有人批评过 lexical overlap 和 claim-evidence shortcut,只是这篇把问题系统化到了9个数据集、24K 样本,还给了错误分型。这个维度有价值,因为它告诉你不同数据集错得不是一个样。通用域偏词面重叠,科学域偏过度保守,数学域偏算术失败。也就是说,拿一个总分去谈“claim verification 能力”本身就有点失真。 我有一个保留。推理轨迹是用 GPT-4o-mini 生成的,1B verifier 也在给错误做二次归纳。标题和摘要给了方法框架,正文片段没披露 trace schema、人工抽查比例、跨模型一致性,也没说如果换 Claude、Gemini 或一个非闭源教师模型,类别分布会不会明显漂移。这个缺口不小。因为“数据集在测什么”有一部分是任务本身,另一部分也取决于你怎么读样本、怎么切 reasoning steps。要是轨迹生成器天然偏向 extractive decomposition,那“直接证据抽取占主导”的比例有被放大的风险。我不是说结论错,我是说这篇最该被复现的地方,不是最终表格,而是 annotation pipeline。 即便带着这个保留,我还是觉得这条对做 agentic fact-checking、RAG evaluation、甚至安全红队的人都很有用。它提醒了一件很实际的事:如果你的产品要处理医学声明、政策比较、财报数字、跨段因果链,拿通用 claim verification SOTA 当卖点,证据未必够。因为摘要已经明说,数值推理和多句综合在现有数据里明显缺位。那你在线上遇到的难题,可能根本不在 benchmark 分布里。很多团队现在喜欢用“verification”包装 guardrail 或 audit 模块,我看这条会逼大家把能力拆细:evidence retrieval、entailment judgment、aggregation、calculation、uncertainty handling,最好分别测。 我还挺想看作者下一步把推荐方案落到新数据集设计上,但目前只有摘要,正文未披露采样原则、各数据集占比、五类错误的精确定义,也没给出和人工标注的一致性数字。没有这些,论文更像一次方向很对的 benchmark audit,而不是最后定论。可即便只是 audit,它也够有杀伤力:如果高分主要对应 retrieval-plus-entailment,那过去很多“推理进步”的说法,至少在 fact verification 这条线上,得往回收一点。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
05:17
25d ago
arXiv · cs.CL· atomEN05:17 · 04·02
以教师声音为基础推进教育 AI 开发:印尼全国调查发现
研究团队对印尼 349 名 K-12 教师做全国调查,发现 AI 已用于教学法、内容开发和教学媒体,但采用程度并不均衡。小学教师使用更稳定,高中教师参与更少,中生代教师更看重 AI,印尼东部教师感知价值更高。教师最常用 AI 降低备课负担,如出题、备课和材料开发;正文未披露具体模型、工具名称与量化占比。
#Tools#Research release
精选理由
这篇稿子的有效信息是349名教师样本,以及学段、年龄、地区上的采用差异,HKR只命中K。正文未披露具体模型、工具名称与量化占比,离AI从业者更关心的产品与工作流较远,所以落在低位 all。
编辑点评
349名印尼教师把AI先用在备课减负,这很现实;教育AI厂商若还主打“课堂革命”,我不太买账。
深度解读
349名印尼K-12教师把AI主要用在备课减负,这个落点很准,也顺手戳破了不少教育AI叙事。老师先拿它出题、写教案、做材料,说明当前工具先替代的是低风险、可回退、节省时间的环节,不是高风险的课堂决策。小学更稳定、高中更少,用法差异也不难理解:年级越高,学科准确性、考试约束、事实密度越高,通用模型那种“像样但不够准”的输出就越难直接上桌。 我一直觉得,教育AI落地和办公Copilot很像,先跑通的是教师工作流,不是学生学习成效。美国这两年不少K-12试点也在走同一路径:先做备课、 rubric、邮件、家校沟通,再碰个性化教学。因为前者节省的是老师确定存在的时间成本,后者要碰课程标准、家长接受度、学校风控,难度高一个量级。这个调查里“generic outputs、基础设施限制、情境不贴合”三条阻碍,跟拉美、印度、非洲一些教师调查里出现过的抱怨很接近,我没逐条去核,但模式很一致。 我对这篇摘要也有保留。349份样本能给方向,给不了太细的产品判断;正文没披露模型名、工具名、使用频次占比、城乡分布、抽样方式。东部印尼教师感知价值更高,这个结果挺有意思,但没有基线数据就很难判断:是资源更稀缺,所以AI边际收益更高;还是样本偏差;还是培训项目先落在那里。厂商如果拿这类结论直接宣传“全国教师需求已被验证”,这就有点过了。 我自己的判断是,教育AI接下来拼的不是更会“讲课”,而是更会嵌进教师已有流程:课程标准、题库格式、地方语言、离线或弱网、审阅链路、学校审批。谁还在卖一个通用聊天框,谁就会被老师当成偶尔救急的助手,不会变成日常基础设施。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
05:01
25d ago
arXiv · cs.CL· atomEN05:01 · 04·02
专家选择路由让扩散语言模型支持自适应计算
论文提出在扩散语言模型 MoE 中用 expert-choice 路由替代 token-choice 路由,并在相同 FLOPs 条件下实现更高吞吐与更快收敛。方法把专家容量设为随去噪时间步变化,实验显示把更多容量分给低 mask ratio 步效果最好,因为这类上下文的 token 学习效率高一个数量级。真正值得盯的是,它只替换路由器就能把已预训练的 TC-DLM 改造成 EC-DLM,正文未披露具体增益数字。
#Inference-opt#Benchmarking#GitHub#Research release
精选理由
论文给出一条具体机制:把 diffusion LM 的 MoE 路由从 token-choice 换成 expert-choice,并按去噪时间步分配专家容量。它触发技术可达性排除:题材偏模型系统细部,正文又未给出具体吞吐和收敛增益数字,普通 AI 从业者难判断实际价值。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
04:40
25d ago
arXiv · cs.CL· atomEN04:40 · 04·02
Swift-SVD:低秩 LLM 压缩兼顾理论最优与实际效率
Swift-SVD 提出一种闭式低秩 LLM 压缩框架,并在 6 个 LLM、8 个数据集上取得优于现有方法的压缩精度,端到端压缩时间加速 3 至 70 倍。方法按批次增量聚合输出激活协方差,再做一次特征值分解,支持免训练、逐层最优近似;论文还用 effective rank 做层压缩性分析,并做动态秩分配。
#Inference-opt#Benchmarking#arXiv#Research release
精选理由
论文给出 6 个 LLM、8 个数据集和 3 至 70 倍端到端压缩加速,HKR-K 成立。题材核心是低秩分解与压缩数值方法,正文没有给出通用 AI 从业者的应用入口,触发 technical-accessibility fail,重要性封顶 39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
03:17
25d ago
arXiv · cs.CL· atomEN03:17 · 04·02
标准普通话与口音中文语音及其克隆语音的声学与感知差异
该论文比较标准普通话与重口音普通话及其克隆语音,发现嵌入距离在各系统里都未稳定区分口音与标准差异。感知实验里,标准说话者的克隆被评为更像原声;口音语音从原声到克隆的可懂度提升更大。真正值得盯的是,身份保持与口音保持应分开评测。
#Audio#Benchmarking#Research release#Benchmark
精选理由
HKR 只命中 K:论文给出两个可复核结论,嵌入距离分不稳口音差异,口音克隆的可懂度提升更大。题材偏窄,正文未见模型发布、产品落地或行业外溢影响,H 与 R 都弱,所以进 all,不到 featured。
编辑点评
论文用感知实验拆开了身份与口音两条线,这个结论比“克隆更像不像”有用得多;很多语音克隆评测现在还把两件事混成一个分数。
深度解读
论文比较了标准普通话与重口音普通话及其克隆语音,并报告嵌入距离在多系统里都没稳定分出口音差异。这件事我挺买账,因为它戳中了语音克隆里一个老问题:我们太依赖现成 speaker embedding,把“像本人”当成单轴任务,结果口音、清晰度、韵律这些变量全被卷进同一个距离里。作者给出的感知结果更关键:标准说话者的克隆更像原声,重口音语音从原声到克隆的可懂度提升更大。这个组合很说明问题——模型未必更会“保留口音”,它也可能是在把口音往训练分布更密集的普通话中心拉,所以听感更清楚了,但说话人的地域或二语特征被洗掉了一部分。 这跟过去一年 TTS 和 voice cloning 的主流优化方向基本一致。很多系统先盯自然度、MOS、speaker similarity,再补一句“robust across speakers”,可很少把 accent preservation 单列。我记得 Zero-shot TTS 那一路,从 YourTTS 到 XTTS,再到不少商业 API,公开材料里最常见的是相似度和自然度,对口音保持通常没有硬指标;我没逐篇复核,但行业习惯就是这样。这个空白一到中文场景会更明显,因为“普通话”内部就有很宽的口音连续谱,不是英语论文里那种几类 accent label 能糊过去的事。 我对这篇文章也有保留。RSS 摘要没给样本量、口音定义、克隆系统数量、embedding 模型名称,也没说“可懂度提升”是在转写正确率、词识别,还是主观打分上看到的。没有这些条件,很难判断结论能不能外推。尤其是“重口音”这个标签很宽,四川口音、粤语背景普通话、二语学习者普通话,机制根本不一样。如果样本混在一起,平均结果会很好看,系统误差也会被抹平。 但方向是对的:语音克隆评测该拆成至少三张表。第一张看 identity,第二张看 accent retention,第三张看 intelligibility change,而且第三张要和原始语音做差值,不然“更清楚”很容易被误判成“更忠实”。做产品的人尤其该警惕这一点。客服、教育、陪伴场景里,团队往往把清晰度优化当纯收益,可一旦用户要的是“像我家人”或“保留我自己的说话方式”,口音被标准化就是失真。摘要已经给出核心判断,正文没披露足够实验细节;在细节出来前,我会把它当成一个很对的评测提醒,不把它当成系统能力排名。
HKR 分解
hook knowledge resonance
打开信源
60
SCORE
H0·K1·R0
02:56
25d ago
arXiv · cs.CL· atomEN02:56 · 04·02
用 LLM 自动合成数据库原生函数代码
论文提出 DBCooker,用 LLM 自动合成数据库原生函数,在 SQLite、PostgreSQL 和 DuckDB 上平均准确率比其他方法高 34.55%。系统包含函数表征、伪代码规划、混合填空生成和三级验证,并用相似函数的编排历史动态排序步骤;还声称能补出 SQLite v3.50 里不存在的新函数。
#Code#Tools#Benchmarking#SQLite
精选理由
HKR 只命中 K:正文给出 DBCooker 在 SQLite、PostgreSQL、DuckDB 上平均准确率高 34.55%,还有伪代码规划、混合填空和三级验证。场景卡在数据库原生函数合成,读者若不熟悉数据库内核很难判断价值,触发技术可达性硬排除。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
02:14
25d ago
● P1arXiv · cs.CL· atomEN02:14 · 04·02
Read More, Think More:重新审视 Web Agent 的观测压缩
论文比较 Web Agent 使用 HTML 与可访问性树的观测效果,结论是表示选择取决于模型能力与 thinking token 预算。摘要称,低能力模型更适合紧凑观测,高能力模型在长思维预算下从 HTML 获益更大;加入观测历史普遍提升表现,diff 表示更省 token。真正值得盯的是,HTML 冗长不总是噪声,强模型会利用其中的布局信息做动作 grounding。
#Agent#Reasoning#Benchmarking#Research release
精选理由
这篇 arXiv 论文给出可操作结论:Web Agent 不该默认压缩观测,模型能力、thinking token 预算和历史保留方式都会影响表现,HKR 三项成立。分数停在 79,因为摘要未给出基准名称、提升幅度和线上验证。
编辑点评
这篇论文把“网页观测先压缩”这条默认流程打穿了:模型一旦够强、thinking token 一旦给够,HTML 不是负担,反而是 grounding 资产。
深度解读
论文给了一个很硬的条件判断:低能力模型配紧凑观测更稳,高能力模型在更长 thinking token 预算下从 HTML 获益更大。这个结论我基本买账,因为过去一年 Web agent 圈子有个偷懒共识——HTML 太长,所以先裁到 accessibility tree 再说。那套做法对小模型确实常常有效,原因也不神秘:上下文一长,弱模型先丢定位,再开始幻觉,最后动作 grounding 直接漂掉。摘要里这点讲得很直白。 我觉得这篇有价值,不在于它证明了 a11y tree 什么时候好用,而在于它提醒大家:观测压缩不是无条件增益,它和模型能力、推理预算、动作空间是耦合的。说真的,这跟推理模型这两年的演化是对得上的。OpenAI o 系列、Anthropic 的长思维模式、还有不少开源 reasoning model,吃到更多 test-time compute 以后,能把长输入里的弱结构信号也榨出来。HTML 里的 DOM 层级、邻近元素、隐藏文本、按钮周边布局,以前被当噪声,现在对强模型更像定位锚点。很多 agent failure 本来就不是“不会想”,而是“没站对页面坐标系”。 但我对这篇也有保留。正文没给 benchmark 名称、任务分布、thinking token 具体档位,也没披露“高能力/低能力模型”按什么切。没有这些,结论还很难直接迁到生产。比如真实网页任务里,长 HTML 带来的收益很可能集中在多候选按钮、表单链路、动态组件这些场景;换成结构干净的网站,a11y tree 也许已经够了。我还想看另一组数:HTML 提升成功率时,延迟和成本涨了多少。如果成功率只多 2-3 个点,但 token 开销翻倍,线上策略就不会一样。 摘要里另一个我比较认同的是 history。加入观测历史普遍提升,diff 表示更省 token,这个很像正确方向。Web agent 失败经常不是单步识别错,而是前一步 DOM 变化没被稳定记住。把历史做成 diff,而不是把整页一遍遍重喂,工程上更像能落地的办法。我自己会把这篇当成一个提醒:别再把“压缩观察”当默认最佳实践,先按模型档位和预算分层评估。标题已经给出主结论,正文片段没披露实验细节;在看到完整表格前,我不会把它升级成普适规律。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
00:11
25d ago
● P1arXiv · cs.CL· atomEN00:11 · 04·02
从 SWE-ZERO 到 SWE-HERO:软件工程代理从免执行微调到基于执行微调
论文提出两阶段 SFT 配方 SWE-ZERO 与 SWE-HERO,并让 SWE-HERO-32B 在 SWE-bench Verified 上达到 62.2% 解决率。作者称其蒸馏自 Qwen3-Coder-480B,公开 30 万条 SWE-ZERO 轨迹与 1.3 万条 SWE-HERO 轨迹;仅用 Python 训练后,在 SWE-bench Multilingual 仍达 44.1%。真正值得盯的是训练配方:先用免执行轨迹学语义与仓库级推理,再用执行反馈补工程工作流。
#Code#Agent#Fine-tuning#Qwen
精选理由
这篇稿子拿到 HKR 三项:标题有反差,摘要给出两阶段 SFT、30 万与 1.3 万轨迹、SWE-bench Verified 62.2% 和 Multilingual 44.1%。它不是行业级发布,但属于可复用的代码代理训练配方,信息密度高于常规 arXiv 刷榜文。
编辑点评
SWE-HERO-32B 把 SWE-bench Verified 做到 62.2%,这条先别吹模型上限,我更在意它把“先学语义、后学执行”做成了可复用配方。
深度解读
SWE-HERO-32B 在 SWE-bench Verified 做到 62.2%,这条最有分量的地方,不是又一个 32B 代码模型刷了榜,而是作者把训练顺序拆开了:先用 30 万条免执行轨迹学仓库语义,再用 1.3 万条带执行反馈的轨迹补工程闭环。这个配方我买账,因为它直接对着过去一年 SWE-agent 训练里最贵、最慢、最难扩的数据环节下手。 我一直觉得,软件工程 agent 的瓶颈有两层。第一层是“看懂仓库”,第二层是“在工具链里不犯蠢”。很多工作把两层混在一起训,结果就是执行环境成本极高,数据扩不起来,最后只能靠更大的 teacher 或更长的 test-time compute 顶住。SWE-ZERO/SWE-HERO 这次的意思是,第一层其实不一定非要靠真实执行学,repo-level reasoning、patch planning、文件定位这些能力,先用免执行轨迹灌进去,成本会低很多;执行反馈留给第二阶段,专门矫正工作流细节。这个拆法像把“知识蒸馏”和“环境对齐”分开做,工程上比端到端更像能复现的路线。 外部对比也很清楚。2024 到 2025 年那波 SWE-bench 成绩,很多强结果都绑着闭源模型、并行采样、或者很重的 scaffold。我记得 OpenAI、Anthropic 以及一批 agent 框架在公开演示里都证明过,执行环节一上来,成本和稳定性会一起爆。开源侧像 SWE-agent、OpenHands、以及一些 Qwen2.5-Coder 微调路线,常见问题不是“不会改代码”,而是“会在测试、搜索、编辑循环里掉链子”。如果这篇的两阶段 SFT 真能稳定复现 62.2%,那它给开的不是一个单点榜单,而是一条更便宜的数据生产线。 但我对这组数还是有保留。正文只有 RSS 片段,没披露采样次数、是否 pass@k、是否用了多轮重试、工具调用 budget、patch 选择策略、以及和同尺寸开源基线的严格对照。62.2% 这个数单看很亮眼,可 SWE-bench 现在最怕的就是“同一 benchmark,不同计算口径”。很多论文把 agent scaffold、rerank、self-consistency、长时运行预算一起打包,最后你看到的是系统成绩,不只是模型成绩。这里标题讲的是 fine-tuning recipe,我希望正文能把“模型增益”和“agent orchestration 增益”拆开,不然很难判断这套配方到底值多少钱。 另一个我觉得有意思的点,是它从 Qwen3-Coder-480B 蒸馏到 32B。这个信号比“开源 SOTA”更实际。过去一年代码模型的走势很明显:teacher 越来越大,deployable student 反而要控制在 32B 这个能被很多团队接住的尺寸。32B 不是学术上最优的规模点,却是很多企业内部真会部署 agent 的规模点,尤其在需要私有仓、长上下文、频繁调用工具的场景里,延迟和显存都比 leaderboard 漂亮更重要。作者把 480B 的轨迹蒸到 32B,本质上是在证明“高质量过程数据”比单纯堆参数更值钱。 Python-only 训练后,SWE-bench Multilingual 还有 44.1%,这个结果也挺说明问题。它说明两阶段里第一阶段学到的,不只是 Python 语法模式,更像是跨仓库的修复流程:定位、假设、改动、验证。代码 agent 这条线,跨语言迁移一直比很多人想得强,因为 issue 处理和 repo 导航的结构有共性。不过我还是想看语言拆分。44.1% 是靠 JavaScript、Java 拉起来,还是在 Rust、Go 这种编译和工具链更严格的语言上也站得住,正文没给。 说真的,这篇如果后续细节站得住,它的价值不在“又追近了闭源多少分”,而在它把 SWE 数据构造从重执行、低产量,推向了先大规模语义蒸馏、后小规模执行校准。这个方向会影响后面的开源代码 agent 训练范式。要是正文最后发现 62.2% 很大一部分来自昂贵的测试时搜索,那这条就要打折;要是增益主要来自这两阶段数据本身,那不少团队会很快照着做。现在信息还不够,我愿意先给配方高分,不给榜单盲目鼓掌。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1

更多

频道

后台