ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-04-01

98 items · updated 3m ago
RSS live
2026-04-01 · 星期三2026年4月1日
23:06
25d ago
● P1arXiv · cs.CL· atomEN23:06 · 04·01
Wired for Overconfidence:从机制视角看 LLM 口头置信度虚高
论文在 2 个指令微调 LLM 与 3 个数据集上,定位到一组紧凑电路会在最终 token 位置写入口头置信度虚高信号。相关组件主要集中在中后层的 MLP block 与 attention head。作者称,对这些电路做推理时定向干预后,校准显著改善;正文未披露模型名与提升幅度。
#Interpretability#Safety#Inference-opt#Research release
精选理由
这篇稿子有完整 HKR:标题有钩子,摘要给出可检验机制,也碰到模型可靠性这个高共鸣话题。分数没有再往上走,因为正文未披露模型名、效应幅度和复现实验条件,离“当天必写”还差关键信息。
编辑点评
论文在 2 个指令模型里定位到口头置信度虚高电路。方向我买账,但没给模型名和提升幅度,这条先别吹成通用校准方案。
深度解读
论文声称在 2 个指令微调模型、3 个数据集里,定位到一组中后层电路会把“我很确定”这种口头置信度信号写到最终 token 位置。这个判断我基本买账,因为它抓到的不是“模型知不知道答案”,而是“模型怎样把确定口气说出来”。这两件事在现有 chat model 里本来就常被绑在一起,尤其经过 SFT 和偏好优化后,回答风格会被推向流畅、完整、少停顿,结果就是错的时候也像对的。要是这篇文章真把这层风格性自信拆成可定位电路,价值不小。 我比较认同它的切口:把 verbalized confidence 当成内部可微分信号,而不是只看最终文本里有没有 “95% sure” 这种表述。过去一年很多“不确定性”工作都卡在外层指标,拿 token probability、self-consistency、verbalized confidence、或者再问一遍 “你有多确定” 做代理。问题是这些代理彼此并不等价。一个模型完全可以 token 概率很高,但嘴上学会说“我不完全确定”;也可以内部不稳,却被训练成输出斩钉截铁的客服口吻。所以如果作者证明有一小撮 MLP block 和 attention head 在最后位置专门写入“虚高自信”,那比泛泛讲校准误差要更接近机制层答案。 但我对这条结论的外推范围有明显保留。正文只给了 2 个 instruction-tuned LLM、3 个数据集,模型名没披露,提升幅度也没披露。这个缺口很大。要知道,不同对齐链路写出来的“自信口气”分布差很多。Llama 系列、Qwen 系列、Mistral 系列,哪怕 base 能力接近,经过不同 SFT 数据和 preference tuning 后,拒答风格、犹豫程度、免责声明密度都不一样。我自己更想先知道:这是同一家族两个尺寸,还是两个完全不同训练栈;干预后 ECE、Brier、AUROC 到底改善多少;有没有掉 factual accuracy,还是只是把措辞变怂。标题给了“substantially improve calibration”,正文没给数字,这种表述我不会直接照单全收。 这篇文章还有个潜台词,我觉得比“找到坏电路”更关键:过度自信很可能不是知识错误的副产品,而是对齐后形成的一层输出样式。这个判断和过去一些 work 是接得上的。前面有 sycophancy、refusal、persona steering、truthfulness 相关的 mechanistic interpretability 结果,都在提示同一件事:很多我们以为是“价值观”或“认知能力”的现象,实际有一层局部电路在做风格写入。要是这次连置信表达也能被拆出来,那安全和产品团队就该重新想校准策略了。很多人现在还在 system prompt 里塞“如果不确定就说不确定”,这通常只能改表面分布,碰到 RLHF 学出来的高确定性语气,效果很浅。电路级干预至少说明,推理时也许有比 prompt engineering 更稳的旋钮。 说真的,我也担心这条会被过度解读成“找到几个头,校准问题就解决了”。没这么简单。第一,verbalized confidence 只是用户看到的置信表达,不等于模型真实 epistemic uncertainty。你把那几个组件压下去,模型也许只是更会说“我不确定”,不代表它内部概率估计更准。第二,最终 token 位置很像输出汇聚点,很多上游误差信号都会在那里显形。作者看到的是“写入位置”,未必就是“起源位置”。第三,推理时定向干预常见副作用是伤害别的能力,尤其是语气一致性、任务完成率、长答案连贯性。正文没披露这些 trade-off,我不会默认它免费。 外部参照也能说明这点。过去校准工作里,常见做法是 temperature scaling、selective generation、self-evaluation、或让模型先答再报置信度。很多方法在 held-out benchmark 上能把 ECE 拉下来,但一换任务、一换提示风格就漂。OpenAI、Anthropic 近年的 system card 也常把 uncertainty reporting 单列出来,因为“会不会答”跟“会不会承认不知道”根本不是一个头疼点。这篇如果真能在电路层稳定复现,意义在于它提供了一个比 prompt 和后处理更接近病灶的位置。可在没看到跨模型复现前,我还是把它看成一篇很像样的 mechanistic hypothesis,不是已经可部署的安全补丁。 我还想看两个补充实验。一个是 base model 对照。如果 base 没这类虚高电路,instruction tuning 后才明显出现,那就能更直接把责任指向对齐流程。另一个是跨语言和跨任务迁移。很多英文 chat model 的自信口吻是模板化训练产物,换到多语言问答、代码解释、医疗建议,这组电路还稳不稳,差别会很大。要是作者后续补出模型名、干预强度、校准提升数字和 accuracy trade-off,这篇会从“很有意思”升级成“工具箱里真能放一把扳手”。现在这版,我的结论是:方向对,机制味道也对,证据还没到能让工程团队直接照着改线上系统的程度。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
22:16
25d ago
● P1arXiv · cs.CL· atomEN22:16 · 04·01
更细的引用一定更好吗?重新思考带归因生成的引用粒度
该论文分析 8B 到 120B 模型后发现,强制句级细粒度引用会让归因质量较最佳粒度下降 16% 到 276%。实验显示归因效果通常在段落级达到峰值;句级会打断跨句语义依赖,多段级又会引入噪声。真正值得盯的是,大模型受句级约束的惩罚更重,说明引用粒度要贴合模型的信息整合范围。
#RAG#Benchmarking#Research release#Benchmark
精选理由
这篇 arXiv 论文有明确的反常识发现,也给出可操作的数字和机制,HKR 三项都成立。它不是行业级大新闻,但对做 RAG、归因生成和评测的人有直接方法论价值,按较低档给到 80 分、featured。
编辑点评
论文报告句级引用使归因质量下滑16%到276%。我买这个结论,因为很多 RAG 系统把“更细”错当成“更真”。
深度解读
论文在 8B 到 120B 模型上报告,句级引用会让归因质量较最佳粒度下滑 16% 到 276%。我对这条结论基本买账,因为它打到了一个很常见的工程误区:团队把“方便审计”的引用单位,直接当成“适合模型推理”的证据单位。 这篇东西有价值,不在于它证明了段落级常常更好。很多做 RAG 的人早就有这个手感。价值在于它把惩罚幅度量化了,而且给了一个不太舒服的信号:模型越大,句级约束罚得越重。RSS 摘要里说,这个尺度效应在 8B 到 120B 间是非单调的,但正文摘要没披露具体模型名、任务集、评价指标、统计显著性,也没披露 276% 这个最大降幅落在哪个设置上。这个缺口很关键。没有这些,你还不能直接把结论抄进生产规则。 我一直觉得,很多引用系统是按人类界面设计的,不是按模型证据整合设计的。人类 reviewer 喜欢看到一句话后面跟一个精确脚注。模型不一样。只要 claim 需要跨两句、三句才能闭环,硬切到句级就会把证据链掐断。这个现象在长答案、比较问答、带条件限定的总结里尤其明显。比如一段里前一句给对象,后一句给限制,第三句给结论。你把它拆成原子句,retriever 和 generator 都容易各取一半,最后 citation 看着很精确,实际归因更假。 这和过去一年很多产品默认的 sentence chunking 有点冲突。LangChain、LlamaIndex 这一派早期教程里,大家常把 chunk 做小,理由是召回更准、引用更细、UI 更好解释。我自己也见过不少系统把 chunk size 压到 128 或 256 token,再配 overlap 试图补救。问题是 overlap 不是语义组合。它只能减轻边界损失,不能替代模型在段落尺度上的证据绑定。这个论文如果方法站得住,对那套默认参数其实是一次纠偏。 我还有个判断:这里被打脸的不只是 citation granularity,还包括一批“先检索句子,再让模型拼答案”的 pipeline。大模型这两年变强的地方,本来就不是句内抽取,而是跨句整合、条件折叠、消歧和压缩。你强迫它在句级上对齐证据,等于把系统能力上限拉回 extractive QA 时代。摘要里说 citation-optimal granularity 还能维持甚至提升 answer correctness,这点很关键。它说明问题不只是“脚注不好看”,而是约束本身干扰了生成。 但我对论文叙事还有两个保留。第一,摘要没说他们的 attribution quality 怎么定义。是 citation precision/recall,claim support,还是人工偏好?不同指标会给出很不一样的最优粒度。第二,领域差异很大。法律、医学、财报这类高风险文本,经常要求近乎逐句可核验;开放域综述、企业知识库问答,段落级通常更自然。要是论文把这些任务混在一起给总均值,工程指导意义会打折。 说真的,这篇论文最该让人改的,不是“以后都用段落级”。我不买这种一刀切。更像样的做法是把粒度当成可调超参,甚至做成 claim-adaptive。事实型短 claim 用句级。需要定义、限制条件、跨句因果的 claim 用段落级。多段级只有在文档本身结构极强时才该上。摘要已经给了方向,但正文未披露他们有没有做 claim type 分层;如果没有,我会觉得还差最后一公里。 我还想补一个文章外的上下文。过去一年,一堆“带引用回答”产品把 citation 当信任代理,默认脚注越密越好。这个习惯和搜索时代的 snippet 设计很像,但生成模型不是搜索框。它需要的是足够闭合的证据窗口,不是最小可点选单元。这个差别,很多团队到现在还没彻底想明白。 所以这篇 paper 我给的判断很直接:它不是在反对细粒度审计,它是在提醒你,审计友好和模型友好不是同一件事。标题给出了方向,正文摘要给出了 16% 到 276% 的量级,但 benchmark、模型清单、评测细节还没展开。上线前别照抄结论,先把你自己的任务集按 claim 类型和风险等级重跑一遍。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
21:59
25d ago
arXiv · cs.CL· atomEN21:59 · 04·01
语境的力量:用随机森林对近义词分类——现代印地语案例研究
该研究用随机森林分类现代印地语近义词的词源,并仅凭词嵌入区分梵语来源与波斯-阿拉伯来源。RSS 摘要称模型即使面对语义无关词也能分类成功,但正文未披露准确率、样本规模和具体特征。真正值得盯的是,作者把“语境保留词源痕迹”做成了可检验命题,不只停在近义词直觉上。
#Embedding#Benchmarking#Research release
精选理由
这篇更像计算语言学个案研究,不指向 agent、产品或产业落地,触发“跨学科但无产品含义”的硬排除。正文只给出方法和结论方向,缺少准确率、样本规模与复现条件,HKR 三项都不够强。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K0·R0
21:17
25d ago
● P1arXiv · cs.CL· atomEN21:17 · 04·01
测试时扩展让过度训练更符合算力最优
论文提出 Train-to-Test(T²)缩放律,在固定端到端预算下,同时优化模型规模、训练 token 和推理采样次数。作者把 pass@k 纳入预训练缩放,并在 8 个下游任务上发现:一旦计入推理成本,最优点会明显偏向过度训练区间。真正值得盯的是,这个结论在重度过训预训练实验和后训练后都仍然成立;正文未披露具体预算数值与模型参数。
#Reasoning#Inference-opt#Benchmarking#Research release
精选理由
这是有明确机制的研究结论,不是泛泛复述缩放律:T² 把推理采样成本并入总预算,并在 8 个任务上得到“过训更优”的反直觉结果。HKR 三轴都成立,但正文未披露预算规模与模型参数,分数放在优质研究区间,不到 must-write。
编辑点评
这篇论文把 compute-optimal 从训练账本改成了部署账本。Chinchilla 那套在高采样推理里没失效,只是目标函数换了。
深度解读
论文在固定端到端预算下联立优化模型规模、训练 token 和采样次数,并在 8 个任务上把最优点推向过训区。我的判断很直接:这条不是在否定 Chinchilla,而是在补上它当年故意没管的那半边——推理。你一旦把 pass@k 和 repeated sampling 算进总账,小模型少训再多抽样,未必比大一点、训久一点的模型便宜。 这个结论我基本买账,因为过去一年行业已经把 test-time scaling 做成了现实约束。代码、数学、agent 任务里,best-of-n、self-consistency、并行 rollout 都在烧推理钱。Chinchilla 的前提是训练 compute 主导总成本;放到这类场景里,这个前提经常不成立。DeepMind 当年给的是“训练期 token 与参数怎么配”,不是“上线后每个请求要不要抽 32 次”。这篇 T² scaling 做的事,就是把这两个阶段接起来。方向上我觉得是对的。 但我对摘要里的“radically into the overtraining regime”还是有保留。正文没给具体预算数值,也没给模型参数、采样上限、任务难度分布。少了这几样,结论很容易被口径放大。比如如果 k 只在 4 到 8,和 k 到 64,最优点会差很多;如果任务奖励高度可验证,pass@k 会特别吃香;换成开放式写作或低可验证任务,这套账未必一样。文章说做了 8 个下游任务,这算比很多 scaling 论文扎实,但任务名字、评测协议、post-training 配方,摘要都没披露,我还不能把它当成通用定律。 还有一个行业层面的含义,很多人会故意忽略:如果 T² 站得住,过去那种“训练阶段按 Chinchilla 卡得很准,部署阶段再靠采样补能力”的产品策略,财务上可能是次优。你会更愿意把一部分预算前置到预训练,换更低的采样需求。我一直觉得 reasoning 模型的商业化会撞上这个墙:你可以用更多 test-time compute 榨出更高 pass@k,但只要流量上来,边际成本会立刻追上来。这篇论文给了一个更系统的说法。 我还想看一个对比,但摘要没有:T² 在 post-training 后仍成立,幅度还剩多少?这很关键。因为 2025 年很多强模型的收益,已经不是纯预训练给的,而是 SFT、RFT、工具调用和 verifier 共同给的。要是 post-training 只把“过训更优”从大幅差距压成小幅差距,那商业决策会完全不同。现在只能说标题给出了方向,正文摘要没给足以落预算表的数字。 所以这条我会把它当成一个很有力量的修正项,不会当成新圣经。它在提醒大家:别只优化 pretraining FLOPs,要优化 lifetime FLOPs。谁的业务依赖高频采样推理,谁就该重算模型该训到哪。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
20:07
25d ago
● P1arXiv · cs.CL· atomEN20:07 · 04·01
开放域安全策略构建
论文提出 Deep Policy Research,用最少人工种子信息自动起草完整内容审核策略,并在 5 个领域、2 个紧凑 reader LLM 上评测。系统只用单一网页搜索工具和轻量脚手架,循环生成查询、蒸馏网页规则、整理成索引文档;在 OpenAI undesired content benchmark 和自建多模态广告审核集上优于 definition-only 与 in-context 基线。真正值得盯的是,它在相同种子设定下还超过通用 deep research 系统,代码已开源。
#Safety#Agent#Multimodal#OpenAI
精选理由
这是一篇有实际落点的安全研究,不是泛泛的 benchmark 刷分。HKR 三项都成立:题目有反差,正文给出单搜索工具与多基准结果,还直指审核策略编写这类真实工作流;但它仍是 arXiv 论文,影响力不到同日必写级。
编辑点评
这篇不像在发明新安全方法,更像在证明一件老事:把研究流程写死,常常比放一个“通用 deep research”到处搜更管用。
深度解读
论文用 1 个网页搜索工具起草 5 个领域政策。这个事实比“安全”标签本身更有信息量:作者在测的,其实是任务约束能不能替代更强模型与更重人工。 我对这条结论基本买账。原因很简单,内容审核策略不是开放式写作,它更像检索、去重、归纳、编目四步流水线。流程固定,错误类型也固定:漏规则、引错来源、规则冲突、域外迁移失败。DPR 选了轻量脚手架,只给单一搜索工具,再把输出收束成 indexed document,这种设计天生就在压低 agent 的发散空间。你把自由度砍掉,常常就能把稳定性抬上去。很多团队过去一年做“research agent for enterprise policy”时也撞到同一面墙:不是搜不到,而是搜太散,最后文档可追溯性很差。 有意思的地方在对比对象。摘要说它在同样 seed 设定下超过通用 deep research 系统,但正文没披露那个系统是谁、调用了哪一代模型、搜了多少轮、token 预算多少。这个缺口不小。因为如果对手是通用 agent 的默认配置,那赢了很正常;如果对手经过任务调优,还能稳定领先,这个结论才更硬。我还没查到 arXiv 正文里的具体 ablation,所以这里不能替作者把话说满。 我觉得这篇更大的价值,不在“自动写政策”六个字,而在它给安全工程一个很现实的方向:先把 policy authoring 工具化,再谈 policy learning。过去不少安全论文喜欢直接训 classifier 或 judge model,默认政策文本已经稳定。现实里最贵的一环恰恰是政策起草和维护,尤其是广告、金融、未成年人、医疗这类高变动域。规则来源分散在监管网页、平台条款、行业自律文档里,更新频率按周甚至按天算。谁能把“搜集—蒸馏—索引—审校”做成低成本循环,谁就先拿到 deployment 优势。 这里也有我自己的疑虑。第一,OpenAI undesired content benchmark 这类集合,离真实审核链路还有距离。真实场景里最难的不是把条文写出来,而是把冲突条款落成可执行判定,再处理申诉、地区差异、时效性和商业例外。第二,摘要提到 2 个 compact reader LLM,但没给模型名、尺寸、上下文长度,也没给人工专家写作的成本对照。没有这些数字,你很难判断 DPR 的优势到底来自检索流程,还是 reader 恰好吃这种结构化文档。第三,自建多模态广告集的外推性我会保留意见。广告审核很吃平台特定规范,数据一旦带平台口径,跨域效果经常掉得很快。 放到过去一年的脉络里看,这篇其实站在一个越来越清楚的分界线上:通用 agent 负责探索,任务 agent 负责交付。我记得不少 deep research 产品从 2025 年开始都在加模板、citation slots、固定步骤,本质上就是把“自由研究”往“受限工作流”拉。DPR 把这件事在安全政策上做了一个干净版本。代码也开了,这点很关键,因为这类系统最怕只给结论不给过程。 所以我对它的判断是:论文没有证明“自动安全政策生成”已经成熟,论文证明的是另一件更落地的事——在规则密集、来源分散、审计要求高的任务里,窄工具链加硬结构,今天就是比大而泛的 research agent 更像产品。后面要看两件事:一是跨时间更新时性能掉多少,二是人工审校时间能不能明显低于专家从零起草。摘要没给这两个数,先别急着把它吹成安全写作的通解。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
20:03
25d ago
● P1arXiv · cs.CL· atomEN20:03 · 04·01
无需攻击者:共享状态 LLM Agent 的无意跨用户污染
该论文定义共享状态 LLM Agent 的无意跨用户污染,在两类共享机制下测得 57%—71% 污染率。作者给出 3 类污染 taxonomy,并用受控协议评估;写入时净化在会话型共享状态上有效,但遇到可执行工件仍留明显残余风险,且常表现为静默错误答案。真正值得盯的是工件级防护,不是只做文本净化。
#Agent#Safety#Memory#Research release
精选理由
这篇论文不是泛泛安全提醒,而是给出57%—71%污染率、3类污染分类和防护失效边界。HKR三轴都成立,但它仍是arXiv研究,不是主流产品变更,所以落在高70分段的featured。
编辑点评
这篇把很多团队默认接受的“共享记忆”判成了高风险默认项:57%—71% 的污染率,已经不是边角 bug。
深度解读
论文在两类共享机制下测得 57%—71% 的跨用户污染率。这个数字已经足够把“团队共用一个 agent 记忆层”从产品便利项,直接打回安全与正确性问题。更麻烦的是,作者讲的不是投毒,不是越权攻击,也不是 prompt injection;全是正常用户、正常写入、正常复用,最后把别人的局部上下文错套到你头上。很多内部工具现在最爱吹“持续记忆”“跨会话连续性”,这篇等于提醒一句:只要作用域没锁死,连续性本身就会制造错答。 我对这条很买账,因为它击中的正是 2025 年一大堆 agent 产品的默认架构。大家把 memory 分成 profile、task history、workspace artifacts、tool outputs,再用一个检索层糊起来,感觉像把 RAG、缓存、scratchpad 合成了“长期智能”。问题是这些层天然不是同一种东西。聊天摘要错了,常见后果是风格漂移;可执行工件错了,后果会直接变成静默错误答案,甚至错误操作。论文这里的判断很关键:写入时净化对 conversational shared state 有效,但碰到 executable artifacts 还会留明显残余风险。这个结论我一点不意外。文本可以靠分类、重写、scope tagging 降噪;脚本、SQL、配置、公式、派生文件这类工件,风险不在“脏话题”,而在“错误上下文被当成可执行真相”。 外部参照也很明确。过去一年业内一直把攻击面放在 memory poisoning 和 prompt injection,上线前会测恶意字符串、工具劫持、数据外泄。我记得 Anthropic、OpenAI、微软那几套 agent 安全文档,重点都放在工具权限、隔离、系统提示和外部内容处理。我还没看到哪家公开把“无攻击者的跨用户污染”当成一等问题系统测过。也就是说,这篇补的不是一个学术角落,而是当前评测框架的盲区:你把对抗样本都拦住了,系统还是会自己把组织内部的正常残留变成错误决策。 我也有个保留。正文只有摘要,没披露两类共享机制的具体实现、任务分布、基线模型、污染率定义口径,也没给出 sanitization 的规则细节。57%—71% 很吓人,但如果任务设计本身强依赖共享上下文,数字会被放大;如果共享层只是弱提示,落地污染率会低一些。我还想知道“silent wrong answers”占全部失败的比例、是否跨模型稳定、对 toolformer 类 agent 和纯 chat agent 是否同样成立。标题和摘要已经给出方向,泛化边界还没展开。 即便这样,工程结论已经够清楚了。第一,别把共享记忆当数据库,尤其别把跨用户 artifact 当公共真相。第二,作用域控制要做到对象级,不是只在文本块上贴 user_id。第三,工件进入共享层前要过 provenance、ownership、TTL、可执行权限四道门,不然 sanitization 只是把污染写得更干净。说真的,现在很多“团队 agent”产品把 workspace 当增益层,我看这篇之后更愿意把它当故障放大器。只要你允许 agent 继承别人留下的脚本、查询或中间结果,你就得先证明隔离语义比召回语义更强;摘要里没有任何信息说明这件事已经被行业普遍做好。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
20:01
25d ago
● P1arXiv · cs.CL· atomEN20:01 · 04·01
大规模程序性知识可提升推理
论文提出 Reasoning Memory,用 3200 万条子问题-子程序目构建推理 RAG,在测试时显式检索并复用程序性知识。作者称其在 6 个数学、科学、代码基准上,较无检索最高提升 19.2%,较最强同算力基线提升 7.9%。真正值得盯的是分解与检索设计,不是单纯堆更多采样。
#RAG#Reasoning#Benchmarking#Research release
精选理由
这篇 arXiv 论文给出了清晰机制和可量化结果:Reasoning Memory 用 3200 万条程序性记忆,在 6 个数学、科学、代码基准上最高提升 19.2%。HKR 三项都成立,但它仍是单篇研究发布,行业外溢和讨论面还没到 85+。
编辑点评
这篇把 test-time scaling 往前推了一步:不再只堆采样,而是把 3200 万条解题套路做成可检索记忆。我要先泼点冷水,7.9% 的同算力优势成立,但工程成本和分布外泛化,正文还没交代清楚。
深度解读
作者用 3200 万条 subquestion-subroutine 条目构建了 Reasoning Memory,并在 6 个基准上报告了最高 19.2% 和 7.9% 的提升。我对这条的判断很直接:这不是“RAG 也能做推理”的老故事,这是把程序性知识单独抽出来,当成 test-time compute 的替代品或放大器。这个方向我基本买账,因为过去一年很多推理增强方法都在烧更多采样、更多树搜索、更多 self-consistency,但很少认真处理“模型以前见过类似解法没有”这件事。你让模型多想 4 倍,不如先把它曾经有效的局部策略找回来。 有意思的地方在,作者没有检索整篇文档,也没有检索整条 reasoning trajectory,而是先把轨迹切成自包含的子问题-子程序。这个设计抓得很准。做过 agent 或长链 CoT 的人都知道,整段轨迹检索经常把噪声一起捞回来:问题表面相似,关键步骤却不对。把记忆粒度压到“子问题 + 处理套路”,检索目标就从语义相似,变成操作相似。这个思路跟过去代码助手从检索 whole file 走向检索 API pattern,有点像。我记得去年一些代码 RAG 工作已经证明,粒度一旦切小,召回和可复用性都会更稳定;这篇算是把同一逻辑搬到推理链里。 但我对结果也有几处保留。第一,标题和摘要给了 19.2% 与 7.9%,正文没披露绝对分数、底座模型规模、每个 benchmark 的预算分配,也没说检索延迟和 datastore 维护成本。没有这些,同行很难判断这 7.9% 到底是“便宜拿到的增益”,还是“用复杂系统换来的小幅领先”。第二,32M 条目的来源是 existing corpora of step-by-step reasoning trajectories。这里有个老问题:如果源轨迹本身带着 benchmark 风格偏置,检索出来的就不只是程序性知识,也可能是题型模板。论文说它优于 document、trajectory、template knowledge,这很好,但我还想看更硬一点的去污染实验,比如按数据源、题型家族、时间切分做隔离。 我还会拿它跟过去一年的另一条线放在一起看:OpenAI o1/o3 之后,行业普遍把“推理提升”理解成更长思考、更高采样预算;Anthropic 和 Google 也都在推更强的 deliberate reasoning。Reasoning Memory 提醒了一件常被忽略的事:很多题不是缺 compute,而是缺一个合适的中间表征和解题脚手架。你给模型一个能说清核心子问题的接口,它再去检索“怎么做”,这比盲目延长思维链更像人类做题。说真的,这条路一旦成立,影响最大的未必是数学 benchmark,而是代码修复、复杂 agent workflow、企业知识流程自动化这类重复结构很多、表面任务却经常变化的场景。 我自己的疑虑是分布外泛化。程序性记忆最怕两件事:一是把旧套路错套到新问题上,二是因为检索命中而过早收敛。摘要提到 diverse retrieved subroutines as implicit procedural priors,这能缓解单一路径锁死,但缓解到什么程度,正文没展开。我很想看 failure case:模型在错误检索命中后,会不会比 no-retrieval 更自信、更难回退?如果答案是会,那这个系统上线时就不是“加一个记忆库”这么简单,而是得配套置信度估计、回退策略、甚至多检索器仲裁。 所以我对这篇的评价是:方向对,结论先别喊满。它给出的信号不是“RAG 回来了”,而是 procedural memory 这件事终于被拆成可操作的系统设计。要是后续复现能证明,在固定延迟和固定美元成本下,这套方法依然稳拿收益,那它会比又一个更长的 CoT prompt 实用得多。反过来,如果收益主要来自 benchmark 内相似套路复用,这条就会停在论文层面。现在材料还不够把两边彻底分开。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
18:51
25d ago
X · @Yuchenj_UW· x-apiMULTI18:51 · 04·01
泄露版 Claude Code 一天获超 11 万 GitHub 星标,OpenClaw 增长显慢
泄露版 Claude Code 在 1 天内获得超 11 万个 GitHub 星标,帖文称其成为 Anthropic 历史上排名第 1 的开源项目。正文只有 RSS 片段,未披露仓库链接、统计口径、起止时间和 OpenClaw 的具体对比数据。别被标题带偏,真正该盯的是泄露分发是否直接改写了开发者采用速度。
#Code#Tools#Anthropic#Open source
精选理由
这条有点击点,也碰到 Claude 开发生态的讨论点,但正文只有一条未核实的 110k+ 星标说法。仓库链接、统计窗口、起止时间和 OpenClaw 对比口径都没给,触发零来源内容硬排除,重要性封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
18:05
25d ago
● P1arXiv · cs.CL· atomEN18:05 · 04·01
通过 RL 与并行思考扩展推理 token:来自竞赛编程的证据
论文在竞赛编程上用 RL 与并行思考扩展推理 token,基于 Seed-OSS-36B 的完整系统以平均每题 760 万 token、16 线程×16 轮配置,在 pass@1 上追平底层 RL 模型的 oracle pass@16。正文给出两条可复现实验规律:验证式 RL warmup 抬高起点,randomized clipping 提高对数线性精度曲线斜率;在 AetherCode 的 456 道高难题上,该系统超过 GPT-5-high。
#Reasoning#Code#Benchmarking#Research release
精选理由
HKR 三轴都成立:标题有明确反差,正文有可复现实验条件,也触发推理时算力扩展的行业讨论。分数停在 82,因为结果仍集中在竞赛编程基准,离通用产品能力和广泛落地还有一段距离。
编辑点评
论文让 Seed-OSS-36B 在 16×16 并行配置下用 760 万 token 追平 oracle pass@16;这更像把采样工程做成训练目标,不是推理能力突然跳了一代。
深度解读
论文把 Seed-OSS-36B 放进 16 线程×16 轮流程,并在 AetherCode 456 题上报告超过 GPT-5-high。我的判断很直接:这条最有价值的地方,不是“模型更会想了”,而是作者把 test-time search、验证器和 RL 目标绑成了一套闭环,硬把高方差采样变成了更稳定的系统收益。 摘要里最扎眼的数字是每题平均 760 万 token。这个量级先把讨论边界划清了:它证明了上限,不证明经济性。竞赛编程这类任务天然允许超长 deliberation,也容易用编译、单测、样例验证做筛选,所以你能把 token 预算堆到很夸张,再靠并行线程把 pass@k 压回 pass@1。这个思路我并不意外。过去一年代码方向已经反复出现同一模式:单次 rollout 不够,就上更多样本、更多 verifier、更多 rerank。区别在于,这篇论文把“多采样”前移到了训练阶段,让模型适应 16×16 的生成—验证—修正结构。这个设计比单纯喊 long-CoT 更靠谱,因为它承认了一个行业里越来越清楚的事实:很多所谓 reasoning 提升,里面掺了大量搜索收益。 我对文中的两条经验规律是买账的。第一条,verification RL warmup 抬高起点,这很合理。代码任务的奖励稀疏,先用可验证目标把策略拉进“会写、能过样例”的区域,后面的 RL 才不至于全在噪声里打转。第二条,randomized clipping 让对数线性曲线更陡,这个说法有意思,但我会留个问号。摘要没有给出 clipping 的精确定义、clip 区间、优势函数处理,也没说斜率提升在多少 checkpoint 上稳定存在。没有这些细节,我只能把它当成一个值得复现的训练技巧,还不能当成通用规律。RL for code 这块以前就吃过很多这种亏:论文里曲线很顺,换一套 verifier、换一批题,收益就掉得很快。 外部参照其实很明确。OpenAI o1、后来的代码型推理系统,Anthropic 在 Claude Code 上的迭代,甚至很多开源 agent 框架,核心都不是“想一次更深”,而是“试很多次,再用环境信号筛”。这篇论文的贡献,在我看是把 competitive programming 这种最适合 verifier 的赛道,往前推进了一步:不只在推理时做树搜索或并行采样,而是让训练目标贴着这种结构走。这个方向跟去年不少 test-time scaling 论文是连着的,只是它更诚实,因为它没有假装这些收益全来自 base model 的内在推理增强。 我对“超过 GPT-5-high”这句会更谨慎。摘要给了数据集名字和题量,没给评测协议细节。GPT-5-high 的 token 预算、调用次数、是否允许工具、是否同样使用并行候选、超时上限、温度设置,正文摘要都没披露。少了这些,横比结论就不能读得太满。要是对手只跑单样本,而这边是 16×16 多轮 refinement,那你赢的是系统预算,不一定是单位 token 智力。我不是说这个比较没意义,我是说它衡量的是“给定大预算下,谁能把搜索变成稳定答案”,不是一个干净的 model-vs-model 结论。 还有一个更现实的问题:760 万 token 每题,放在竞赛编程 benchmark 上能成立,放进真实开发流里就很难直接迁移。工程团队不会为大多数 PR review、bugfix、脚手架生成支付这种级别的延迟和成本。这个限制不削弱论文价值,但它决定了落地方向。更可能先吃到红利的,不是通用编程助手,而是高价值、低频、可验证的任务:算法竞赛、定理证明、形式验证、硬核代码迁移、EDA 脚本生成。因为这些场景允许长时间搜索,也有明确 verifier。离开 verifier,很多“并行思考”会迅速退化成昂贵的自言自语。 我还想补一个背景。近一年大家都在谈 inference-time scaling,仿佛只要给更多 token 就能一直涨分。我的经验是,这条曲线很依赖任务结构。数学和代码能涨,是因为有局部可检验性;开放式写作、产品判断、模糊需求生成,曲线会塌得快。这篇论文选 competitive programming,其实已经把最有利的地形拿到了。作者没有错,但读者别顺手把结论外推到所有 reasoning 任务。 如果只看这段摘要,我给它的评价挺高:它至少把“长思维链”拆成了几个可操作部件,warmup、clipping、parallel thinking、end-to-end alignment,各自都能复现和替换。我的保留也很明确:正文摘要没披露成本、时延、对照设置和 verifier 细节,所以“超过 GPT-5-high”现在更像强信号,不是终局判决。说真的,这篇更像一篇关于 search-budget engineering 的好论文,而不是证明模型已经学会了某种全新的推理范式。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:58
25d ago
arXiv · cs.CL· atomEN17:58 · 04·01
Universal YOCO:面向高效深度扩展
Universal YOCO 提出把 YOCO 解码器与递归计算结合,用浅层参数共享迭代提升推理时深度扩展效率。摘要确认其全局 KV cache 保持常量、prefill 为线性复杂度,但正文未披露模型规模、迭代次数与具体基准分数。真正值得盯的是它把递归限制在高效注意力浅层,目标不是单纯加深模型,而是压住推理开销。
#Reasoning#Inference-opt#Benchmarking#Research release
精选理由
这篇论文的知识增量明确:递归计算被限制在高效注意力浅层,全局 KV cache 保持常量,prefill 为线性复杂度。分数没上去,是因为正文未披露模型规模、迭代次数和具体基准分数,讨论面也偏基础模型架构。
编辑点评
YOCO-U 把递归塞进浅层注意力层,想用常量级全局 KV 换推理深度;思路对路,证据还远远不够。
深度解读
YOCO-U 这篇先给出了一条清晰路线:它把递归计算限制在浅层高效注意力层,还宣称全局 KV cache 保持常量、prefill 维持线性复杂度,目标是用更低推理账单换更深的计算链。这个方向我基本买账,因为 test-time scaling 这两年卡住的地方,从来不只是多跑几步,而是每多一层、多一次循环,延迟、显存、KV 都一起涨,最后把“推理时加算力”变成只适合少数贵模型的玩法。 但这篇材料太薄。标题给了 Universal YOCO,摘要给了机制,正文没有模型规模、递归迭代次数、训练 token、长上下文长度、吞吐量、延迟、显存占用,也没有把基线讲清楚。所谓“highly competitive”到底是跟普通 decoder-only Transformer 比,还是跟已有递归架构、state-space、linear attention、或者原版 YOCO 比,当前看不到。没有这些数字,这条还不能从“结构上有意思”升级成“工程上成立”。 我自己会把它放进一个更大的脉络里看。2024 到 2026,圈内一直在试两件事:一是 test-time scaling,把推理预算换能力;二是改 attention 或 memory 结构,把这笔预算花得没那么疼。OpenAI 那套长思维链、Anthropic 对 extended thinking 的包装、再到一堆递归 transformer 和 latent iteration 论文,核心矛盾都一样:额外计算能涨分,但部署成本经常先失控。YOCO-U 有意思的地方,在于它没有把“多想几步”粗暴套在整网,而是把循环压进浅层。这个取舍像工程师做的,不像论文里常见的“先把精度顶上去,账单以后再说”。 我还是有个明显疑虑:常量级 global KV cache 这个说法听起来很美,但不自动等于端到端更便宜。原因很简单,线上成本不只看 KV。你把参数共享迭代塞进浅层后,kernel launch、串行依赖、batching 效率、prefill 和 decode 的不对称、编译器能不能吃下这种循环图,都会决定最后 TPS 能不能兑现。我还没看到它给出 wall-clock latency 或 tokens/sec。没有这些,单讲复杂度,味道还是偏 paper benchmark。Nvidia、FlashAttention 系生态过去一年已经反复证明,理论省一点,落到 GPU 上不一定省;有时复杂控制流反而把吞吐打碎。 还有一个问题,摘要里说“协同效果大于单独使用 YOCO 或 recursion”。这个判断要站住,至少得有消融:原版 YOCO、全层递归、浅层递归、不同迭代次数、不同上下文长度,各自曲线怎么走。现在没图、没表,我只能承认这部分还没法验。要是后续版本只在少数长文本 benchmark 上占优,短上下文和高 batch 服务场景没收益,那它更像研究分支,不像通用推理架构。 说真的,我对这条的直觉是偏正面。因为它瞄准的是今天很多团队都碰到的硬约束:你想吃到 test-time scaling 的好处,又不想把 KV cache 和延迟炸穿。这个命题比“再堆一个更大的 dense 模型”现实得多。只是现在只有摘要,缺的不是一点细节,是决定生死的那组细节:参数量、迭代步数、长短上下文分布、吞吐/延迟/显存三张表、以及跟原版 YOCO 和标准 Transformer 的同等 compute 对比。没有这些,我愿意记下这个方向,不会先记结论。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K1·R0
17:52
25d ago
● P1arXiv · cs.CL· atomEN17:52 · 04·01
YC-Bench:评测 AI Agent 的长期规划与一致执行
YC-Bench 用 1 年、数百轮的模拟创业任务评测 12 个 AI Agent,只有 3 个模型能稳定超过 20 万美元起始资金。Claude Opus 4.6 平均最终资金 127 万美元,GLM-5 为 121 万美元且推理成本低 11 倍;scratchpad 是跨上下文保留信息的唯一机制,也是最强成功指标。真正值得盯的是失败机制:对抗性客户识别失误占 47% 破产案例,前沿模型仍会因过度并行等长程执行缺口失手。
#Agent#Benchmarking#Memory#Claude
精选理由
HKR 三项都过线:题目有反差,摘要也给了足够硬的数据和失败机制,不是空泛 benchmark 宣传。分数放在 82,因为它还是 arXiv 研究结果,离行业级产品发布和多源联动新闻还有一档。
编辑点评
YC-Bench 把 Agent 短板钉得很准:顶尖模型能赚钱,但一到跨截断记忆和反欺诈,长程执行立刻露馅。
深度解读
YC-Bench 用 12 个模型跑 1 年创业模拟,只有 3 个能稳定高于 20 万美元起始资金。这个结果我很买账,因为它测的不是单步答题,而是 AI agent 现在最容易被 PR 糊过去的那块:几百轮之后,系统还记不记得自己在干什么。 摘要里最硬的数字有三个。Claude Opus 4.6 平均最终资金 127 万美元。GLM-5 平均 121 万美元。GLM-5 推理成本低 11 倍。这个组合很有信息量。第一,它说明前沿模型已经能在长程经济任务里形成稳定差距,不再只是 benchmark 上多 2 分。第二,它也说明“最好”不自动等于“最值钱”。如果成本比真是 11 倍,很多 agent 部署方会先看单位收益,而不是绝对排名。 我对这条最强的判断,不是“Claude 领先”或者“GLM 便宜”。我更在意 scratchpad 成了跨上下文截断的唯一保真机制。这个结论很刺耳,因为过去一年大量 agent 框架都在卖“长期记忆”,从向量检索到事件日志再到 profile store,讲得都很满。YC-Bench 这里却说,真正在任务里和成功最相关的,是 agent 自己持续写下来的工作笔记。说真的,这基本是在提醒大家:很多所谓 memory system,并没有把策略连续性问题解决掉,只是把历史存起来了。 这里有个文章外的对比。SWE-bench、GAIA、BrowseComp 这一类评测,主压的是问题求解、工具调用、检索或网页操作。它们当然有价值,但回合长度、资金约束、员工管理、对抗客户这几层一叠,失败机制就完全不一样了。AutoGPT 那波最早暴露的问题就是长链条里目标漂移,后面 Devin、OpenHands、各种 browser agent 也一直在补执行稳定性。YC-Bench 把这个老问题换成经营模拟,反而更接近真实世界的 agent 亏钱方式:不是不会做事,是会在第 80 轮把前 20 轮积累的坑放大。 47% 破产来自对抗性客户识别失误,这个数字我觉得尤其关键。它说明长程 agent 的短板不只是记忆,还有风险建模。你给模型更多工具、更多并行 worker,不会自动得到更稳的经营系统。摘要点名 over-parallelization,我一点不意外。过去一年不少 agent 系统都把“多线程做更多事”当作提效捷径,但只要任务之间有资源竞争、依赖顺序、现金流约束,并行本身就会制造错误。创业模拟里是 payroll 和合同选择。进到企业场景,就是采购审批、客户支持、代码发布,后果只会更贵。 我也得泼点冷水。正文目前只有 RSS 摘要,关键设计还没披露完整。3 个 seed 太少,方差多大没看到。各模型的 prompting、工具权限、上下文长度、scratchpad token 开销,摘要都没给。对抗客户怎么构造,是否泄漏固定模式,正文也没看到。要是 adversarial client 有明显模板,结果就会更像模式匹配,不完全是战略判断。我还没查到论文细节,所以这部分不能替作者补。 即便这样,这个 benchmark 还是有用。它把 agent 讨论从“能不能做”往“能不能连续 200 轮不把自己搞死”推了一步。要是后续开源环境真能复现,我最想看的不是榜单换谁第一,而是三组消融:去掉 scratchpad 会掉多少;扩大上下文后是否还掉;把并行 worker 从 1 提到 8,收益和破产率怎么变。那几组数出来,大家就能少讲一点通用智能,多讲一点执行系统工程。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:39
25d ago
● P1arXiv · cs.CL· atomEN17:39 · 04·01
极简自蒸馏提升代码生成
论文提出 simple self-distillation:模型以特定温度和截断配置采样自身答案,再用标准 SFT 回训,Qwen3-30B-Instruct 在 LiveCodeBench v6 的 pass@1 从 42.4% 升至 55.3%。增益集中在更难题目,并扩展到 4B、8B、30B 的 Qwen 与 Llama、含 instruct 和 thinking 版本。真正值得盯的是,它不依赖 verifier、教师模型或 RL。
#Code#Fine-tuning#Benchmarking#Research release
精选理由
这篇 arXiv 论文给出可复现的后训练配方:Qwen3-30B-Instruct 在 LiveCodeBench v6 的 pass@1 从 42.4% 升到 55.3%,且不依赖 verifier、教师模型或 RL。HKR 三项成立,但目前只有单篇论文结果,缺少产品化与外部复现,所以是高分 featured,不到 p1。
编辑点评
Qwen3-30B-Instruct 把 LiveCodeBench v6 pass@1 从 42.4% 拉到 55.3%,这条我买账一半:方法很干净,评测和数据泄漏细节还不够。
深度解读
Qwen3-30B-Instruct 把 LiveCodeBench v6 的 pass@1 从 42.4% 提到 55.3%,如果这个数经得起复现,那这篇论文戳中的不是“又一个训练技巧”,而是代码模型后训练里一个被大家高估了的前提:你不一定需要 verifier、RFT,甚至不一定需要更强教师,模型自己的采样分布里就藏着一批还没被 SFT 吃干净的正确程序。 我对这条的第一判断是:它像是在把 test-time sampling 里的“偶然答对”搬回 train-time,变成稳定能力。这个思路其实不新,语言模型圈过去一年一直有同类直觉。比如 best-of-n、rejection sampling、STaR、各种 self-training,都在利用“模型比 pass@1 更懂,只是一次解码吐不出来”这个事实。代码任务上这件事更明显,因为 pass@k 往往比 pass@1 高一截,说明正确解常常在尾部。SSD 的新意不在哲学,而在它把流程砍到很短:自己采样,自己回训,标准 SFT 就做完。工程上这很有吸引力,尤其对没有 verifier 基础设施的小团队。 但我不会因为“简单”就直接给高分。正文只有 RSS 摘要,关键条件没披露。第一,蒸馏样本是怎么筛的,还是全收?标题和摘要强调“不依赖 verifier”,不等于没有任何数据清洗。第二,训练集和 LiveCodeBench v6 的时间切分、去重、模板污染控制,正文没给。代码 benchmark 这两年被训怕了,HumanEval、MBPP、甚至后来的 LiveCodeBench,大家都见过因为近似题、GitHub 镜像、题解复述把增益抬高的情况。13 个点的绝对提升很大,大到我会先问污染控制,再问方法本身。 论文给的机制解释我倒觉得有点意思:它把收益归因到 decoding 里的 precision-exploration conflict,再说 SSD 会按上下文重塑 token 分布,在该收窄时压低 distractor tail,在该发散时保留多样性。这个说法和很多代码推理现象是对得上的。我一直觉得,代码生成里的难点不只是“会不会”,而是“什么时候别乱扩展”。高温采样常把模型带到一条自洽但错的支线上,低温贪心又太早锁死。若 SSD 真能把这两种偏差写回参数里,它补的是解码器和模型分布之间的错位,不只是多看了几遍自己答案。 外部参照也说明这条路有价值。过去一年,代码能力提升的主流叙事基本被两类方法占着:一类是更重的 RL/RFT,靠 unit test、执行反馈、process reward 往上推;另一类是更大的合成数据管线,靠强教师模型批量产题产解。前者贵在训练和基础设施,后者贵在教师成本和数据治理。SSD 如果在 4B、8B、30B 的 Qwen、Llama 上都成立,那它最现实的意义不是冲榜,而是给开源模型社区一个便宜得多的后训练配方。你不需要先拥有 GPT-5 级教师,甚至不需要把执行沙箱搭完整,先把基础 pass@1 往上挪。 我也得泼一盆冷水。摘要说增益集中在更难题,这听着很漂亮,但“难题”怎么定义,按 LiveCodeBench 的哪一层切?正文未披露。还有一个我比较在意的点:它对 instruct 和 thinking 版本都有效。这个结论如果成立,含义很大,因为它说明收益不依赖显式 CoT 风格,而更像分布校准。可 thinking 模型的采样长度、截断规则、训练目标,通常跟 instruct 模型差很多。没有看到每组超参、样本预算、token 成本前,我不会把“普适”这两个字说满。 说真的,这篇论文最可能被低估的地方,不是 55.3% 这个点数,而是它在提醒大家一件很朴素的事:很多后训练收益,未必来自更复杂的奖励设计,而是来自把模型本来就会、但解码时经常走丢的那部分概率质量重新整理好。要是后续复现成立,我预计它会先影响代码模型,再扩到数学和工具使用。代码最适合吃这套,因为正确性边界更硬,错误 token 的代价也更离散。 我现在保留的怀疑有两个。一个是评测洁净度,另一个是收益是否主要来自增加了高质量合成 token,而不是 SSD 这个机制本身。要分清这两件事,至少得看对照:同样 token 预算下,用普通多样采样回训、用高温 only、用低温 only,差多少;跨 benchmark 复现没有,比如 HumanEval+、MBPP、EvalPlus、SWE-bench 子任务有没有一致提升。摘要没给这些。我还没法判定这是“简单但通用”的方法,还是一次挑参数很准的论文结果。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
17:29
25d ago
● P1arXiv · cs.CL· atomEN17:29 · 04·01
筛选就够了
论文提出 Multiscreen 架构,用显式阈值筛掉无关 key,并在验证损失相当时把参数量降约 40%。摘要称它在训练上下文内外都保持检索与长上下文困惑度表现,且在 100K 上下文把推理延迟最多降到 3.2×;真正值得盯的是它用绝对相关性替代 softmax 的相对竞争。
#Reasoning#Inference-opt#Benchmarking#Research release
精选理由
这是一篇有明确工程指向的研究稿:显式筛 key,换来40%参数下降和100K上下文最高3.2×提速,HKR 三轴都成立。分数没有再上调,因为信息仍来自论文摘要,正文未披露更完整复现条件与真实部署代价。
编辑点评
这篇不是又一个线性注意力变体。它在拿掉 softmax 的“相对分配”前提,直接碰注意力这层最老的定义。
深度解读
Multiscreen 用显式阈值筛 key,并在验证损失相当时把参数降约 40%。我对这条的判断是:它有研究味,也有架构味,不像单纯的 kernel trick;作者在挑战的不是 O(n²) 复杂度口号,而是 softmax attention 把所有 key 强行拉进同一场竞争这件事。 RSS 片段给了三组数字。参数少约 40%。100K 上下文延迟最多降 3.2×。训练长度内,检索准确率还能被一个参数少约 92% 的 Multiscreen 版本反超更大的 Transformer。光看叙事,这很猛;但我先泼点冷水:正文这里没有给阈值如何设、筛掉比例多少、检索任务是什么、硬件栈是什么,也没说 3.2× 延迟是在 prefill、decode,还是端到端。没有这些,工程判断还下不了。 我觉得这篇最有意思的地方,是它把“相关性”从相对排序改成绝对通过线。标准 softmax 的确有个老毛病:哪怕一堆 key 都没用,它也得把 1 的总质量分完。检索类任务里,这会让噪声 key 以一种很体面的方式混进上下文。很多长上下文工作过去一年都在绕这个问题打补丁,比如 KV cache 压缩、chunked attention、selective attention、state-space 混合架构,目标都是少看点废 token,但多数方法没有正面重写“无关就该直接拒绝”这个判定。Multiscreen 如果真能稳定训练,还能把阈值学出来,这个方向比再做一版近似 softmax 更像新分叉。 外部参照也能说明它不只是省算力。去年到今年,长上下文路线大致分三类:一类是 FlashAttention 这种把同样的注意力算得更快,语义没变;一类是 Mamba、RWKV、Hyena 这种换掉注意力;一类是各类稀疏或检索增强,让少数 token 进入计算。Multiscreen 落在第三类和第一类之间:它保留 query-key 框架,却把“分数高低”换成“过线不过线”。这点我挺在意,因为它保留了 Transformer 生态的大部分接口,迁移成本理论上比全新序列模型低。要是这成立,部署阻力会小很多。 但我有两个疑虑。第一,阈值机制常见的问题是分布漂移。训练时学到的阈值,在更长上下文、不同语域、不同 tokenizer 频率分布下,是否还稳,片段只说“little to no degradation”,没给曲线。第二,检索准确率超越更大 Transformer 这件事,容易受任务构造影响。needle-in-a-haystack、multi-hop retrieval、passkey retrieval,难度完全不同。我自己没看到论文正文前,不会把它直接读成“语言建模也更强”。 还有一层现实问题。作者说它支持 substantially larger learning rates,这个信号很不小。过去很多注意力替代物不是推理差,而是训练脆。若 screening 真把优化地形弄顺了,价值不只在 100K 推理省时,而在同等算力下把训练吞吐抬上去。我记得一些线性注意力和稀疏注意力论文,也常给出更好长度外泛化,但最后没进主流,卡点往往不是 paper 指标,而是预训练稳定性、混合精度数值、与现有推理内核的兼容性。这篇要过的也是这些坎。 所以我现在的态度是偏乐观,但不跟着兴奋。标题叫 Screening Is Enough,口气有点大。只靠当前片段,我只能确认它提出了一个值得认真看待的注意力重定义;我还不能确认它已经拿到了替代 Transformer attention 的资格。想让我更买账,正文至少得补四样东西:阈值学习机制、被筛掉 key 的比例分布、长上下文外推曲线、以及 3.2× 延迟对应的硬件与 batch 条件。没有这些,这条更像很强的研究信号,不是马上能进生产的结论。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
17:08
25d ago
arXiv · cs.CL· atomEN17:08 · 04·01
Brainstacks:用冻结 MoE-LoRA 堆栈做跨领域认知与持续学习
Brainstacks 在 TinyLlama-1.1B 与 Gemma 3 12B IT 上,用冻结 MoE-LoRA 堆栈实现持续多领域微调,并报告比同参单 LoRA 快 2.5 倍收敛。方法含 5 个核心部件:4-bit QLoRA、top-2 路由、残差式增堆、随机 SVD 零空间约束、结果驱动元路由;实验覆盖 4 到 5 个领域、9 到 10 个堆栈。真正值得盯的是路由器学到的是可迁移认知原语,不是领域知识;医疗提示在对应堆栈零医疗数据时,97% 路由到 chat+math 堆栈。
#Fine-tuning#Reasoning#Inference-opt#Research release
精选理由
摘要给出 2.5 倍收敛和 97% 路由等具体结果,HKR-K 成立。问题是这是一篇持续学习与参数高效微调的细分训练论文,缺少产品或 agent 落地入口,触发 technical-accessibility fail,按规则排除并封顶 39。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K1·R0
16:55
25d ago
arXiv · cs.CL· atomEN16:55 · 04·01
情感分析中被忽视的重复拉长形式
论文发布 Lengthening 数据集,收录 85 万条跨领域样本,专门评估重复拉长形式(RLF)对情感分析的影响。作者还提出两阶段指令微调框架 ExpInstruct,并称微调 PLM 的分类表现超过零样本 GPT-4;正文未披露具体分数,但给出代码与样例数据仓库。真正值得盯的是,RLF 被当作文档级情感信号,不只是随手的网络口语噪声。
#Fine-tuning#Benchmarking#Interpretability#GPT-4
精选理由
这篇论文只有 HKR-K 明确命中:给出 85 万条 RLF 数据集、两阶段 ExpInstruct 和代码仓库,但正文未披露具体分数。题材偏窄,离 agent、产品与部署场景较远,行业讨论钩子弱,所以放在 all。
编辑点评
论文放出85万条 RLF 情感样本,我买账数据集,不太买账“超过零样本 GPT-4”这句,因为正文没分数也没评测条件。
深度解读
论文发布了 85 万条 RLF 情感样本,但正文没有披露“超过零样本 GPT-4”的具体分数、提示词、温度、类别分布。先把这层拆开:这条研究有价值,主要价值在数据定义,不在那句模型胜负。 我一直觉得,情感分析这类任务被大模型时代讲得太轻了,好像一个通用聊天模型顺手就能做完。实际不是。你只要把输入换成拉长拼写、重复字母、重复元音、夸张标点,分类边界就会漂,尤其在多领域数据里更明显。比如 “soooo good” 和 “goooood??” 在不同社媒语境里,强正向、反讽、犹疑都可能出现。这个论文把 RLF 单独拎出来做 85 万样本,我觉得是对的,因为它测的不是“模型会不会读网络黑话”,而是“模型会不会把形态变体当成稳定情感信号”。这两件事差很多。 文章里有一句我认同:RLF 可以作为文档级情感签名。这个判断不算新,但以前确实很少有人把它系统化。更早的 NLP 工作已经反复证明,emoji、全大写、重复标点、拉长拼写都承载情绪强度,不只是噪声。我记得 2024 到 2025 年,社媒情感和审核任务里,很多开源分类器在清洗阶段还会主动做规范化,把 “coooool” 还原成 “cool”。这一步在传统 pipeline 里很常见,也经常顺手抹掉强度信息。这个数据集的意义就在这:它逼你承认,标准化预处理本身就在丢标签。 但我对作者的比较口径有保留。正文只说 fine-tuned PLM 能超过 zero-shot GPT-4,ExpInstruct 又能让开源 LLM 用少量样本追平 zero-shot GPT-4 的表现和解释性。这个说法听着顺,实验上却很容易占便宜。原因很简单:专门微调的判别模型,对上零样本通用模型,本来就不公平。你拿 RoBERTa、DeBERTa 或同类 PLM,在窄任务数据上做监督微调,打赢零样本 GPT-4,并不稀奇。2023 年到 2025 年这类结果太多了,尤其在短文本分类、情绪识别、仇恨言论检测这几个方向。更关键的是,GPT-4 用了什么 prompt?有没有 few-shot?有没有 chain-of-thought 风格解释再映射标签?类别是否平衡?这些条件正文都没给。没有这些,胜负信息量有限。 ExpInstruct 这部分我反而觉得有一点意思。作者没有把目标只放在分类准确率,还把 explainability 拉进来,而且承认“微调 PLM 在性能上赢了,在解释上没赢”。这比很多论文诚实。因为 RLF 这类现象最难的不是标签,而是理由。模型给出正负面标签不难,难的是它到底抓到了“长度强化”这个机制,还是只记住了某些高频词共现。两阶段指令微调如果真能把“形式强度”讲清楚,那它对审核、客服 VoC、品牌监测这些任务有实际价值。可惜正文没有贴出解释质量的评分协议,也没说是人工标注、LLM-as-a-judge,还是规则匹配。我还没法判断这部分是不是站得住。 还有一个我比较在意的问题:RLF 的跨语言泛化。标题和摘要都把这件事讲成“被忽略的形式”,但从 body 看,至少当前主战场还是英文网络文本。问题在于,重复拉长在不同语言里的语用功能差异很大。英语里的 “soooo” 和西语、阿语、日语社媒里的重复写法,不一定映射到同样的情感强度,更别说中文里“好——”“好耶耶耶”“笑死我了啊啊啊”这种混合形式。要是数据主要是英文,这个结论就该收窄到“英文社媒里的 RLF”。正文没披露语言覆盖,我不会自动把它外推成通用结论。 我还想补一个行业面的上下文。过去一年,大模型评测越来越偏重推理、编码、agent 工具使用,很多人默认“老派分类任务已经 solved”。这篇论文刚好提醒了另一面:你把 benchmark 做得越通用,模型越容易掩盖边角退化。RLF 这种现象在总榜里基本不会单独暴露,但它会直接影响品牌舆情、UGC 审核、评论聚类这些真实场景。一个模型如果把 “I hate thisssss” 和 “I hate this” 当同一强度,线上误差是会堆出来的。 所以我的判断是,这条的硬货是数据集和任务切分,论文叙事里最软的是那句“超过 GPT-4”。要让我决定是否采用,我先看三样东西:一是类目分布和跨域拆分;二是是否保留原始拼写而非强规范化;三是解释性评测怎么做。代码和样例仓库已经给出,这是加分项。分数、基线和评测条件没给,这个口子现在还不能替作者补上。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H0·K1·R0
16:37
26d ago
arXiv · cs.CL· atomEN16:37 · 04·01
CARE:用证据不一致实现隐私合规的 Agent 推理
论文提出 CARE,用于 ICU 器官功能恶化短期预测,并在仅保留体征与症状相互冲突病例的 MIMIC-DOS 上比较多种基线。其机制是远端 LLM 只生成结构化类别与状态转移,本地 LLM 在不暴露敏感病历前提下取证并决策;正文未披露具体指标数值,真正值得盯的是“远端给框架、本地看数据”的隐私分工。
#Agent#Reasoning#Safety#MIMIC-IV
精选理由
远端 LLM 只产出结构化类别与状态转移,本地 LLM 在不外传病历时取证决策,HKR-K 成立。分层给 excluded,因为它是 ICU 预测的医疗交叉研究,缺少 agent 或产品落地外溢,且正文未披露关键指标,命中 hard-exclusion-传统科学与 AI 交叉。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
16:07
26d ago
arXiv · cs.CL· atomEN16:07 · 04·01
叙事指纹:用新颖度曲线动态做多尺度作者识别
这篇 arXiv 论文用 Books3 的 52,796 本书和 PG-19 的 28,439 本书测试作者识别,发现新颖度曲线可在 759 名与 1,821 名作者集合中留下可测“叙事指纹”。书级标量动态可把 43% 作者识别到显著高于随机;章节级滑窗 SAX 模式把归因做到随机水平的 30 倍,且与书级特征互补。真正值得盯的是,体裁会混淆信号,但约四分之一作者在同体裁内仍保留指纹。
#Benchmarking#Interpretability#Books3#PG-19
精选理由
HKR-H 和 HKR-K 成立:论文把“新颖度曲线”用于作者归因,给出 Books3 52,796 本、PG-19 28,439 本,以及 43% 高于随机、章节级 30 倍随机等结果。HKR-R 偏弱,和模型产品、agent、部署成本的距离较远,所以给 all,不到 featured。
编辑点评
这篇把作者归因重新包装成“新颖度曲线”。我买账一半:方法有意思,但离稳健身份指纹还差 genre、时代和语料泄漏这三道坎。
深度解读
论文在 Books3 的 52,796 本书和 PG-19 的 28,439 本书上做作者归因,并报告 43% 作者显著高于随机、章节级模式达到随机水平 30 倍。 我先说判断:这条有研究味,也有点宣传味。它不是凭空发现了“叙事指纹”,更像把老问题作者风格归因,换到信息论新颖度曲线这套坐标里重做一遍。这个改写并不坏。好处是它抓到的是节奏,不只是词频、标点、功能词那些传统 stylometry 特征。坏处也很直接:只要体裁、年代、编辑流程和语料采样没控干净,“指纹”这个词就容易说得过头。 外部参照其实很多。作者归因这件事,Burrows’s Delta、function words、character n-grams 这类方法做了二十多年,强基线往往很难打。近两年还多了一层现实压力:大家想拿“风格”去识别人类作者,顺手也想识别 LLM 文本,结果大多栽在跨域泛化上。训练集里好用的信号,换个体裁、年代、平台就掉得很快。这篇论文自己也承认 genre confound,只说约四分之一作者在同体裁内还能保留信号。这个数字我反而觉得比“30 倍高于随机”更关键,因为它告诉你信号并不普适,而是只对一部分作者稳定。 我对 43% 和 30 倍这两个结果有两个疑虑。第一,随机基线在 759 名或 1,821 名作者任务里本来就极低,所以“30 倍高于随机”听起来猛,绝对精度未必就足够部署。正文只有 RSS 摘要,没有 top-1、top-k、macro-F1、按作者样本数分层这些核心指标,我没法判断它到底是研究上成立,还是工程上可用。第二,Books3 和 PG-19 都是书籍语料,章节结构、出版体例、长文本长度本身就在帮模型做事。你把同样方法搬到博客、新闻、Substack、AO3,或者搬到 LLM 改写过的文本,我不觉得会这么漂亮。 还有一层我比较在意。Books3 不是中性数据集。它既有版权争议,也高度接近很多大模型可能见过的训练分布。论文做的是人类作者识别,不是 LLM 检测,但这个语料背景会让人天然追问:这些“新颖度曲线”到底抓到了作者习惯,还是抓到了出版工业里的共性节奏?摘要说 Twain、Austen、Kipling 和现代作者强度相近,这个点算是给了一个历史对照,但还不够。我还想看按出版年代、译本、章节长度、系列作品拆开后的鲁棒性。标题给了 multi-scale,正文没披露 ablation 细节。 说真的,这条对从业者的价值,不在“终于证明作者有指纹”。这个结论太大,现有信息撑不住。我更愿意把它看成两个更实际的方向。第一,长文本 provenance。若书级动态和章节级 motif 真互补,它可以变成版权取证、代笔审计、内容供应链溯源的一个弱信号层。第二,生成模型评测。现在大家测长文模型,常看 coherence、consistency、RAG fidelity,很少量化“新意如何随文本推进”。这篇给了一个可计算框架,至少能拿去比 Claude、GPT、Gemini、Qwen 在长篇续写时是否会塌成同一种节奏。 但我不太买“fingerprint”这个命名。指纹暗示稳定、唯一、跨环境复现。摘要里已经明说 genre 会混淆,只有约四分之一作者能在同体裁内保留信号,这更像 soft signature,不像 biometric。要让我更信,它至少得补三组实验:和强 stylometry 基线正面对打;跨语料迁移,不在同一出版分布里测;加入 LLM paraphrase 和人工编辑干预,看信号还能剩多少。现在这版我会记住方法,不会接受叙事。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R0
15:39
26d ago
● P1arXiv · cs.CL· atomEN15:39 · 04·01
修订还是重解?拆解多 LLM 流水线二次处理收益
论文用4个匹配条件拆解多LLM二次处理收益,分为重解、脚手架、内容3个可加成分。实验覆盖2组模型、3个基准;MCQ收益更像强模型重做,代码任务里两阶段提示仍有效,但弱草稿内容会拖后腿。真正该盯的是任务结构与草稿质量,不是默认“修订一定优于直连强模型”。
#Reasoning#Code#Benchmarking#arXiv
精选理由
这篇 arXiv 论文不是泛泛谈“多轮更好”,而是把二次处理收益拆成可检验机制,并用2组模型、3个基准说明MCQ与代码任务差异。HKR三项都成立,但范围仍是预印本实验,没有生产级数据,所以给到高位 featured,不到 P1。
编辑点评
论文在 2 组模型、3 个基准里拆开了二次处理收益。我的判断很直接:很多“revision 提升”根本不是改对了,而是强模型又做了一遍。
深度解读
这篇论文把一个被默认接受太久的说法拆开了:多模型 revision pipeline 的提升,未必来自“纠错”,很大一部分只是第二个更强模型重新做题。它用 4 个匹配条件,把收益分成 re-solving、scaffold、content 三块;在 2 组模型、3 个基准里,MCQ 上的提升主要落在 re-solving,代码任务里两阶段流程还成立,但弱草稿内容会拖后腿。这个结论我基本买账,而且它比一堆“让第二个模型 review 第一个模型输出”式论文更有用,因为它终于开始问增益到底从哪来。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
15:28
26d ago
X · @Yuchenj_UW· x-apiMULTI15:28 · 04·01
在 Codex 与 Claude Code 的 AI 编码战里,重置频率才是普罗米修斯之火
作者把 Codex 与 Claude Code 的竞争点指向速率限制重置频率,并称谁给开发者更多重置次数,谁就赢下这场 token economy。正文只有这句判断,未披露具体重置周期、配额数字、适用套餐或实测对比。真正该盯的是供给机制,不是抽象的“代码能力”标题战。
#Code#Tools#Codex#Claude Code
精选理由
有话题性,也碰到了开发者对限额供给的核心焦虑,HKR-H 与 HKR-R 成立。问题是正文没有数据、案例或复现实验,触发 hard-exclusion-6(零来源观点),重要性封顶 39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
14:58
26d ago
arXiv · cs.CL· atomEN14:58 · 04·01
面向 LLM 个性化的概率偏好基变分奖励分解与不确定性感知
该论文提出 VRF,用变分分布而非点估计建模用户偏好,并在 3 个基准上超过全部基线。方法细节是用变分编码器推断用户分布,再以 Wasserstein 距离匹配共享概率偏好基,并用方差衰减损失下调高不确定估计。真正该盯的是冷启动与未见用户设定;正文未披露具体分数提升。
#Alignment#Fine-tuning#Research release
精选理由
论文有方法新意,HKR-K 命中:它把用户偏好从点估计改成分布建模,并加入不确定性处理。问题是正文未披露具体分数提升,内容高度方法化、缺少通用读者入口,触发 hard-exclusion-technical-accessibility,故排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
14:55
26d ago
arXiv · cs.CL· atomEN14:55 · 04·01
YouTube Shorts 上国家资助媒体对以哈战争报道的多模态分析
该研究构建多模态流程,分析 YouTube Shorts 上国家资助媒体对以哈战争的报道,覆盖 2300 多条短视频和 9.4 万多帧画面。流程结合自动转录、方面级情感分析和语义场景分类;结果显示,不同媒体与时间段的文本情感存在差异,视觉场景与现实事件线索一致。真正值得盯的是,领域适配的小模型在情感分析上超过大型 Transformer 和 LLM,正文未披露具体模型名与分数。
#Multimodal#Vision#Benchmarking#YouTube
精选理由
这篇论文有一条可验证结果:在 2300 多条 Shorts 和 9.4 万帧样本上,领域适配小模型在情感分析里胜过更大 Transformer/LLM 基线。它更接近媒体研究用 AI 做分析,缺少 agent、产品或模型迭代含义,触发硬排除里的跨学科但无行业应用规则,所以列为 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
14:50
26d ago
● P1arXiv · cs.CL· atomEN14:50 · 04·01
手机使用代理会尊重你的隐私吗?
论文发布 MyPhoneBench,用 10 个移动应用、300 个任务评测 5 个前沿模型的手机代理隐私行为。框架把隐私合规定义为授权访问、最小披露和用户可控记忆,并用带审计的模拟应用复现多要权限、重复泄露和多填表单。真正值得盯的是,任务成功率与隐私合规会重排模型名次,成功率单指标会高估当前代理的可部署性。
#Agent#Safety#Benchmarking#Freedom Intelligence
精选理由
HKR 三项都成立:标题有钩子,正文有 10 个应用、300 个任务、5 个模型与审计式评测框架,结论也会影响代理可部署性的判断。分数不给更高,因为它还是单篇 arXiv 评测论文,行业影响先落在研究与产品安全讨论。
编辑点评
MyPhoneBench 用 300 个任务把手机代理的短板钉死了:会做事不等于能上线,过度代劳本身就是隐私事故。
深度解读
MyPhoneBench 这篇我买账,因为它没有再拿“代理能不能点完流程”糊弄人。论文把 5 个前沿模型放进 10 个应用、300 个任务里测,结论很直白:任务成功、隐私合规完成、跨会话使用已保存偏好,是三种分开的能力,而且没有一个模型全赢。这个结果很关键。手机代理过去一年最大的误导,就是大家默认“成功率高=接近可用”。这篇直接把这个等号拆了。 我觉得作者抓得最准的,不是复杂攻击,而是最土的失败模式:数据最小化做不到。任务不需要填的个人信息,代理还是会顺手填上。很多团队会把这叫“helpful”或者“completion bias”,放在桌面端自动化里像小毛病,放到手机端就不是了。手机里装的是支付、通讯录、地址、证件、照片权限,代理一旦形成“看见空格就补齐”的习惯,伤害不是一次误点,而是系统性过披露。正文给了可复现机制:带审计的模拟应用、规则审计、可观察的权限申请与表单填写轨迹,这比一堆“红队发现若干问题”硬得多。 这也补上了一个行业里一直空着的评测洞。WebArena、AndroidWorld、OSWorld 这一类基准,主轴基本是任务完成和操作鲁棒性;安全常常退成附加项,或者只看越权、注入、 jailbreak 这一类显眼问题。MyPhoneBench 把“ benign task 里的过度披露”单独拉出来,我认为更接近真实部署。用户不是天天遇到恶意攻击,更多时候是让代理订票、填表、改设置、查物流。出事往往不是模型被黑,而是模型太勤快。这个判断跟企业里 RPA 上线多年的经验很像:事故多数来自默认填充、字段误映射、权限沿用过头,不来自电影式攻击。 我也有保留。正文没有披露 5 个模型分别是谁、各项分数差多少、隐私惩罚和成功率怎么加权。没有这些细节,你很难判断“名次重排”到底是巨大差异,还是几分之内的轻微交换。跨会话记忆也一样,标题和摘要只说了 user-controlled memory,但没看到更细的机制,比如用户撤回偏好后是否立即失效、不同 app 间是否共享、默认保存期限是多少。手机代理一旦开始长期记忆,这部分比单次表单泄露还麻烦。 说真的,这篇对产品团队的提醒很明确:别再拿单一成功率做 go/no-go。至少要把三件事拆开记分:权限是否按需申请,字段是否最小披露,记忆是否可见可删。做不到这三项,成功率再高,也只是把风险自动化。我还没查到作者是否测试了 iOS 和 Android 真机环境;如果目前主要靠模拟应用,外推到真实系统权限栈还要再看一轮。但作为评测框架,它已经比大多数“代理很会用手机”的演示诚实得多。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:24
26d ago
arXiv · cs.CL· atomEN13:24 · 04·01
KUET 在 StanceNakba 共享任务中提出 StanceMoE:用于立场检测的混合专家架构
KUET 提出 StanceMoE 做行为体级立场检测,在 StanceNakba 2026 Subtask A 的 1,401 条英文标注文本上取得 94.26% macro-F1。模型基于微调 BERT,叠加 6 个专家模块,并用上下文感知门控按输入动态分配权重。真正该盯的是信号拆分是否稳健,不只是又一个 BERT 变体。
#Fine-tuning#Benchmarking#KUET#StanceNakba
精选理由
这篇稿子主要命中 HKR-K:摘要给出数据规模、94.26% macro-F1 和 6 个专家门控结构。它更像共享任务成绩单,离产品、模型发布和实际工作流较远,HKR-H 与 HKR-R 不足,所以进 all,不进 featured。
编辑点评
KUET 用 1401 条文本报出 94.26 分,这更像共享任务调参胜利,不是立场建模有了新台阶。
深度解读
KUET 用 1401 条文本报出 94.26 macro-F1,我先不买账。这个分数当然高,但数据量太小,任务又是共享赛题,排行榜上 1 到 2 分的波动常常来自切分、提示式预处理、类分布处理,而不一定来自架构本身。 摘要给出的叙事很完整:BERT 编码器上再叠 6 个专家,分别吃语义方向、词汇线索、子句焦点、短语模式、框架提示、转折结构,再用 context-aware gating 动态分配权重。问题是,正文片段没有披露几件最关键的东西:参数量涨了多少,和 plain BERT 比多了多少训练自由度;macro-F1 的方差是多少,是单次最好成绩还是多次平均;数据怎么切分,类别是否均衡;gating 到底学到了可解释路由,还是只是多加了一层可训练加权器。没有这些,94.26 只能算一个结果,离“方法成立”还差一截。 我一直觉得,立场检测这类任务对“架构创新”的容忍度很低,对“数据定义”的敏感度很高。SemEval 那几年的 stance、rumor、hate 相关任务已经反复证明过,BERT、RoBERTa、DeBERTa 这类编码器在小样本上很强,提升往往来自 target formulation、context packing、class reweighting、hard example handling。我没查到 StanceNakba 2026 Subtask A 的完整说明书,但摘要里已经写了一个危险点:target actor 是 implicit in the text。只要标注规则稍微稳定,模型就很容易学到事件框架和词汇共现,而不是“对某个行为体的立场”这件更难的事。换句话说,它可能擅长识别语域,不一定擅长识别立场推理。 MoE 这层包装我也有点怀疑。大规模生成模型里,MoE 的价值通常来自参数扩张但每 token 计算受控,前提是数据规模、任务异质性、路由学习都够大。这里是 1401 条英文文本,小数据上塞 6 个专家,听起来更像人为注入 inductive bias,再希望 gating 帮你把 bias 选对。这个思路不是不行,但它跟大家熟悉的 sparse MoE 不是一回事。要让我信服,至少得看到 ablation:去掉 framing expert 掉多少,去掉 contrast expert 掉多少;路由分布是否塌缩到 1 到 2 个专家;不同标签上的 expert activation 是否稳定。摘要没给。 还有一个我不太买账的点:作者说它优于 traditional baselines 和 alternative BERT-based variants,但没说强基线是谁。如果对手只是 vanilla BERT、BiLSTM、SVM,那这个领先没多少信息量。现在做文本分类,哪怕是偏传统的 stance 任务,DeBERTa-v3、现代蒸馏 encoder、instruction-tuned NLI 重写法,都该上场比一下。我自己也没看到论文全文里的表格,所以这里只能保守地说:标题给了高分,摘要给了结构,关键的比较对象和复现实验还没披露。 这条论文我会先把它放进“任务特化技巧”而不是“可迁移方法”那一栏。要翻盘很简单:补三样东西。第一,多随机种子和置信区间。第二,跨数据集迁移,哪怕从 StanceNakba 转到 SemEval stance 的相关子集。第三,公开路由统计,证明 6 个专家不是装饰层。做不到这三样,这个 94.26 更像 leaderboard engineering。
HKR 分解
hook knowledge resonance
打开信源
67
SCORE
H0·K1·R0
12:38
26d ago
● P1arXiv · cs.CL· atomEN12:38 · 04·01
LinguDistill:用选择性交叉模态蒸馏恢复视觉语言模型的语言能力
LinguDistill 用冻结原始 LM 作为教师,在不加适配器的条件下,让 VLM 找回约 10% 的语言与知识基准损失。方法核心是逐层共享 KV cache,让教师接触学生的多模态表征,再在语言密集数据上做选择性蒸馏;视觉任务表现基本持平。真正值得盯的是,它不改架构也不增加推理参数。
#Multimodal#Fine-tuning#Benchmarking#Research release
精选理由
这篇论文有完整 HKR:标题有反直觉钩子,摘要给出约 10% 回升、逐层共享 KV cache、视觉能力基本持平三个可检验点。分数不到 85,因为来源是单篇 arXiv 研究,正文未披露更广泛复现、部署成本和外部采用。
编辑点评
LinguDistill 恢复约10%语言损失,却更像补课方案,不是把 VLM 训练路线改对了。
深度解读
LinguDistill 用冻结教师模型拉回约10%的语言损失,这个结果有价值,但我不会把它读成“VLM 已经解决语言退化”。我更愿意把它看成一个很诚实的信号:把纯 LM 改成 VLM,语言能力掉点这件事到 2026 年还没被主流做法处理干净,大家之前更多是在绕开它,不是在修好它。 这篇的好处很具体。它不加 adapter,不改推理时参数量,机制是逐层共享 KV cache,让原始 LM 教师看到学生的多模态隐状态,再只在语言密集数据上做蒸馏。这个设计抓得很准,因为很多“保语言能力”的方案本质上是在模型里再塞一层隔离带:加中间模块、加分支、加额外对齐层。那类方法论文里常常好看,落到真实系统就麻烦,模型家族一换、推理栈一换、部署约束一变,就得重做。LinguDistill 至少在叙事上更克制:承认问题来自表征漂移和跨模态干扰,然后用教师监督把学生往回拽一点。 我觉得它踩中的,是过去一年多 VLM 里一个一直存在但经常被 benchmark 掩盖的老问题。LLaVA 系、Qwen-VL 系、很多自回归 VLM 在图文指令跟随上能冲分,但只要把测试换成更语言密集、知识密集、长链推理密集的集,原始底座 LM 的“味道”经常会变淡。我没在正文里看到他们用了哪些基座、哪些语言基准、哪些知识基准,也没看到绝对分数和恢复前后差值,只看到“恢复约 10% 的损失”。这个口径必须小心读:如果原来掉了 20 分,拉回 2 分,工程上有意义;如果原来只掉 3 分,拉回 0.3 分,那就是论文层面的精修。标题给了方向,正文没披露 benchmark 细项,我不能替它补。 我对“无额外推理参数”这句也有一点保留。对部署团队,这当然是好消息;对训练团队,账没这么简单。逐层 KV-cache sharing 听起来优雅,实际训练显存、cache 管理、teacher-student 同步开销、序列长度限制,都可能把成本抬上去。很多论文喜欢把 inference-time overhead 归零,当成方法轻量;但训练期如果要双路前向、跨层缓存共享、长上下文蒸馏,这笔钱还是要付。正文没给训练算力、batch 配置、token 规模,也没说和 adapter-baseline 的训练成本对比。我自己对这块是有疑问的:省下来的不是总成本,只是把成本从部署侧挪回训练侧。 还有一个我比较在意的点:它恢复的是“语言能力”,还是“语言 benchmark 的表面分数”。这不是抬杠。过去很多蒸馏工作都出现过这个问题——teacher 把分布拉齐了,困惑度更好,问答更顺,事实性或风格也更像原始 LM,但一旦进入图像证据和语言先验冲突的场景,学生到底更会看图了,还是更会像教师那样“按语言常识作答”,这是两回事。摘要里说视觉重任务表现基本持平,这当然不错,但“持平”不等于跨模态冲突被处理了。要真让我信服,我想看的是 hallucination rate、image-grounded faithfulness、以及图像与先验知识冲突样本上的误差拆分。正文没给。 说真的,这条论文最有用的地方,不是那 10% 本身,而是它再次提醒大家:VLM 训练里语言和视觉不是天然互补,经常是在抢表示空间。这个判断和去年一些工作是连着的。多模态 continue pretraining 一旦数据配比、冻结策略、连接层设计不稳,语言底座被“冲淡”几乎是常态。Anthropic、OpenAI、Google 这类闭源系统很少正面披露这种退化幅度,所以学术界这类“恢复损失”的论文反而提供了少数可讨论的证据。 我还没查到作者是否在更大规模模型上复现过。如果这套方法只在中小尺寸 VLM 上成立,价值主要是研究诊断;如果它能在 Qwen2.5-VL、Llama 级别的开源底座上稳定复现,而且训练成本可控,那它就会变成一个很实际的后处理步骤:先把多模态能力训出来,再用 selective distillation 把语言能力补回来。可这也反过来说明,主训练配方本身还不够好。 我的判断很简单:这篇值得看,但别被“adapter-free”四个字带跑。它证明了语言退化可以补,没证明多模态训练已经不伤底座。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
12:27
26d ago
arXiv · cs.CL· atomEN12:27 · 04·01
用于多维情绪理解的情绪纠缠与贝叶斯推断
论文发布 EmoScene 基准,包含 4,731 条富上下文场景,并用 Plutchik 8 维情绪向量标注多标签情绪。作者以零样本评测 6 个指令微调模型,最佳 Macro F1 仅 0.501;再用基于情绪共现统计的贝叶斯后处理,对 Qwen2.5-7B 带来 +0.051 Macro F1。真正值得盯的是,问题不是单标签分类,而是联合建模情绪依赖。
#Reasoning#Benchmarking#Qwen#Research release
精选理由
这篇稿子的核心价值在 HKR-K:它给出一个新基准、明确样本规模和可比数字,还指出多标签情绪依赖比单标签更难。HKR-H 和 HKR-R 都弱,正文没有产品化或 agent 含义,因此适合 all,不到 featured。
编辑点评
EmoScene 用 4731 条场景把最佳 Macro F1 压到 0.501,这条我买账一半:任务设得更像推理了,但 +0.051 的贝叶斯增益也在提醒你,模型没学会情绪结构,基准本身的先验也不小。
深度解读
EmoScene 把 6 个指令模型的零样本最佳 Macro F1 压到 0.501,这个数字先说明一件事:多情绪理解在长场景里还远没到“顺手做掉”的阶段。作者这次没有把任务继续做成短文本打标签,而是给 4731 条富上下文场景,加上 Plutchik 8 维多标签向量。这个方向我基本认同,因为很多现有情绪数据集把样本切得太碎,模型只要抓住几个词面线索就能拿到体面的分数。回到真实交互里,情绪几乎总是依赖角色关系、事件顺序、反讽和冲突目标,独立预测每个标签本来就不太成立。 我对这条的判断是:它更像一个“评测修正”,不是“能力突破”。最好成绩只有 0.501,不代表模型突然很差,更多是以前的数据把问题做浅了。这里我想到 GoEmotions 这类老基准,样本量更大、标签体系也成熟,但大多是短评论或短句,和这种场景级推理不是一个难度层级。我没逐项核过作者拿来评的 6 个模型,也没看到每个模型的具体 prompt、温度、解码约束、标签阈值设定。正文只给了最好成绩和 Qwen2.5-7B 的 +0.051 提升,没披露误差条、类别分布、标注一致性,少了这些信息,你很难判断 0.501 到底是在“难任务上合理偏低”,还是评测协议本身还没收紧。 贝叶斯后处理这部分有意思,但我会先踩一下刹车。作者用情绪共现统计做联合后验推断,给 Qwen2.5-7B 拉了 +0.051 Macro F1。这个增益不小,尤其是后处理还算轻量。问题也正出在这里:如果一个基于共现先验的外接模块就能明显加分,说明模型输出里的结构信息利用得不够,也说明数据集本身存在可被先验吸收的标签依赖。说直白一点,系统学到的也许不全是“理解场景为何又怒又惧又厌”,也可能是在补“这几个标签常一起出现”。这不等于方法无效,我反而觉得它揭示了一个长期被忽视的事实:我们现在很多情绪 benchmark 默认标签独立,训练目标和评估目标都在错配。可我还没查到作者有没有做跨领域验证,或者在标签边际分布变化时测试这套贝叶斯层是否还稳。正文没披露这部分,所以我不会把 +0.051 直接读成泛化提升。 还有一个我有点怀疑的地方:4731 条样本对做 benchmark 够不够。对学术评测来说,它不算太小;对 8 维多标签、还带场景上下文的任务来说,它也不算宽裕。只要某些情绪组合本来就稀有,Macro F1 会被长尾类别强烈影响。要是标注一致性没有很高,或者类别边界本来就主观,0.05 的提升到底有多少是方法优势,有多少是阈值和先验对齐,我觉得得看更细的 ablation。标题给出了“joint modeling”这条方向,正文没披露人类上限、标注员间一致率、以及和专门情绪分类器的对比,这些都是判断基准质量的关键信息。 说真的,这篇论文最有价值的地方,不是它证明了贝叶斯后处理多强,而是它把一个老问题重新摆正了:情绪理解不是 8 个独立开关。过去一年大家在 agent、tool use、长上下文上投了太多注意力,情感与社会推理这块经常被当成 demo 层能力。EmoScene 至少提醒了一点:只要任务从“看词猜标签”换成“读场景做联合判断”,7B 到更大模型都还会露怯。后面如果有人拿这个基准宣称某个模型“已具备高阶情绪理解”,我会先问三件事:有没有给出类别级结果,是否做了分布外测试,人类上限是多少。现在这些,正文都没给。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H0·K1·R0
12:10
26d ago
MIT 科技评论· rssEN12:10 · 04·01
The Download:零工在家训练人形机器人,与更好的 AI 基准
MIT Technology Review 在 4 月 1 日的 The Download 汇总了两条 AI 线索:Micro1 已在 50 多个国家雇用数千名零工,在家录制家务视频训练人形机器人。另一条聚焦 AI 评测失真,Angela Aristidou 提出用 Human–AI、情境特定评估替代孤立题目测试;正文未披露该方法的具体指标与实验结果。
#Robotics#Benchmarking#Micro1#MIT Technology Review
精选理由
这是一篇双条目汇总,不是独立深挖。HKR-H 来自“零工在 50 多国录家务视频训练人形机器人”的反差感,HKR-K/R 落在数据采集劳动与评测失真两条线;但正文只给出框架,评测方法缺少指标和实验结果,所以停在 all。
编辑点评
Micro1 在 50 多国雇了数千人录家务视频,这条不是机器人新闻,是数据外包开始吃进物理世界。
深度解读
Micro1 把数千名零工拉进 50 多个国家录制家务视频,这已经把机器人训练的数据链条,从云端标注推进到私人住宅。我的判断很直接:人形机器人眼下最缺的不是再多一个 VLA 论文,而是便宜、连续、可清洗的长尾操作数据。谁先把这套供给链做成,谁就先拿到一段时间差。 这事让我想到前几年 Scale AI、Appen、Remotasks 给大模型喂数据的阶段,只是这次更麻烦。文本标注暴露的是语言偏见和低薪问题。家务视频暴露的是住址、家庭结构、消费习惯、面部、儿童和同住者。正文只说“薪资在当地不错”,没给时薪、任务单价、采集协议、授权期限,也没说客户能否二次转售。我对“知情同意”这四个字有点怀疑:录制者能同意自己的数据被卖给机器人公司,不等于他能替同住家人、访客、邻居一并同意。 从技术面看,这条也说明一个不太好听的现实:很多人形公司的“通用操作”能力,离不开人先把世界演给它看。Figure、1X、Agility、Tesla Optimus 这一波都在追操作泛化,但公开视频大多是受控环境。家庭场景最难的地方不是抓取动作本身,是杂乱、遮挡、物体分布漂移,还有每个家庭都不一样的流程顺序。Micro1 这种模式的价值,不在单条视频,而在跨国家、跨户型、跨器具的分布覆盖。文章没披露数据规模、标注层级、是否同步采集深度或触觉,只能先把它看成“用廉价真人演示填补真实世界缺口”的方案。 我也不完全买“拍得多就能学得好”这套叙事。第一,iPhone 头戴视频天然有视角偏差,和机器人胸前、头部、腕部相机的观察位并不一致。第二,家务动作里很多关键变量是力控和接触状态,纯视频不够。第三,跨文化数据不自动等于高质量数据;厨具、收纳习惯、清洁流程差异很大,清洗成本会很高。我自己还没看到他们公开的数据卡、失败率或 downstream 提升数字。没有这些,先别把“数千人”直接换算成模型能力。 同一篇里谈的 benchmark 线索,我基本同意方向,但对提法保留意见。Angela Aristidou 说要做 Human–AI、情境特定评估,这个判断没错。现在很多榜单还是孤立题、短回合、单人使用假设,和企业里真实的多角色协作差很远。过去一年大家已经在往这个方向补:SWE-bench 逼近真实代码修复,METR、Anthropic、OpenAI 也都在谈长时任务、agent 失控链路和人机协作评测。问题是,文章没给这个新方法的指标、实验设计、基线模型、复现实验。 我担心的是另一头:一旦“情境特定”变成主口号,评测就很容易滑向定制咨询。每家企业都能说自己的流程独特,最后 nobody can compare anything。基准测试当然不能只考选择题,但也不能只剩案例研究。可用的路子应该是两层:底层保留可复现、跨模型可比的公共任务;上层再叠加行业工作流里的长周期、多角色、人机混合指标,比如交接损耗、回滚率、人工接管频次、完成时间和错误代价。没有这层公共底板,“更贴近现实”最后常常只是“更难被验证”。 说真的,这两条放在一起看很有意思。机器人这边,行业正在把真实世界重新切成可采购的数据单元。评测这边,大家又发现脱离真实工作流的分数越来越没用。一个在把现实搬进训练集,一个在要求把现实搬回评测集。训练和评测都开始向现场回流,这才是信号。标题里讲的是零工和 benchmark,我看到的是同一件事:AI 现在卡在“和世界怎么接线”,不再只是“参数再堆多大”。
HKR 分解
hook knowledge resonance
打开信源
65
SCORE
H1·K1·R1
11:36
26d ago
arXiv · cs.CL· atomEN11:36 · 04·01
从基线到偏好:LoRA/QLoRA 与偏好优化在心理健康文本分类中的对比研究
该论文比较 LoRA/QLoRA 监督微调与 DPO、ORPO、KTO 偏好优化在心理健康文本分类中的效果,结论是方法选择比单纯加入偏好训练更关键。摘要确认作者考察了目标函数、适配器、优化器、上下文窗口和类别重平衡;具体数据集、模型名与分数正文未披露。真正值得盯的是复现实验框架,不是单一最高分。
#Fine-tuning#Benchmarking#Alignment#Research release
精选理由
摘要给出了具体比较对象和实验变量,HKR-K 成立。问题在于题材停在心理健康文本分类这个垂直医疗 NLP 场景,没有 agent、产品或通用工作流外溢,按“跨学科但无产品含义”排除,分数封顶 39。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
11:18
26d ago
arXiv · cs.CL· atomEN11:18 · 04·01
随机注意力:受连接组启发的随机路由,让线性时间注意力更有表达力
论文提出 Stochastic Attention,用随机置换把滑窗注意力的固定局部窗口改成同等 O(nw) 预算下的随机全局窗口。其感受野可在 O(log_w n) 层覆盖全序列,滑窗注意力则需 O(n/w) 层。作者在从头预训练和 Qwen3-8B、Qwen3-30B-A3B 免训练推理中报告其优于 SWA,且算力相近时达到或超过 Mixture of Block Attention。
#Inference-opt#Benchmarking#Tools#Qwen
精选理由
论文有具体机制、复杂度和评测结果,HKR-K 成立。问题是理解门槛落在注意力架构细节,普通 AI 从业者缺少进入点,触发技术可达性排除,按规则 capped at 39。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
11:00
26d ago
● P1MIT 科技评论· rssEN11:00 · 04·01
在家训练人形机器人的零工劳动者
Micro1 在 50 多个国家雇用数千名合同工,在家佩戴 iPhone 录制洗碗、叠衣等视频,用于向人形机器人公司出售真实世界训练数据。文中给出 Zeus 时薪 15 美元,Ali Ansari 称机器人公司每年为这类数据支出超 1 亿美元;2025 年人形机器人融资超 60 亿美元。真正值得盯的是数据治理:工人知道数据用于训练机器人,但正文显示他们通常不知道数据将如何存储、共享或是否可删除。
#Robotics#Vision#Tools#Micro1
精选理由
这篇报道不是产品发布,但 HKR 三轴都成立:家庭场景采集训练人形机器人有强钩子,正文给出 50 多国、15 美元时薪和超 1 亿美元年支出。更该盯的是数据治理缺口:工人知道在录什么,正文显示他们通常不知道数据如何存储、共享和删除,所以进 featured,不到 p1。
编辑点评
Micro1把家务视频做成机器人燃料,这门生意先撞上的不是模型上限,是同意机制太薄。
深度解读
Micro1在50多国雇用数千人拍家务视频,并把这类数据卖给人形机器人公司;我对这套叙事的第一反应不是“人形数据起量了”,而是“数据权利几乎没跟上”。文章给了三个硬数:工人时薪15美元、机器人公司每年采购超1亿美元、2025年人形机器人融资超60亿美元。钱已经先跑起来了,治理还停在“别拍到脸”。 我一直觉得,人形机器人训练迟早会走到“数据劳动平台化”这一步。原因不复杂:仿真能教步态,教不好厨房和卧室里的杂乱接触;公开视频能补场景,补不好第一视角操纵。头戴iPhone拍洗碗、叠衣、铺床,数据密度确实高。Figure、Tesla、Agility 这批公司过去一年都在强调通用操作,不管他们公开没公开采购名单,背后都得有大量真实世界轨迹喂进去。这个方向我买账。 我不太买账的是 Micro1 这类公司的合规姿态。正文写得很清楚:工人知道视频用于训练机器人,但通常不知道会怎么存、跟谁共享、能不能删。这个缺口不是小瑕疵,是整门生意的地基问题。视觉数据一旦进入多家客户的数据湖,再被切片、标注、蒸馏、做 imitation learning 或 VLA 微调,后面想追溯删除,工程上就已经很难。文本数据圈过去两年已经把这课上过一遍:先抓、先训、再谈授权。现在只是把争议从网页搬进卧室和厨房。 还有个地方我看着有点别扭:文章把这份工作写成“按当地标准收入不错”,这当然是真的,但这不等于同意就充分。15美元时薪放在尼日利亚很有吸引力,这会直接改变议价关系。工人不是在和一家内容平台交易,他们是在把家庭空间、生活习惯、物品摆放、动作偏好一起打包出售。脸被遮住,不代表匿名。住处结构、家具、口音、窗外环境、反光里的细节,都可能让重识别成立。正文没披露 Micro1 的保留期限、客户名单、删除流程、跨境传输安排,这些恰好都是最该先给出的信息。 文章里还有一个行业背景,正文只碰到边。过去一年,机器人圈很流行“world model + teleop + internet-scale video”这套说法,但真到操作学习,最后还是缺带目标、带接触、带失败样本的人类演示。Google RT 系列、OpenVLA、Eureka 那条线都证明了一点:模型名字再响,没有高质量动作数据,泛化就会塌在抓取、放置、开门这种细活上。所以 Micro1 这种供给方会冒出来,我一点不意外。意外的是,行业像是默认“数据采集外包”天然比“平台抓取”更干净。未必。抓网页侵犯的是作者和站点;拍家里侵犯的是更细颗粒度的私人生活,而且可撤回性更差。 我还没查到 Micro1 的合同条款原文,也没看到客户侧 benchmark:买了这批家庭视频后,抓取成功率到底涨了多少,跨家庭泛化有没有明显提升,正文都没披露。没有这些数字,我不会把“每年超1亿美元采购”直接读成技术拐点。它更像资本先押注“数据越多越好”,跟 2023 年生成式 AI 疯抢标注和算力一个味道。那次后来证明,贵数据不一定是好数据,低质合成和重复标注能把边际收益压得很低。 所以这条新闻在我这里,不是“人形机器人快进家门了”,也不是“零工经济找到新出口了”。它更像机器人行业把互联网内容产业那套老问题,重新装进了具身外壳:谁采、谁卖、谁删、谁担责。只要这些问题还靠 FAQ 和保密条款糊过去,这门生意就会持续扩张,但它离稳还很远。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:37
26d ago
X · @op7418(歸藏)· x-apiZH10:37 · 04·01
CodePilot 上线“宠物助力”功能
CodePilot 通过一则 RSS 摘要帖宣布上线“宠物助力”功能。帖文只给出两点判断:完成度被作者称为高于 Claude Code,且设计目标是引导用户构建可成长的 Agent 工作流;正文未披露功能机制、可用范围、价格与发布时间。别被标题带偏,真正该盯的是它是否把 Agent 流程抽成了可迭代产品层。
#Agent#Code#Tools#CodePilot
精选理由
帖文只确认 CodePilot 上线“宠物助力”,还给出“高于 Claude Code”的自评;机制、可用范围、价格、发布时间都未披露。HKR 三轴都不成立,触发 hard-exclusion-6:没有数据、案例或可复现细节,按营销噪音处理。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K0·R0
10:32
26d ago
arXiv · cs.CL· atomEN10:32 · 04·01
LangMARL:自然语言多智能体强化学习
LangMARL把多智能体强化学习的信用分配和策略梯度引入语言空间,处理LLM agents在动态协作环境中的策略演化问题。摘要称它加入agent级语言信用分配、基于轨迹回放提炼因果关系,并在稀疏奖励下提升样本效率、可解释性和泛化;正文未披露实验规模与具体基准。
#Agent#Reasoning#Interpretability#Research release
精选理由
摘要有机制新意,HKR-K 成立:它把 agent 级信用分配和轨迹回放因果提炼引入语言协作。正文未披露实验规模、基准与增益,题材又偏 MARL/RL 专业研究,缺少通用 AI 从业者的进入点,触发 technical-accessibility fail,故排除。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
10:26
26d ago
● P1arXiv · cs.CL· atomEN10:26 · 04·01
记忆还是检索:面向 RAG 预训练的缩放定律
论文在固定数据预算下研究预训练语料与检索库的分配,并用 3000万到 30亿参数的 OLMo-2 模型、最高 1000亿 token 的 DCLM 数据做系统实验。作者同时扫描预训练规模为参数量的 1-150 倍、检索库规模为 1-20 倍,发现检索在各模型尺度都优于纯参数记忆,并提出由模型大小、预训练 token、检索语料组成的三维缩放框架。真正值得盯的是分配规则:检索收益取决于模型尺度、任务类型和预训练饱和度。
#RAG#Benchmarking#Reasoning#Research release
精选理由
这篇论文不是常规 benchmark 刷分;它在固定数据预算下系统扫描预训练语料与检索库分配,并给出30M-3B OLMo-2、最高100B token 的实验。新意和可操作结论都够强,讨论点直指 RAG 时代该记忆什么、该检索什么,所以给 featured。
编辑点评
这篇把 RAG 从“外挂技巧”往训练配方拉了一步,但 3B 上成立,不等于 70B 生产系统就照抄。
深度解读
论文用 3000 万到 30 亿参数 OLMo-2、最高 1000 亿 token DCLM,证明固定数据预算下加入检索库优于只靠参数记忆。我的判断是,这条的价值不在“RAG 有用”——这事 2021 年 RETRO、kNN-LM、Atlas 一路都讲过——而在它试图把预训练 token、参数量、检索库大小放进同一个缩放面里,给配比问题一个可算框架。 我比较买账的是它问对了问题。很多团队做 RAG,默认检索发生在推理层;很多预训练团队做缩放律,默认知识都该塞进权重里。这篇把两件事放到同一个预算约束下看,比较接近真实工程:你手里就是一批语料,究竟拿去继续 pretrain,还是留给索引库。这个问题以前缺的不是直觉,缺的是系统扫描。文中扫了预训练 1-150 倍参数量、检索库 1-20 倍,跨度算够看趋势。 但我对外推范围有保留。上限只有 30 亿参数,这离今天主流闭源模型和很多开源主力都差一个量级。模型一旦上到 30B、70B,参数记忆的容量、长上下文利用率、KV cache 成本、检索噪声容忍度都会变。Chinchilla 那套结论当年一出,很多人就吃过“中等尺度规律直接外推到超大模型”的亏。我还没在摘要里看到误差条、任务拆分细表、检索器配置、top-k、重排方式,这些正文没披露,判断强度先别拉太满。 还有一个我不太买账的地方:论文说 retrieval 在各模型尺度都优于纯参数基线,这句话在研究语境里成立,在产品语境里没这么简单。检索带来的不是白送增益,它有延迟、索引更新、chunking、权限控制、召回失败、上下文污染。特别是开放域 QA 和科学问答,RAG 常常很好看;一到多跳推理、代码修复、长链规划,错误检索会把模型直接带沟里。摘要提到 reasoning、scientific QA、open-domain QA,但没给各任务胜率和退化案例。我自己会先怀疑:收益是不是主要由知识密集任务贡献,推理类只是被平均数带起来。 这条和过去一年行业走向是对得上的。OpenAI、Anthropic、Google 都在把“记忆”拆成多层:权重里的常识,长上下文里的工作记忆,外部检索里的新鲜事实,再加工具调用。工程上大家早就默认不是所有知识都该进参数。论文的贡献,是把这个经验判断压成配比问题。要是后续能把检索延迟成本、索引更新频率、上下文窗口占用也并进目标函数,这会比单纯 benchmark 提升更有用。 所以我会把它看成一篇配方论文,不是能力论文。它在回答“数据预算怎么花”,不是“RAG 从此压过预训练”。标题已经给出 scaling law,正文摘要没披露具体拟合式、最优分配拐点、不同任务的转折位置;这些数字不出来,这篇还只能当方向盘,不能当自动驾驶。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
09:58
26d ago
arXiv · cs.CL· atomEN09:58 · 04·01
用于强化学习的 Hint 学习
论文提出 HiLL,在 GRPO 强化学习中联合训练 hinter 与 reasoner,用在线提示修复“同组奖励相同”导致的 advantage collapse。方法引入 hint reliance,并据此定义 transfer-weighted reward;摘要称其在多个基准上稳定优于 GRPO 与既有 hint 基线,但正文未披露具体分数与数据集。
#Reasoning#Fine-tuning#Benchmarking#Research release
精选理由
这篇论文讨论 GRPO 的 advantage collapse,内容偏 RL 训练细节,缺少面向通用 AI 从业者的进入点,触发 hard-exclusion-technical-accessibility。摘要虽给出 hinter 联训与 transfer-weighted reward,但正文未披露数据集和分数,HKR 只有 K 勉强成立。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
09:23
26d ago
arXiv · cs.CL· atomEN09:23 · 04·01
从 Attention 到 Mamba:跨架构蒸馏方案
论文提出两阶段蒸馏,把 Pythia-1B Transformer 迁移到不含 Attention 的 Mamba,蒸馏后困惑度达 14.11,接近教师模型 13.86。方法先把 Transformer 蒸馏到线性化 Attention,再蒸馏到经适配的 Mamba;作者还在 1B 规模、10B tokens 条件下做了消融、缩放和阶段分配敏感性实验。真正值得盯的是初始化与中间线性 Attention 桥接,不是再塞回混合 Attention 块。
#Reasoning#Inference-opt#Benchmarking#Mamba
精选理由
跨架构蒸馏到 Mamba 有新意,HKR-H/K 成立:标题钩子明确,正文也给了 1B、10B tokens 与 14.11 对 13.86 的结果。行业共鸣弱,训练成本、吞吐和实际收益都未披露,分数落在 interesting 但不到 featured。
编辑点评
作者把 Pythia-1B 蒸馏到纯 Mamba 后只差 0.25 perplexity,这条我买账一半:桥接初始化像方法进展,离替代 Transformer 还差部署证据。
深度解读
作者把 Pythia-1B Transformer 蒸馏到纯 Mamba 后把困惑度做到 14.11,教师是 13.86,条件是 1B 规模、10B 蒸馏 tokens、两阶段桥接。这件事我觉得有分量,因为过去一年的老问题一直是:纯 SSM 很少输在吞吐叙事,常输在怎么继承 Transformer 预训练资产。很多工作最后都会退回混合块,给 Mamba 塞回一点 attention,当场就把命题改了。这里作者反而把路走窄了,先蒸到线性化 attention,再蒸到适配过的 Mamba,还强调初始化,这比“做个 hybrid 凑分数”干净得多。 我买账的点有两个。第一,0.25 perplexity 的差距在语言建模里不算大,至少说明“Transformer 表征没法迁到纯 Mamba”这句话不能再直接讲。第二,中间桥接层选线性 attention 很合理。因为它保留了 attention 的一部分归纳偏置,又把状态更新写法往 SSM 靠,这种过渡比从标准 softmax attention 直接跳到 Mamba 平滑。我一直觉得,跨架构蒸馏如果中间表征空间差太远,学生学到的只会是 teacher logits 的表面分布,学不到计算图里的组织方式。这个两阶段方案至少是在正面处理这个问题。 但我对叙事还是有保留。摘要给了 perplexity 14.11 和“downstream tasks 保持性能”,正文片段没披露具体任务、误差条、蒸馏损失、训练预算拆分,也没给吞吐、延迟、KV cache 或显存曲线。没有这些,结论还停在“学术上能蒸过去”,没到“工程上值得换架构”。Mamba 这条线从最早爆红开始,卖点一直是长序列和生成吞吐;如果论文最后只证明它能在 1B 语言建模上接近 teacher,却不展示服务侧收益,那价值会被高估。 回到上下文里看,这篇的意义更像“资产迁移配方”而不是“新基座胜出”。Mamba 初版出来时,大家最兴奋的是线性时间和更省内存;后面实际落地就碰到两个坎:一是训练配方没 Transformer 稳,二是生态里的现成 checkpoint、对齐流程、蒸馏工具几乎都围着 attention 建的。我记得去年到今年,社区不少结果一旦追求强基准,还是会回到 hybrid 设计,或者在 selective scan 之外保留 attention 通道。我没逐篇核对,但大方向就是这样。所以这篇如果成立,价值不在“证明 attention 不重要”,而在“给已经囤了很多 Transformer 权重的人一条迁移路径”。这个对象很现实:研究团队和公司手里最贵的不是架构想法,是已经训好的模型。 我还有一个疑虑:10B 蒸馏 tokens 到底算省还是不省,得看基线。对从头训练 1B 模型来说,10B 不算夸张;对“低成本迁移”叙事来说,它也绝不便宜。要是 student 还需要复杂的两阶段调参、阶段 token 分配搜索、专门初始化,那工程复杂度会吃掉一部分收益。摘要说做了 token allocation sensitivity,这很好,但没披露最优分配是否稳定、换 teacher 后会不会失效。这个信息缺口很关键,因为 recipe 一旦只在 Pythia-1B 一类 dense decoder 上成立,外推到更大的 instruction-tuned 模型就要打折。 所以我的判断是:这篇把“纯 Mamba 接不住 Transformer 蒸馏”往前推了一大步,但它证明的是可迁移性,不是统治性。你要是做研究,这个初始化加线性 attention 桥接很值得复现。你要是做产品,我还不会因为 14.11 对 13.86 就改服务栈。正文没披露推理成本、长上下文表现、以及更大模型上的稳定性,这三块不补,结论先停在方法论文级别。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R0
09:17
26d ago
arXiv · cs.CL· atomEN09:17 · 04·01
常见 TF-IDF 变体可由词突发性的惩罚似然比检验统计量导出
该论文把 TF-IDF 类分数写成词突发性检验统计量的关键项,条件是备择假设用带 gamma 惩罚精度参数的 beta-binomial 建模文档集合。原假设把词频视为 binomial,不能刻画 over-dispersion。作者称该权重方案在文档分类上与 TF-IDF 相当,但正文未披露具体数据集、分数和显著性。
#Benchmarking#Research release
精选理由
文章有一个明确新点:把 TF-IDF 变体写成带 gamma 惩罚的 beta-binomial 词突发检验关键项。问题是内容几乎全是统计建模推导,正文未披露数据集、分数和显著性,触发技术可达性不足,重要性封顶到 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
09:13
26d ago
arXiv · cs.CL· atomEN09:13 · 04·01
TRIMS:面向扩散语言模型的轨迹排序指令掩码监督
论文提出 TRIMS,用自回归教师的轻量信号监督 MDLM 的 token 揭示顺序,在最小额外开销下改进并行解码轨迹。摘要称,TRIMS 在 LLaDA 与 Dream 的数学、代码基准上,提升了准确率—并行度权衡,并以更低训练成本接近基于蒸馏的方法;正文未披露具体分数与成本数字。真正值得盯的是,它打的不是模型规模,而是训练—推理轨迹失配。
#Inference-opt#Fine-tuning#Benchmarking#Research release
精选理由
TRIMS 有一个清楚的新机制:用自回归教师信号排序 MDLM 的 token 揭示轨迹,直指训练—推理失配。它仍是高门槛的训练方法论文,摘要也未给出具体分数与成本数字,触发 technical-accessibility fail,按规则排除且分数封顶。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H0·K1·R0
08:32
26d ago
arXiv · cs.CL· atomEN08:32 · 04·01
大语言模型在策略蒸馏综述
该综述将大语言模型在策略蒸馏归纳为3个维度:反馈信号、教师访问方式、损失粒度,并用统一的f-散度框架整理方法。摘要点明传统离策略蒸馏依赖静态教师数据,学生训练时不会看到自身错误,推理阶段会因曝光偏差累积误差;正文未披露纳入论文数。真正值得盯的是它把logit、结果奖励和self-play放进同一坐标系,也点出蒸馏扩展律、不确定性感知反馈、agent级蒸馏仍未解决。
#Reasoning#Fine-tuning#Agent#Research release
精选理由
这篇稿子主要命中 HKR-K:它把 on-policy distillation 拆成3个维度,并用 f-散度统一已有方法。标题是常规综述,正文也没给出纳入论文数、效果提升或落地案例,讨论度和传播性都偏弱,所以放 all。
编辑点评
这篇综述把 OPD 压成 3 个坐标轴是对的,但我不太买“统一框架”这层叙事:训练目标能统一,教师成本和在线稳定性统一不了。
深度解读
这篇综述用 3 个轴重排 OPD,我认同它抓到了蒸馏里最老也最常被忽略的问题:学生在训练时没见过自己的错。静态教师数据做 off-policy distillation,部署时再让学生自回归展开,误差会一路放大。这不是新问题,早年 seq2seq 就在讲 exposure bias,后来 imitation learning 里的 DAgger 也是同一类修补。把这套脉络搬回 LLM,我觉得是对的,而且比“再加一点偏好数据”更接近核心。 有用的地方在它没把 OPD 写成单一路线。logit feedback、outcome reward、self-play,被放进 feedback signal;white-box、black-box、teacher-free,被放进 teacher access;token、sequence、hybrid,被放进 loss granularity。这个切法对做系统的人有帮助,因为你一眼就能看出约束在哪:拿不到 logits,就别装作在做白盒蒸馏;教师调用太贵,就别把 sequence-level reranking讲成通用方案。标题和摘要给了 3 个维度,正文片段没披露纳入论文数,也没给各类方法的占比,这个缺口不小,说明它更像地图,不是定量元分析。 我自己对“用 f-divergence 统一”这层说法有点保留。KL、reverse KL、JS 这一套,整理 logit matching 很顺。到了 outcome-based learning 和 self-play,很多关键量已经不是“分布距离”本身,而是 credit assignment、query budget、rollout depth、以及 teacher error 的传播。你当然能把目标写进同一个框里,工程难点还是没被消掉。说真的,LLM 领域这两年很爱先做统一视角,再把最难的 online instability 藏到附录里。这个综述有没有正面拆 teacher latency、并行采样成本、失败轨迹比例,摘要里看不到。 文章外的上下文其实很清楚。OpenAI、Anthropic、Google 过去一年都在把模型训练往更在线的反馈靠,尤其是代码和 agent 场景。原因很简单:静态蒸馏对“答得像”很有效,对“做成事”没那么有效。DeepSeek-R1 那波之后,业内对 reasoning distillation 的兴趣暴涨,但大多数公开 recipe 还是偏 off-policy,把 teacher traces 当金标准喂给小模型。这能拿到不错的 benchmark 提升,却不自动等于交互稳。一个 coding agent 连续调用 10 次工具,前 2 步的小偏差就够把后面 8 步带歪,token-level KL 根本兜不住。 所以我看这篇的价值,不在它发明了新方法,而在它把一个正在变主流的训练范式讲明白:蒸馏已经从“压缩教师分布”转向“让学生在自己的轨迹上被纠偏”。这会直接影响小模型、端侧模型、还有企业私有部署。你要省推理成本,最后多半还是得蒸馏;你要让学生在真实任务里别崩,迟早要碰 on-policy。 我的疑虑也很直接。摘要提到 industrial deployments,却没给公司名、任务类型、教师调用成本、收益区间。没有这些数字,“工业落地”四个字分量有限。另一个难点是 scaling law。它把 distillation scaling laws 列为开放问题,这个判断我同意,因为现在大家还不知道 teacher strength、student size、online rollout budget 三者怎么配比最划算。没有这条规律,OPD 很容易变成只有大厂玩得起的昂贵训练程序。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
08:14
26d ago
arXiv · cs.CL· atomEN08:14 · 04·01
英语到中库尔德语语音翻译:语料构建、评测与正字法标准化
论文发布 KUTED 英语到中库尔德语语音翻译数据集,含 9.1 万句对、170 小时音频、165 万英文词和 140 万库尔德词。作者称正字法差异会明显拉低翻译表现;经系统化文本标准化后,微调 Seamless 在独立 TED 测试集达 15.18 BLEU,并在 FLEURS 上比 Seamless 基线高 3.0 BLEU。
#Audio#Benchmarking#Fine-tuning#TED
精选理由
HKR-K 成立:论文给出 KUTED 的 9.1 万句对、170 小时音频,并把正字法标准化对性能的影响量化到 FLEURS 上的 +3.0 BLEU。题材偏低资源语音翻译研究,行业读者能学到方法,但和主流模型竞争、产品路线、工作流改造的距离较远,所以列入 all。
编辑点评
KUTED 放出 9.1 万句英—中库尔德对,价值不在 15.18 BLEU,而在先把“字怎么写”这件小事补上了。
深度解读
KUTED 提供 9.1 万句对和 170 小时音频,把英语到中库尔德语语音翻译先拉到了一个能认真做实验的起点。我对这篇最认同的一点,不是作者报出的 15.18 BLEU,也不是 FLEURS 上 +3.0 BLEU,而是他们把正字法标准化单独拎出来处理。低资源语言这块,很多论文一上来就谈模型架构,最后输给的却是标注不统一、拼写变体太多、评测脚本太粗。这篇至少承认了一个老问题:你如果连 target form 都没收敛,BLEU 先天就会被打穿,模型也会学到一堆互相冲突的表面形式。 这件事在库尔德语上尤其要命,因为方言、书写习惯、字符变体本来就复杂。文章说标准化后翻译更稳定,我买账;因为这类收益通常不是“模型突然更懂语义”,而是训练目标和评测目标终于对齐了。过去一年类似现象在多语 ASR、机器翻译里反复出现,尤其是非洲语言和南亚语言的数据集建设工作里,文本规范化带来的提升经常比再堆一个 decoder layer 更实在。我没去核这篇的具体规则集和人工审核流程,正文摘要也没给,所以这里有个保留:如果标准化规则过强,它也会把真实语言差异压扁,最后模型只会输出“比赛友好”的库尔德语,而不一定是社区最自然的写法。 我还想补一个文章外的参照。Meta 的 Seamless 系列和 NLLB 这两年一直在吃“覆盖广”的红利,但覆盖广不等于每个语言方向都站得住。很多低资源对上,预训练大模型能先给你一个能跑的 baseline,最后把性能拉起来的,常常还是语料清洗、切分、正字法统一、专名表这些脏活。KUTED 这个结果就很像这一类:作者一边微调 Seamless,一边还试了从头训 Transformer 和 Seamless ASR + NLLB MT 的级联系统,等于把“数据问题”和“架构问题”都碰了一遍。可惜摘要没披露三套系统各自的误差分布、训练成本、推理延迟,也没说 15.18 BLEU 相对哪条强基线提升了多少,所以现在还不能下“某条路线胜出”的结论。 说实话,我对 15.18 BLEU 这个数字本身没有太强兴趣。TED/TEDx 口语翻译到低资源目标语,15 左右不算难看,但也远没到可部署水位。更关键的是泛化:离开 TED 讲稿风格、离开相对干净的英语音频、离开演讲体句法,这个系统还能不能稳住?作者提到在 FLEURS 上比 Seamless 基线高 3.0 BLEU,这个信号比单一测试集分数更有用,但摘要还是没给绝对分、切分方式、是否做过 domain overlap 检查。我自己会先把这篇当成“数据与规范化基础设施”论文,不会当成“库尔德语 S2TT 能打了”的证明。 这条的意义其实很朴素:大模型时代没有抹平低资源语言的基本账,很多时候反而把账暴露得更清楚。你要做 Central Kurdish,不先解决文字标准、语料版本和评测口径,换再大的 speech model 也只是把噪声学得更完整。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H0·K1·R0
07:21
26d ago
arXiv · cs.CL· atomEN07:21 · 04·01
基于归因理论的日语社会偏见推理评测基准
研究提出日语偏见评测集 JUBAKU-v2,含 216 个样本,专测固定结论下推理过程中的内外群体归因偏差。数据基于社会心理学归因理论构建,针对日本文化语境,不再依赖英文学料翻译。真正值得盯的是,它声称比现有日语基准更敏感地区分模型表现,但正文未披露具体模型名单与指标。
#Reasoning#Alignment#Benchmarking#JUBAKU-v2
精选理由
K 命中:摘要给出 216 个样本、归因理论框架、非英译语料三个新信息。H 不足,R 也弱:标题是窄众评测,正文未披露模型名单、指标和部署影响,行业讨论面不够宽,放入 all。
编辑点评
JUBAKU-v2 用 216 个样本补上了日语“推理偏见”这块空白,但样本这么小,先别把“更敏感”当成已验证结论。
深度解读
JUBAKU-v2 把 216 个样本压在“固定结论、只看归因推理偏差”上,这个切法是对的。多数偏见基准还停在结论层,问模型最后选了谁、判了谁,却没拆它是怎么把内群体的行为解释成“环境导致”,把外群体的行为解释成“人格导致”。这篇用归因理论做题面,至少抓住了社会偏见里更稳定的一层机制,不只是表面措辞。 我对这条的正面判断是:日语语境确实需要本地构造的数据,翻译英语基准一直有噪声。像 BBQ、CrowS-Pairs、StereoSet 这类英文偏见评测,翻成日语后常会丢掉社会角色、礼貌等级、群体关系的语用信息。日本语境里,内外关系、责任归属、间接表达,本来就比英语更依赖情境。拿翻译题测日语模型,很多时候测到的是翻译腔,不是偏见。JUBAKU-v2 至少在问题定义上走对了一步。 但我不太买账“更敏感地区分模型表现”这句,现在证据太薄。正文只有 RSS 摘要,没披露模型名单、评分方法、显著性检验、标注一致性,也没说“敏感”具体指方差更大、排序更稳定,还是效应量更高。216 个样本做 benchmark 不是不能用,但很容易被 prompt、解码温度、judge 模型选型放大波动。要是不同模型只差 2 到 3 题,结论就很脆。要是靠 LLM-as-a-judge 判推理偏差,评审器本身的偏见又会叠一层。文章摘要没给这些关键条件,我还不能把它当硬基准。 还有一个更现实的问题:现在很多前沿模型都在收紧或隐藏 chain-of-thought。你想评“推理中的偏见”,前提是模型愿意暴露中间归因。OpenAI、Anthropic 这两年都越来越少公开原始长推理,很多接口只给压缩后的 reasoning summary。这样一来,基准要么依赖模型外显解释,要么改成从最终回答反推归因模式,两个路径都不干净。我自己觉得,这类 benchmark 更适合测“可见解释层的偏见”,不一定等于底层决策机制。 如果后续论文正文补出每个模型的分数、人工标注协议、重测稳定性,这条会更有分量。我还想看一个外部对照:它和现有日语偏见集相比,到底提升了多少。我记得日本方向以前有 JBBQ 一类数据,但我没核实最新版本和题量。要是 JUBAKU-v2 只是因为题更尖锐,所以把模型差异拉开,那是好事;要是只是样本小、分布窄,导致排名更抖,那就不是“更敏感”,而是“更不稳”。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H0·K1·R0
06:28
26d ago
arXiv · cs.CL· atomEN06:28 · 04·01
Optimsyn:用影响力引导量表优化合成数据生成
Optimsyn用影响力分数优化合成数据量表,并在多领域、多目标模型、多数据生成器实验中持续提升下游表现。方法用梯度与优化器感知估计器衡量样本对目标任务训练目标的贡献,再把该分数作为奖励,用强化学习优化量表生成器。真正值得盯的是,它直接用训练效用做反馈;具体增幅与基准名称正文未披露。
#Fine-tuning#Alignment#Benchmarking#Research release
精选理由
HKR-K 成立:摘要给出“影响力分数→RL 优化 rubric”这条明确方法链。HKR-H 与 HKR-R 偏弱,正文未披露增幅、基线和训练成本,更像细分后训练论文,所以放在 all 的中段。
编辑点评
Optimsyn把量表优化直接绑到目标模型梯度上,这个方向我买账;但正文没给增幅和基准,现阶段还不能把它当成通用配方。
深度解读
Optimsyn这篇的判断很直接:作者把“合成数据好不好”从人工量表审美,硬拉回了训练效用。论文说它用影响力分数给样本打分,再用这个奖励去做量表生成器的强化学习优化。这个思路比常见的“先写 rubric,再看模型分数,再人工改 prompt”要像样得多,因为反馈链终于接到了目标模型本身,而不是接在一个更便宜、也更偏门的代理指标上。 我一直觉得,合成数据这条线过去一年有个老毛病:大家把“数据看起来像真数据”误当成“数据对训练有用”。这篇摘要里有一句是对的——embedding 很接近,训练影响也能差很多。做过 SFT 的人基本都见过这个现象:两条回答都通顺、都覆盖关键点,进训练后带来的 loss 曲线和泛化结果就是不一样。原因不神秘,样本效用本来就受目标模型当前参数、优化器状态、任务分布和采样混合比影响。只看语义相似度、judge model 打分、格式合规率,这些代理指标经常会把“好看但无用”的样本放进来。 这也是我对它有兴趣的地方。它不是在做更花的 data synthesis prompt engineering,而是在碰一个更硬的问题:能不能把数据选择本身,写成一个近似可优化的问题。这个方向在训练圈并不新。数据价值估计、influence functions、data attribution,这几年在学术界一直有人做;我印象里,从 Koh and Liang 那套 influence functions 到后来的 TracIn、Data Shapley,核心都在回答“哪条样本真的推动了目标任务”。这篇把这条线接到 synthetic rubric optimization 上,算是把旧工具插进了新工作流。这个拼接我觉得靠谱,比单纯再造一个“rubric judge model”靠谱。 但我对摘要里的“consistent improvements across domains, target models, and data generators”有保留。RSS 正文没给具体增幅,没给 benchmark 名,没给 target model 尺寸,也没给 influence estimator 的计算成本。没有这些,结论力度得打折。影响力估计最容易出问题的地方,不是方向错,而是成本和近似误差。你如果每轮都要拿目标模型梯度、再做 optimizer-aware 估计,哪怕是近似版,算力账也未必好看。很多看上去优雅的数据选择方法,最后死在“提升 1-2 个点,代价多一倍训练流程复杂度”。摘要没有披露这部分,我不会先替它补完故事。 还有一个我想追问的点:它优化的是 rubric,而不是直接优化样本生成策略。这个设计挺聪明,因为 rubric 比逐条样本更低维,比较容易做 RL;但副作用也很明显,rubric generator 很容易学会迎合某个 target model 的短期偏好。作者说有“strong generalization without task-specific tuning”,我先记账,不先相信。合成数据一旦直接吃目标模型反馈,就容易把某个模型的盲点放大成数据分布本身。你在一个 7B instruction model 上学到的高 influence 样本,换到另一个 tokenizer、另一个 optimizer、甚至只是不同阶段 checkpoint,上限未必还在。我自己还没看到正文,所以没法确认他们有没有做 cross-model transfer、out-of-distribution task、或不同训练步数下的稳定性测试。 回到行业语境,这篇踩中的点其实很现实。去年到现在,大家对合成数据的判断已经从“能不能生成”转到“生成什么才值钱”。无论是 self-instruct 的老路,还是后来的 Evol-Instruct、RLAIF、judge-filter pipelines,瓶颈都不是多产几百万条,而是别把训练预算浪费在低效样本上。OpenAI、Anthropic、Meta 这些大厂内部肯定早就在做更复杂的数据筛选,只是公开得少。Optimsyn的价值,不在于它发明了“模型反馈”这件事,而在于它把反馈对象从单条答案打分,推进到“上游 rubric 该怎么写”。如果这条成立,后续数据工程会更像 policy search,而不是人工 prompt 手艺活。 我还是得泼点冷水。摘要没披露具体任务,我就没法判断它是不是挑了那类特别适合 influence-based selection 的 setting。知识密集任务、长答案任务、格式强约束任务,对 influence 估计的敏感度差很多。医学、法律、金融这些领域还牵涉事实密度和安全边界,单看训练效用会不会把“更会提高分数”误当成“更适合上线”,这个问题摘要也没碰。训练 utility 不是 deployment utility,这个坑不少人会踩。 所以我的结论是:这个方向我认可,叙事也比常见 synthetic data 论文扎实;但现在只有标题和 RSS 摘要,关键证据没摆出来。标题已经给出“持续提升”和“跨域泛化”,正文未披露提升幅度、基准名称、计算开销、cross-model 稳定性。没有这四样,它更像一个值得继续跟的研究接口,不是马上能抄进生产流水线的方法。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
06:12
26d ago
arXiv · cs.CL· atomEN06:12 · 04·01
MF-QAT:面向弹性推理的多格式量化感知训练
MF-QAT 训练单一模型适配多种量化格式,并在各目标精度上达到接近单格式 QAT 的表现。论文提出 Slice-and-Scale,可把锚点检查点 MXINT8 或 MXFP8 在线转换为更低精度 MXINT 或 MXFP;具体基准、模型规模与误差数字,正文未披露。真正值得盯的是部署链路:一份检查点覆盖多硬件与运行时约束,省掉为每种数值格式重复训练。
#Inference-opt#Research release
精选理由
论文提出 Slice-and-Scale,支持一份检查点适配多量化格式。题材偏数值方法,正文又缺基准与误差表,触发技术可达性排除,分数封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
04:44
26d ago
● P1arXiv · cs.CL· atomEN04:44 · 04·01
对数评分、幂律发现:拆分基于 Agent 评估中的测量与覆盖
该论文基于15项任务、两组模型对和960次会话,发现人格化 Agent 评审在图灵式验证中与人类评分者不可区分。作者还发现评分质量随评审团规模按对数提升,独特问题发现按次线性幂律增长,且评分饱和速度约为问题发现的2倍。真正值得盯的是机制:Big Five 人格条件与专家评审可扩大集成多样性;消融显示,必须用结构化人格设定,单纯提示词不行。
#Benchmarking#Alignment#Agent#Research release
精选理由
HKR 三项都成立:标题有明确反差,正文也给出15项任务、960次会话和两条可操作的标度律,还说明结构化 Big Five 人格设定比普通提示词更有效。分数放在80,是因为它仍是 arXiv 评测研究,离头部实验室产品发布和行业级事件还有距离。
编辑点评
论文用960次会话把“AI 当评委”往前推了一步,但我不买“像人类”就等于“可托付”这套叙事。
深度解读
论文用15项任务、960次会话测到:人格化 Agent 评审与人类评分者在图灵式检验中不可区分,但这更像覆盖率工程有了规律,不是评测可信度已经解决。这个区别很关键。很多团队现在把 LLM judge 当便宜陪审团,用来替代人工偏好标注、红队审查、产品回归测试。你如果只看到“像人”,很容易高估这条线。评审像人类,只说明它复现了人类评分分布的一部分;它没自动证明分数校准、偏差稳定性、跨任务可迁移性也成立。正文没披露具体模型名、显著性检验、人与 Agent 的一致性区间,我没法把这篇直接升格成“可上线的 judge science”。 我觉得这篇最有用的点,是它把两个常被混在一起的东西拆开了:打分质量,和问题发现覆盖率。作者说前者随评审团规模按对数提升,后者按次线性幂律增长,而且分数饱和大约快两倍。这个结论很像大家做红队时的实际体感。三五个视角,通常足够把总体好坏排出序;真要挖边角缺陷,面板规模就会一路膨胀。行业里早就有相似信号。MT-Bench、Arena、AlpacaEval 这一系工作,都证明 LLM judge 对“谁更好”很有用,但一到细粒度失败模式枚举,单裁判很快塌成表面共识。我记得 Anthropic 和 OpenAI 去年几轮 system card 也都在强调多样化 red teaming,而不是追求一个万能裁判,原因就在这里。 我对“不可区分于人类评分者”这句还是有保留。图灵式验证很讨巧,因为它测的是像不像人,而不是准不准。人类评分者自己就有强偏差:首因效应、长度偏好、措辞偏好、对自信口吻的奖励,这些在 LLM judge 里经常被放大。G-Eval、Prometheus、OffsetBias 一类工作已经把这个问题讲得很明白:模型评委常常学会了人类坏习惯。这个前提下,Agent judge 越像人,未必越好;它也可能只是更像一个稳定复读的人类偏见放大器。摘要没有给出外部真值,像任务完成率、用户留存、人工复核纠错率这类落地指标,所以我不会把“indistinguishable”读成“validated”。 结构化人格设定比简单提示词有效,这个结果我倒是买账。原因不神秘。简单 prompt 往往只是在同一个基模上加点语气差异,相关性很高,投票多了也只是重复采样。Big Five 这种显式人格条件,至少在机制上更接近人为制造评价函数的正交性,让不同 agent 去放大不同维度:严谨性、礼貌、风险敏感、任务完成、信息密度。专家评审再往里塞一点对抗性,相当于给长尾错误加探针。这和经典 ensemble 学习很像,增益不来自“多”,而来自“低相关”。如果正文里真做了相关性矩阵或互信息分析,那会比“通过人格设定提升多样性”这句更硬。可惜摘要没给。 还有一个我想追问的点:两组模型对、15项任务,这个覆盖面还不够证明缩放律能外推。Agent judge 的幂律发现曲线,可能依赖任务开放度。开放式对话、策略规划、长上下文检索,错误空间天然肥尾;封闭式问答、格式校验、代码单测,发现曲线往往更快收敛。把它们揉在一起,会不会把一条任务分布特有的曲线,讲成一般规律?我还没查到论文是否按任务类型分层。如果没有,这个结论要谨慎用。 落到实务,我会把这篇当作评测预算分配指南,不当作 judge 替人的许可证。想做排行榜、AB 比较、回归监控,小规模多样化面板已经够用,重点是控制裁判相关性。想做安全审查、长尾缺陷搜集、产品上线前红队,面板规模要按发现目标来配,别拿平均分上升当覆盖率上升。说实话,这篇最像在给“多 agent 评测系统”补一条统计解释:为什么加人头开始有用,后来越来越贵。这个我认。但它离“我们已经知道该信任多少个 AI 评委”还差几块关键拼图:模型名、任务分层、真值对照、成本曲线,摘要都没披露。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
04:01
26d ago
X · @Yuchenj_UW· x-apiMULTI04:01 · 04·01
我欣赏 Anthropic Claude Code 团队对代码泄露的冷处理
帖子称 Anthropic 的 Claude Code 代码泄露后已出现 7 万个 forks,且 Python 与 Rust 版本都在 GitHub 上流传。正文只给出作者判断:harness engineering 很难,分发先行、再自训模型的路径像 Cursor;泄露细节与官方处置未披露。
#Code#Tools#Anthropic#Claude Code
精选理由
这条帖子的反差感强,也碰到代码代理护城河的行业争论,HKR-H 与 HKR-R 成立。HKR-K 不足:正文主要是作者判断,7 万 forks 未给出可核实来源,泄露范围、时间线和 Anthropic 处置都缺失,所以给 all,不给 featured。
编辑点评
该帖称泄露仓库已到 7 万 forks,这基本宣告 Claude Code 的工程细节已变成行业教材;我对“官方很 chill”这层解读不太买账,很多时候只是追不回来了。
深度解读
该帖称 Claude Code 泄露代码已扩散到 7 万个 forks,Anthropic 基本失去了回收工程细节的可能。先把话说死一点:如果这个数字属实,这条新闻的重点就不是“泄露”本身,而是代码代理产品的护城河被迫公开了一层。标题和摘要给了 7 万 forks、Python 与 Rust 版本流传这两个点,正文没披露泄露源头、时间线、提交范围、是否包含密钥或内部评测资产,所以很多判断现在只能停在工程层,不能上升到安全事件定级。 我对原帖“团队很 chill”这个说法有点怀疑。大规模代码一旦上 GitHub,尤其已经分叉到 7 万级,企业常见反应不是淡定,而是没法收口。删主仓没有意义,fork、镜像、打包二传会继续扩散。这个场景更像 Stable Diffusion 权重那类“发布后不可逆”,不是传统 SaaS 源码泄露后靠法务慢慢清场。Anthropic 如果真没激烈动作,原因未必是姿态从容,也可能是成本收益比已经不对了:追 fork 的法务成本,未必高于让竞争对手直接学到 harness 设计的损失。正文没有给官方回应,我不会替它补叙事。 原帖有一句倒是靠谱:harness engineering 很难。我基本同意,而且这恰好是过去一年很多外行低估的部分。大家老盯着基础模型分数,觉得代码产品就是“接个 Sonnet 或 GPT 再做个 IDE 插件”。实际把 agent 跑稳,难点常常在 harness:上下文裁剪、仓库索引、工具调用重试、测试沙箱、补丁回滚、失败恢复、权限边界、长任务检查点、评测回放。这些东西单点都不神秘,组合起来才是门槛。Cursor、Devin、Windsurf 这一波产品,用户体感差异有一大半就出在这里,不只出在底模上。Claude Code 如果连实现细节都被社区逐行研究,行业会更快收敛出一套“代码 agent 标准做法”。 我还想补一个文章里没有的上下文。2024 到 2025 年,代码助手赛道已经反复证明:分发和工作流黏性,短期内比自研模型更值钱。Cursor 早期并不是靠自有底模打出来的,更多是靠编辑器体验、补全速度、代码库理解和团队分发。我记得他们后面才逐步加大自训和后训练比重,具体比例我没核实。原帖把 Claude Code 泄露解读成“更多 wrapper 会先拿产品和 harness,再补模型”,这条判断我认一半。前半句对,后半句没那么轻松。原因很简单:2026 年的后训练成本,已经不是做个 SFT 就能补齐。你可以学到 Anthropic 的任务编排,但学不到它内部真实用户反馈、失败轨迹、私有 eval、工具使用日志。这些数据闭环才是代码 agent 继续拉开差距的地方。 所以,这次泄露会压缩谁的优势?我看主要压缩两类公司的优势。第一类是把“我们有很深的 agent orchestration know-how”当黑盒故事讲融资的团队。现在别人可以直接拆 Anthropic 的一部分实现,你再讲“秘诀在工程细节”,投资人会追问得更细。第二类是只会包一层模型 API、没做重型执行框架的小团队。社区把泄露代码吃透后,开源复刻和脚手架会冒得很快,这类公司会更难解释毛利和留存。 但我也不会把这条夸成 Anthropic 护城河崩了。仓库代码泄露,不等于能力复制。OpenAI 这些年也反复证明,接口外观、产品交互、甚至部分提示词被看见,都不代表你能复现真实线上质量。代码 agent 尤其如此:线上稳定性取决于模型版本、内部工具、评测门槛、遥测数据、人工调参节奏。摘要里只说 Python 和 Rust 版本在流传,没说是不是完整可运行仓库,也没说能不能接入 Anthropic 内部依赖。没有这些信息,我不会顺手下“Cursor 模式被坐实”这种结论。 我的直觉判断是,这事对行业最大的影响不是安全,而是教育。它会让更多团队看清,代码代理产品不是一个 prompt 套壳生意,而是一套很重的系统工程。它也会顺手抬高用户预期:既然 Anthropic 的做法都被摊开了,市场会更快要求其他产品拿出同等级的自动修复、测试闭环和长链路任务稳定性。谁接下来还在卖“接了强模型所以会写代码”,日子会更难过。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K0·R1
03:39
26d ago
arXiv · cs.CL· atomEN03:39 · 04·01
多义性还是一词多义?词汇同一性会混淆超位置指标
该论文用 2×2 因子分解检验超位置指标,发现同词异义的 lexical-only 条件在 110M 到 70B 参数模型中持续强于异词同义的 semantic-only 条件。正文给出两个边界:该混淆集中在 ≤1% 激活维度,且 18% 到 36% 的 sparse autoencoder 特征混合了不同词义;过滤后可提升词义消歧,并让知识编辑更具选择性,p=0.002。
#Interpretability#Benchmarking#Alignment#arXiv
精选理由
论文有明确新信息:2×2 因子分解显示 lexical identity 会污染 superposition 指标,且 18%–36% 的 SAE 特征混合不同词义。门槛也很高,正文落点是 sparse autoencoder 与词义编辑细节,缺少一般 AI 从业者可直接接住的产品或 agent 场景,触发 technical-accessibility fail,故 excluded。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
03:39
26d ago
arXiv · cs.CL· atomEN03:39 · 04·01
用于优化建模的执行验证强化学习
论文提出 EVOM,用执行验证强化学习生成求解器代码,并在 4 个基准、3 个求解器上达到或超过过程监督 SFT。其机制是把 Gurobi、OR-Tools、COPT 作为确定性交互验证器,在沙箱中执行代码,再用执行结果作为标量奖励,配合 GRPO 和 DAPO 闭环更新。真正值得盯的是跨求解器迁移:切换验证环境即可做零样本迁移,继续在目标后端训练可做低成本适配。
#Reasoning#Code#Tools#Gurobi
精选理由
论文给出 EVOM,用求解器执行代码做奖励,并在 4 个基准、3 个求解器上评测。题材高度依赖优化建模与求解器背景,普通 AI 从业者缺少进入点,触发 technical-accessibility fail,故排除并把分数压到 39 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
02:03
26d ago
arXiv · cs.CL· atomEN02:03 · 04·01
用 LLM 评测量子场论与弦论中的隐性推理
论文构建含 12 道题的数据集,并用五级量表评测多个当代 LLM 在量子场论与弦论中的隐性推理。结果显示,模型在稳定概念框架下接近满分,但在补全省略推理或满足全局一致性约束时系统性退化;真正值得盯的是表征选择不稳,而不只是中间步骤缺失。
#Reasoning#Benchmarking#Research release#Benchmark
精选理由
这篇论文有一个可复述的评测设计,HKR-K成立;12题与五级量表也让结论至少可检视。问题在于题材锁定量子场论与弦论,缺少代理、产品或工程外溢,同时触发“传统科学+AI交叉”与“技术可达性差”,按规则排除,分数封顶在39以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
02:00
26d ago
OpenAI 博客· rssEN02:00 · 04·01
Gradient Labs 为每位银行客户提供 AI 客户经理
Gradient Labs 宣布为银行客户提供 AI 客户经理。标题称覆盖范围是“每位银行客户”,但正文未提供产品机制、部署条件或数字细节。由于原文仅有标题,这一信息更适合作为产品动向线索,而非完整发布说明。
#Agent#Gradient Labs#Product update
精选理由
标题有话题性,也碰到银行客服代理化这根神经,但正文是 OpenAI 的创业公司案例页,核心信息仍是“Gradient Labs 用 OpenAI 模型做业务”。文中只披露 GPT‑4.1、GPT‑5.4 mini/nano 与 10x 增长,缺少客户数、准确率、错误成本和合规设计,命中纯营销案例硬排除。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
01:54
26d ago
X · @op7418(歸藏)· x-apiZH01:54 · 04·01
OpenAI 新一轮融资额度高达 1250 亿美元
标题与正文片段都称,OpenAI 新一轮融资额度高达 1250 亿美元。片段还强调这指融资额,不是估值;资金结构、领投方、轮次阶段与来源链接细节,正文均未披露。真正值得盯的是信源与条款,不是情绪化感叹。
#OpenAI#Sam Altman#Funding#Commentary
精选理由
触发硬排除:zero-sourcing content。帖子只有情绪化标题和融资额说法,正文未给出信源、领投方、轮次或条款,HKR 只有 H 与 R,K 明显不足;按规则 capped below 40,归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
01:23
26d ago
X · @dotey(宝玉)· x-apiZH01:23 · 04·01
不可能开源的,不是代码多值钱,而是不开源好处很多
dotey 发文列出 4 个闭源好处,并直接判断“产品不可能开源”。帖文给出的理由包括掩盖代码质量、加入反蒸馏或用户标识逻辑、预埋功能分批发布、减少代码审查以加快迭代;这些都是作者观点,未附可核验案例。真正值得盯的是机制层主张,不是“代码值钱”叙事。
#dotey#React#Commentary
精选理由
命中 hard-exclusion-零来源观点:正文只有 4 条闭源理由,没有案例、数据或具名经历,分数封顶 39。HKR 里 H 和 R 有,但 K 缺失,信息增量不足以进入 all。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
00:27
26d ago
X · @AnthropicAI· x-apiEN00:27 · 04·01
Anthropic 与澳大利亚政府签署 AI 安全研究合作备忘录
Anthropic 宣布与澳大利亚政府签署一份 MOU,合作开展 AI 安全研究,并支持澳大利亚 National AI Plan。RSS 摘要只确认了合作方向与对象,正文未披露期限、资金、研究范围或交付机制。真正值得盯的是后续是否落到评测、政策工具链和政府采购标准。
#Safety#Alignment#Anthropic#Australian Government
精选理由
Anthropic 与澳大利亚政府的合作有政策共鸣,但当前只是 MOU 公告。HKR 仅 R 命中;标题未披露期限、资金、研究范围或交付机制,信息密度偏低,所以给 all 而非 featured。
编辑点评
Anthropic 和澳大利亚政府只公布了一份 MOU,没给期限、资金和交付;这更像政策卡位,不是已落地的安全基础设施。
深度解读
Anthropic 只宣布与澳大利亚政府签署 1 份 MOU,正文未披露期限、资金、研究范围和交付机制。我对这条的判断很直接:先别把它读成“国家级 AI 安全能力落地”,现在更像一家前沿模型公司在关键司法辖区提前占位。 MOU 这个词本身就说明很多。它通常解决的是合作意向,不是采购承诺,也不是监管框架生效。没有预算、没有 timeline、没有评测口径,外界就没法判断这件事会落到哪一层:是几场闭门研讨会,还是把模型评测、事件上报、红队流程写进政府采购标准。差别很大。前者是 PR,后者才会改市场行为。 我一直觉得,Anthropic 这类公司过去一年在政府关系上的主线很清楚:把“安全”从研究标签,推成进入公共部门和受监管行业的通行证。英国 AI Safety Institute、美国政府自愿承诺、各国模型评测讨论,走的都是这条线。OpenAI、Google DeepMind 也都在跑,只是 Anthropic 更愿意把自己放在“安全合作方”这个位置上。好处很现实:一旦政府把第三方评测、模型文档、部署前审查写进采购流程,先参与起草的人天然占便宜。 我有个保留。标题说“支持 Australia’s National AI Plan”,但正文没说 Anthropic 到底提供研究、人、工具,还是政策建议。这个口径很容易把商业利益包装成公共利益。假如后续出现的是 Anthropic 评测框架被优先采纳,或者 Claude 相关标准进入政府采购清单,那这条合作就不只是安全研究,也是在塑造市场入口。我不是说这一定不好,但它绝不是中性的。 还有一层外部背景。澳大利亚这两年对平台、云和关键技术供应链的主权意识明显在抬,AI 政策也越来越像“风险治理 + 产业扶持”双线并行。Anthropic 现在插进去,价值不在澳大利亚本身市场有多大,而在它能不能把这里做成一个可复制样板:评测模板、事故报告格式、模型使用分级、政府部门采购条款。如果能复制到英国、加拿大、新加坡,这种 MOU 才有分量。 眼下信息很薄,所以判断要克制。标题已经给出合作方向,正文没给任何可执行细节。我现在不会高估它。后续若披露三样东西,这条才算升级:一是明确评测对象,比如 frontier model pre-deployment evaluations;二是谁来出钱、谁来验收;三是成果会不会进入政府 procurement 或 assurance 流程。没有这三样,它就是一份站位声明。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H0·K0·R1
00:08
26d ago
少数派 · 直链· rssZH00:08 · 04·01
派早报:Claude Code 源码意外泄露、OpenAI 获 1220 亿美元融资等
标题称 Claude Code 源码发生意外泄露,OpenAI 获得 1220 亿美元融资。正文仅有 RSS 摘要,还提到索尼将继续上调 PlayStation Plus 订阅价格、微软确认为 Windows 11 开发纯原生系统应用;泄露范围、融资轮次与投资方均未披露。别被标题骗了,这是一篇早报汇总,不是单一事件深挖。
#Code#Tools#Anthropic#OpenAI
精选理由
这是一篇早报汇总,不是对 Claude Code 泄露或 OpenAI 1220 亿美元融资的独立报道。HKR 只有标题钩子,正文未披露泄露范围、融资轮次与投资方,符合 hard-exclusion-stale rerun,分数按规则压到 40 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R0
00:00
26d ago
Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·01
Claude Code 的防线:它如何防止你假装成它
标题称 Claude Code 设有防线,防止用户假装成它;当前条件是仅有标题,正文为空。RSS 条目未披露具体机制、触发条件、误判率或适用范围。真正该盯的是身份伪装防护是否落在系统提示、工具权限,还是输出校验层。
#Safety#Tools#Claude Code#Commentary
精选理由
触发 hard-exclusion-零来源内容:正文为空,只有标题,没有数据、案例或可复现细节。HKR 仅 H 成立,K 与 R 都缺支撑;题目方向对 Claude Code 用户有点吸引力,但信息密度不足,重要性封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0

更多

频道

后台