ax@ax-radar:~/papers $ grep -E 'arxiv|paper' sources/tags
44 srcsignal 72%cycle 04:32

论文 · 2026-04-11

29 · updated 3m ago
2026-04-11 · 星期六2026年4月11日
18:47
15d ago
arXiv · cs.CL· atomEN18:47 · 04·11
医疗领域大语言模型比较分析
这篇研究评测 5 类模型在医疗场景的 2 类任务表现,覆盖 ChatGPT、LLaMA、Grok、Gemini 和 ChatDoctor。评测使用 MedMCQA、PubMedQA、Asclepius 3 个开放数据集;摘要称 ChatDoctor 在医疗语境可靠性更强,Grok 与 LLaMA 在结构化问答的量化准确率更高。真正该盯的是任务分化:标题已给出比较研究,正文未披露具体分数、模型版本和统计显著性。
#Benchmarking#Reasoning#OpenAI#Meta
精选理由
这篇稿子只给出医疗横评框架:5 类模型、2 类任务、3 个开放数据集。核心结果缺少具体分数、模型版本和统计显著性,HKR 三轴都不成立;对通用 AI 从业者的产品或竞争判断帮助很弱,按 excluded 处理。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
15:58
16d ago
● P1arXiv · cs.CL· atomEN15:58 · 04·11
惊人的 Agent 竞赛:工具使用强,导航能力弱
明尼苏达大学团队发布 AAR 基准,含 1400 个 DAG 工具链任务,测出最佳 agent 仅 37.2% 准确率。该基准分 sequential 800 题与 compositional 600 题,导航错误占 27% 至 52%,工具使用错误低于 17%。真正该盯的是导航短板;线性 benchmark 会把这类失败藏起来。
#Agent#Tools#Benchmarking#University of Minnesota
精选理由
这篇 arXiv 基准有完整的新机制和新数字,HKR 三项都成立。分数给到 featured 而非 p1,因为它更像高质量研究发布,不是头部实验室模型发布或行业级产品事件。
编辑点评
明尼苏达大学把 agent 跑进 1400 个 DAG 任务后,最好成绩只有 37.2%;这条很扎实地戳穿了“会调工具就会做事”的错觉。
深度解读
明尼苏达大学这组结果直接把一个常见幻觉拆开了:agent 现在不是“不会用工具”,而是“找不到该去哪里”。AAR 放了 1400 个任务,最好准确率 37.2%;导航错误占 27% 到 52%,工具使用错误低于 17%。这个差距已经够大,大到你没法再把失败都甩给 function calling 或 API schema。 我觉得这条有价值,不在于它又造了一个 benchmark,而在于它故意把任务结构从线性链条改成 DAG。过去很多 tool-use 评测,本质还是 2 到 5 步的直线通关:先搜,再调工具,再写答案。模型只要局部动作对,整体就容易看起来“像 agent”。AAR 这里加了 fork-merge 结构,agent 得先判断走哪条支路,再把多路信息合回来。这个更接近真实工作流,像查文档、跳页面、比对实体、回收中间结果。很多系统在 demo 里很顺,一进这种图结构任务就掉到底,说明 orchestration 层还很原始。 文章外的参照也能对上。去年不少代理评测,像 GAIA、WebArena、部分 coding agent 任务,大家已经看到一个现象:模型单步能力在涨,长链成功率没按同样斜率涨。我没逐篇去核数字,但这个方向很一致。AAR 把问题再切细一刀,告诉你瓶颈不只在长上下文,也在“状态定位”和“下一跳选择”。这跟很多团队线上观察是同一件事:日志里工具调用格式都对,轨迹还是绕路、漏页、回不到主线。 我对这条也有一个保留。AAR 用 Wikipedia 导航,这很适合做可验证 benchmark,但它天然偏向超链接检索和页面遍历。企业 agent 的真实环境常常不是公开网页,而是 Jira、Slack、Notion、SQL、私有 API 的混合图。那里的导航错误,很多时候来自权限、命名歧义、上下文切换,不只是“没找到页面”。所以 AAR 很像把病灶照亮了一块,但还不是全身 CT。标题给了很强判断,正文没披露更细的 failure bucket,比如不同难度、不同 agent loop 策略、replanning 频率分别掉在哪一步,这部分我还想看原论文。 还有一个信号我挺在意:Claude Code 和 Codex CLI 都在 37% 左右,但前者 token 少 6 倍。这个结果对做产品的人比“谁第一名”更有用。它说明 agent 架构没有被模型尺度碾平,至少在这类任务上,搜索策略、记忆压缩、何时回退、何时重规划,权重不比底模小。你要是还把 agent 研发理解成“换更大的模型,再多接几个工具”,这条 benchmark 基本已经在打脸了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
14:38
16d ago
● P1arXiv · cs.CL· atomEN14:38 · 04·11
CodeComp结构化KV缓存压缩方法用于智能代码生成
CodeComp把静态程序分析引入KV缓存压缩,用于长代码库上的缺陷定位与补丁生成。它用Joern提取的Code Property Graph先验保留调用点、分支条件、赋值等结构关键信号;正文未披露具体基准名、压缩率和绝对分数。真正值得盯的是,它无需训练、无需改模型,并声称可直接接入SGLang代理式编码流水线。
#Code#Inference-opt#Agent#Joern
精选理由
这篇 arXiv 预印本把静态程序分析接到 KV 压缩上,面向长代码库缺陷定位与补丁生成,HKR 三项都过线。分数压在 76,因为正文未披露基准名、压缩率和绝对成绩,现阶段是有料的研究线索,不是当天必写事件。
编辑点评
CodeComp把程序静态分析接进KV压缩,这个方向我买账;只看注意力分数做裁剪,用在代码代理上本来就偏。
深度解读
CodeComp论文提出了一种免训练KV压缩方法,并把Joern提取的代码属性图接进推理流程。两家来源都用了同一标题,Takara正文也基本就是论文摘要的扩写版,这说明目前公开信息高度收敛在作者自述上,不是媒体各自挖到了新细节。能确认的事实有三个:它面向agentic coding;它强调静态程序分析先验;它声称在相同内存预算下优于attention-only基线。更细的数字,正文没披露。压缩率、上下文长度、用的是哪些模型、具体领先多少,目前都还没有。 我对这个方向的判断是正面的,因为它戳中了过去一年KV压缩里一个很实在的错位:通用压缩方法默认“被注意到的token更重要”,可代码任务里,重要性经常不是自然语言那套显著性。一个调用点、一个分支条件、一次赋值,注意力权重不一定高,但对故障定位和补丁生成经常是硬约束。你把这些token按分数先丢了,模型后面再会“推理”也没材料可用。代码代理这类工作负载,本来就比聊天更依赖结构信号;把Code Property Graph拿来当保留先验,我觉得比继续卷花哨eviction heuristic更像正路。 两家来源的一致性也要读清楚。arXiv给的是论文原始声明,Takara补了一句“可无缝接入SGLang agentic coding pipeline,且不改模型”。这类表述我基本按作者claim处理,因为没有独立复现,没有线上吞吐数字,也没有工程代价拆解。静态分析不是白来的。Joern跑图要时间,要支持语言前端,要处理大型仓库的解析失败和不完整语义。论文把“训练免费”说得很清楚,但“部署免费”显然不是一回事。你省下的是KV显存,新增的是前处理链路和系统复杂度。要是仓库是多语言、脚本混杂、生成代码很多,图先验还能不能稳定给出收益,摘要没有回答。 我还想 push back 一点:摘要里把对手概括成“只依赖attention信号的方法”,这个靶子立得有点舒服。过去一年不少KV压缩工作已经在往任务感知、head感知、甚至跨上下文复用走,不再是最早那批纯attention打分。比如2025年有论文专门讲KV压缩的坑,指出多指令场景会系统性丢失某些关键指令;也有工作做reasoning head级别分配,或者做多agent场景的KV复用。CodeComp的新意不在“终于发现attention不够”,而在“把代码结构先验正式塞进KV保留策略”。这个点成立,我觉得有价值;但它是不是足够通用,得看实验覆盖。 还有一个我自己很在意的地方:摘要说它在bug localization和code generation上“恢复了大部分full-context accuracy”,还说patch generation质量能匹配未压缩全上下文推理。这个说法很猛,可“大部分”到底是95%还是70%,“匹配”是pass@1、patch apply rate、还是某个LLM-as-a-judge分数,正文摘要没给。代码代理论文最容易把benchmark讲漂亮,因为评测口径一换,结论就会漂。要是它只在单仓库、单语言、单模型上成立,那是一个不错的特化技巧;要是跨RepoBench、SWE-bench类任务都稳,那才说明结构先验真的抓住了通用瓶颈。现在我还没看到这个层面的证据。 所以这件事我会这样看:不是一篇“又一个KV压缩paper”,而是代码场景开始逼着推理系统承认,token不是独立平等的,程序结构要进缓存决策。这个思路我认同。它也顺手提醒了一件事,做coding agent的人别再把长上下文问题只当成更大的context window问题,很多时候先要解决的是“留下哪些状态”。论文标题已经把方向讲明白了;价格、吞吐、压缩比、模型覆盖,正文还没给,先别急着把它吹成通用解。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:43
16d ago
arXiv · cs.CL· atomEN13:43 · 04·11
Relational Probing:把语言模型适配为图结构做金融预测
论文提出 Relational Probing,用关系头替换语言模型输出头,直接从隐藏状态诱导关系图,并与股票趋势预测模型联合训练。实验使用 Qwen3 0.6B、1.7B、4B,作者把可在单张 24GB GPU 上按给定 batch 和序列长度端到端微调的模型定义为 SLM;摘要称其较共现基线稳定提升,具体指标正文未披露。
#Reasoning#Fine-tuning#Benchmarking#Qwen3
精选理由
论文落在金融预测窄场景,正文也没给出关键结果数值。它对通用 AI 读者的进入门槛偏高,按 hard-exclusion-technical-accessibility fail 处理,重要性封顶在 39 以下,归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
13:16
16d ago
HuggingFace 论文 · takara 镜像· rssEN13:16 · 04·11
Wolkowicz-Styan 上界用于平滑非线性神经网络交叉熵损失的 Hessian 特征谱
该论文为平滑非线性多层神经网络的交叉熵损失,推导出 Hessian 最大特征值的闭式上界。上界由仿射变换参数、隐藏层维度和训练样本正交性决定;RSS 摘要未披露定理条件、实验规模或误差界。真正值得盯的是,它试图绕过数值特征分解,直接分析 sharpness 与泛化。
#Interpretability#Research release
精选理由
这篇论文有一个明确新结论:为平滑非线性网络的交叉熵损失给出 Hessian 最大特征值闭式上界,所以 HKR-K 成立。技术门槛过高,摘要也没披露定理条件、误差界和实验规模,触发 hard-exclusion 的 technical-accessibility fail,分数压到 39 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
11:11
16d ago
arXiv · cs.CL· atomEN11:11 · 04·11
ODUTQA-MDC:开放域欠明确表格问答与多轮澄清任务
论文提出 ODUTQA-MDC 任务与首个配套基准,覆盖 209 张表和 25,105 组问答,处理开放域欠明确表格问答中的多轮澄清。基准还含细粒度标注方案与动态澄清接口,用于模拟用户反馈;作者同时提出多智能体框架 MAIC-TQA,正文摘要未披露具体模型规模与基线分数。真正值得盯的是,它把“先澄清再作答”做成可评测任务,不再只比单轮命中率。
#Agent#Benchmarking#Reasoning#arXiv
精选理由
这篇 arXiv 论文把“先澄清再作答”做成开放域表格问答基准,数据规模 209 张表、25,105 组问答,HKR 主要命中 K。标题和场景都偏学术,正文摘要未披露基线分数、模型规模与真实部署信号,外溢到产品和行业竞争的话题性有限。
编辑点评
论文把 209 张表做成多轮澄清基准,这步方向是对的;“开放域”四个字我先打个问号,数据规模和真人交互都还不够硬。
深度解读
这篇我先给正面评价:它总算把表格问答里最常见、也最常被 benchmark 故意绕开的那件事拿到台面上了——用户的问题经常就没说清。ODUTQA-MDC 用 209 张表、25,105 组问答,把“先澄清再回答”单独做成任务,这个设定比继续刷单轮 exact match 更像真实产品。做过企业数据助手的人都知道,错很多时候不在检索,也不在推理,而在用户一句“去年销量最高的是哪个”里根本没说地区、口径、时间粒度。 但我对这条的包装有保留。标题写 open-domain,摘要给出的支撑只有 209 张表。这个量做任务定义和误差分析够用,拿来承载“开放域”就偏小了。表格 QA 这条线上,WikiTableQuestions、TabFact、HybridQA、FeTaQA 这些老基准,很多问题都已经不是算子本身,而是表结构、外部知识、表述歧义怎么混在一起。ODUTQA-MDC 的新意在“欠明确+多轮澄清”,这点我认可;但它离开放环境里的分布差异、表格脏数据、列名别称、企业私有 schema 漂移,还差一大截。 我第二个疑虑是交互接口。摘要说有 dynamic clarification interface 来模拟用户反馈,这比静态标注前进了一步,但“模拟”两个字很关键。很多澄清型 benchmark 一到 simulated user 就会变干净:用户永远合作、永远知道自己想表达什么、永远按标注者预设路径回答。真实场景不是这样。用户会改口,会补充新约束,会把上一轮条件推翻。要是论文正文没有披露模拟器策略、容错规则、以及多轮终止条件,那 MAIC-TQA 的成绩就很难判断含金量。标题已经给出多智能体框架,正文摘要没披露模型规模、基线分数、澄清轮次成本,也没说和单代理 prompt、工具调用式 pipeline 比到底赢多少。 我自己更关心的,是这个任务会不会把评测重心从“答对”拉到“该不该先问一句”。这在过去一年已经是 agent 评测里的空白区。很多模型在 WebArena、Spreadsheet 类任务里失败,不是不会操作,而是太急着给答案。Anthropic 和 OpenAI 近几代系统提示都在强化 ask-when-uncertain,但公开 benchmark 还是更爱奖赏直接输出。ODUTQA-MDC 如果把 ambiguity detection、clarification utility、final answer trade-off 拆开评,这会比又一个表格 EM 分数更有用。 说真的,我现在不会把它看成“新一代表格 QA 基准”,我更愿意把它当成一个方向校正器:提醒大家,交互式消歧本身就是能力,不是回答前的废话。前提是论文正文后面得把三件事讲清楚:模拟用户怎么构造,澄清带来多少净收益,209 张表之外能不能迁移。要是这些都没展开,这条就还是一个好题目,不是一个已经站稳的 benchmark。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
10:33
16d ago
HuggingFace 论文 · takara 镜像· rssEN10:33 · 04·11
MOSAIC:面向预见式推荐的多域正交会话自适应意图捕获
MOSAIC 提出三路编码器,把多域会话偏好拆成领域特有、领域共通、跨序列独有 3 类表示,用于提升推荐准确率。方法用领域掩码、梯度反转层对抗训练、表示对齐和独立性约束,再用动态门控按时间步融合;正文提到在 2 个真实世界基准上优于现有方法,但未披露具体数据。
#Research release#Benchmark
精选理由
HKR-K 命中,因为摘要至少交代了三路编码器、领域掩码、梯度反转层和动态门控这些具体机制。问题在于它是高专门化的推荐系统论文,正文也没给出基准提升数字,触发 technical-accessibility fail,分数压到 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
10:00
16d ago
● P1arXiv · cs.CL· atomEN10:00 · 04·11
Think in Sentences:显式句子边界增强语言模型能力
该论文提出在输入句子边界插入分隔符,并在7B到600B的模型上测试,GSM8K最高提升7.7%,DROP最高提升12.5%。方法覆盖in-context learning和supervised fine-tuning两种设置;摘要称微调后模型内部表征出现“句子感知”,但正文片段未披露具体评测配置。真正值得盯的是机制很轻:不是加新模块,而是把句子结构显式写进上下文。
#Reasoning#Fine-tuning#Interpretability#DeepSeek
精选理由
这篇论文命中 HKR 三轴:标题的吸引点是“只加句子分隔符也能涨点”,正文给出 7B-600B、GSM8K +7.7%、DROP +12.5% 等可检验数字。分数高于普通论文,因为机制很轻、能直接迁移到提示和微调;分不到 P1,因为正文未披露更完整的评测配置与复现细节。
编辑点评
这篇论文用句子分隔符把 GSM8K 拉高 7.7%、DROP 拉高 12.5%,我觉得这不是“小技巧”,这是在提醒大家很多模型到现在还没把句子当稳定计算单元。
深度解读
论文报告句子边界分隔符提升了 GSM8K 7.7% 和 DROP 12.5%,条件是把输入显式切成句子并插入分隔标记。我的判断很直接:如果这种轻量改写能从 7B 一路吃到 600B DeepSeek-V3,那暴露的不是 prompting 还有多少花样,而是很多模型直到现在都没有把“句子”学成稳定的推理步长。 我对这条的兴趣,主要不在涨了几点,而在它打到一个老问题。过去一年大家一直在折腾 test-time scaling、reasoning traces、dummy tokens、step markers,默认前提是模型会自己学会切分信息单位。这个前提我一直不太买账。预训练语料当然有句号、有换行,但 tokenization 和 next-token loss 并不保证模型把句子边界当成硬边界。Transformer 看到的是 token 序列,不是语法树。你给它一个显式分隔符,相当于把“这是一段该局部收束的地方”写进上下文,注意力分配、压缩记忆、跨句检索都会变。说真的,这比很多“加一个新头、挂一个新模块”的论文更扎实,因为它先问了一个朴素问题:模型到底按什么粒度在处理文本。 我能想到的外部参照也支持这条方向。2024 到 2025 年那波 structured prompting,很多工作用 XML tags、Step 1/Step 2、bulletized decomposition,都在不同任务上给过稳定增益。OpenAI、Anthropic 的官方 prompt guide 也长期鼓励用清晰分隔块,把 instruction、context、examples 分开。区别在于,那些方法大多是工程经验,这篇想把“句子边界”单独拎出来,作为比任意 dummy token 更有语义先验的结构信号。如果结果能复现,它会把一堆零散经验收束成一个更像理论命题的东西:自然语言模型对结构化边界高度敏感,而且这种敏感性在大模型上没有自动消失。 但我对论文现在给出的证据有保留。正文片段只给了最高增幅,没给 baseline、方差、prompt 模板、delimiter 形式、token 开销、任务分布,也没说提升主要集中在哪些模型尺寸。7B 提升明显和 600B 提升明显,结论分量完全不同。GSM8K 提升 7.7%,如果 baseline 是 80 到 86.1,和 20 到 27.7,含义差很多。DROP 提升 12.5% 也一样,得看 exact match 还是 F1,看 few-shot 还是 fine-tune。还有一个我很在意的问题:这是不是“结构先验收益”,还是“额外 token 带来的计算预算收益”?很多链式推理技巧最后都卡在这里。你多插了分隔符,模型 attention pattern 变好是一种解释;你只是让模型多看了几个显眼锚点,是另一种解释。没有严格 ablation,我不会把它直接升格成认知机制。 摘要里说 fine-tuned 模型内部表征出现“sentence awareness”,这部分我也先按保留意见看。表征分析很容易讲得漂亮,难的是排除伪相关。你只要在训练里稳定注入边界符,某些层把 delimiter 附近 token 聚成簇并不奇怪;这离“模型学会句子级处理”还差一截。要让我更信,至少得看到跨任务迁移、对抗性改写、删掉分隔符后的退化曲线,或者 attention head / residual stream 在边界处的可复现实验。我还没查到这些。 如果后续全文把配置补齐,我觉得这条会有两层价值。第一层很现实:数据整理、SFT、RAG chunk formatting、agent planner prompt 都能低成本试,几乎没有部署门槛。第二层更麻烦,也更有意思:很多人把 scaling 当成“模型自然会学会所有有用结构”,这篇如果站得住脚,结论恰好相反——有些语言结构即便在 600B 规模上,还是要你显式扶一把。这个判断对训练配方、tokenizer 设计、合成数据模板都不小。别急着把它吹成新范式,但也别把它当 prompt 小修小补;我看它更像是在提醒我们,当前 LLM 的语言能力里,句法显式化这件事一直被低估了。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
09:38
16d ago
arXiv · cs.CL· atomEN09:38 · 04·11
基于自监督语音表征中的音系子空间分析,无需训练的跨语言构音障碍严重度评估
该论文用冻结 HuBERT 表征中的 12 维音系特征,在 5 种语言、10 个语料、890 名说话者上评估构音障碍严重度,且不训练任何监督严重度模型。方法只用健康对照语音,经 Montreal Forced Aligner 提取音素级嵌入并计算 d-prime;5 个辅音特征与临床严重度显著相关,meta-analysis rho=-0.50 至 -0.56,p<2e-4。真正值得盯的是跨语种迁移条件很克制:前提是目标语言已有 MFA 声学模型,作者称当前覆盖 29 种语言,并公开了 6 种语言的流程与特征配置。
#Audio#Benchmarking#Tools#HuBERT
精选理由
HKR-K 成立:论文有明确样本规模、统计结果和可复现流程。它仍命中“传统科学 + AI 跨界且无 agent / product 含义”硬排除,主题是临床构音障碍评估,不在 AI RADAR 的核心覆盖面内,重要性封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
08:23
16d ago
arXiv · cs.CL· atomEN08:23 · 04·11
SEPTQ:面向大语言模型的简单有效后训练量化范式
论文提出后训练量化方法 SEPTQ,用两步流程压缩大语言模型,并称其在低比特设置下优于强基线。方法先为权重矩阵各元素计算重要性分数,再以全局静态方式确定量化位置,并按列更新被掩码选中的权重。标题已给出适用对象是大语言模型,正文未披露具体模型名、位宽数值、数据集名称和提升幅度;真正值得盯的是它把 PTQ 简化到两步。
#Inference-opt#Benchmarking#Research release
精选理由
SEPTQ 至少给出一条可复述的新机制,所以 HKR-K 成立;但 feed 没披露模型名、位宽、数据集和提升幅度,H 与 R 都弱。题材又落在低层量化优化,面向通用 AI 从业者的进入门槛高,触发 technical-accessibility fail,按规则降为 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
07:55
16d ago
● P1arXiv · cs.CL· atomEN07:55 · 04·11
为什么监督微调学不会:大语言模型不完全学习的系统研究
论文定义并系统研究 SFT 的“不完全学习”现象:模型即使收敛,仍会复现失败部分监督训练样本。摘要称该现象在 Qwen、LLaMA、OLMo2 及多领域数据中普遍存在,并归因为 5 类来源;真正该盯的是,整体指标上涨会掩盖持续学不会的子集。
#Fine-tuning#Benchmarking#Interpretability#Qwen
精选理由
HKR 三轴都成立:标题反直觉,摘要给出跨模型与 5 类来源,议题直接指向微调评估是否可信。提供的文本没披露失败比例、实验设置和复现门槛,所以定在 80 分 featured,不到 p1。
编辑点评
这篇论文把 SFT 的老毛病钉成了一个可测问题:模型收敛了,训练集里仍有一批样本死活学不会。
深度解读
论文把“不完全学习”定义成一个很扎实的问题:模型在 SFT 收敛后,仍无法复现部分监督样本,并把成因拆成 5 类。这个定义我买账,因为它戳中的不是 benchmark 漂不漂亮,而是训练目标有没有真的被吃进去。做过指令微调的人基本都见过这类现象:eval 涨了,loss 也降了,抽查训练集里的边角样本,模型还是答偏。以前大家多半把它归到噪声、seed、数据脏。作者这次想说,别再拿总分掩盖局部失学。 这件事跟过去一年很多“调一调就变强”的叙事有点拧着来。开源圈从 Llama 3、Qwen 2 到 Qwen 2.5,那套默认动作一直是多轮 SFT 加偏好优化,再看通用榜单和若干垂类集。工业流程里,大家也常用 pass@k、win rate、平均 Rouge 这类聚合指标做 stop condition。问题是,聚合指标天生会吞掉尾部失败样本,尤其是低频格式、长链依赖、知识前提缺失、还有数据内部自相矛盾的样本。论文把这批“怎么训都半吊子”的例子单独拎出来,其实是在提醒一个很不舒服的事实:你看到的收敛,经常只是大多数样本的收敛,不是监督信号的完整吸收。 我觉得文中 5 类来源里,最有工程价值的是两类。第一类是 pretrain 先验和 SFT 监督打架。这个在代码、数学、拒答、安全风格上特别常见。预训练里学到的高频模式太强,SFT 给的监督量又不够,结果模型表面顺从,细看仍会滑回旧分布。第二类是 sequential fine-tuning 的 left-side forgetting。这个说法和很多多阶段流水线经验很贴:先训格式,再训领域,再训安全,最后上线前补一轮小数据,模型早期学到的东西会被后段覆盖。我自己没看全文实验设计,摘要也没披露每类占比、判别信号、干预增益,所以这里先不能替作者把机制说死。 我还想补一个文章外的上下文。去年不少团队已经在讨论“SFT teaches style more reliably than knowledge”。我记得一些工具调用和结构化输出工作里,模型很容易学会 JSON 壳子,却学不会触发条件和参数边界。再往前看,LoRA/QLoRA 在小预算适配上很好用,但它也常把优化容量集中到高频模式,稀有样本更容易掉队。这篇论文如果证明确实跨 Qwen、LLaMA、OLMo2 都稳定存在 ILP,那它碰到的就不是某个 tokenizer、某个 learning rate、某个 adapter rank 的局部坑,而是 SFT 目标本身过于粗糙。 我对这条也有一个保留。论文标题叫“Why SFT Fails to Learn”,口气很大,正文摘要给出的其实是“有一部分样本学不会”。这两者不是一回事。很多训练样本本来就不该被逐字复现,尤其是多答案任务、带压缩表述的 instruction、还有本身标注不一致的数据。把“训练后不能复现样本”直接等同于“没学会”,有定义偷跑的风险。作者说他们做了 diagnostic-first mapping,这很好,但 RSS 摘要没给出判定标准:是 exact match、语义等价、还是 task-specific verifier?没有这个,ILP 的边界会很飘。 还有一层更现实。很多团队今天已经不把 SFT 当唯一主菜了,而是和 DPO、RFT、online RL、test-time scaffolding 混着用。OpenAI、Anthropic、Google 这两年公开材料里,越来越少把纯 SFT 当最终性能来源。原因很简单:SFT 对分布内模仿很强,对跨样本泛化、长程规划、奖励对齐没那么稳。所以这篇论文的价值,不是证明“大家一直用错了”,而是给 SFT 在整条后训练链路里重新定位置。它更像一个高带宽写入器,但不是可靠的完整记忆器。 要是全文后面真的给出了每一类 ILP 的可观测信号和对应干预,我会很想看两件事。第一,干预后改善的是那批未学会子集,还是只是换一批样本继续掉队。第二,修复 ILP 会不会伤到 OOD 泛化和拒答稳定性。很多时候你把训练集记得更死,泛化反而变差。摘要没披露这些数字,我还不能站到“这会改写 SFT 流程”那一步。 我对这篇的结论是偏正面的。它没有发明新训练范式,却把一个工程上老被忽略的损失项翻到了台面上。对做微调平台、数据清洗、课程学习和后训练评测的人,这比再多一个综合榜单分数有用得多。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
05:14
16d ago
arXiv · cs.CL· atomEN05:14 · 04·11
范畴论隐喻理解模型的计算实现
该研究实现了基于 Fuyama 等人 TINT 理论的隐喻理解计算模型,并在数据拟合、系统性、新颖性 3 项指标上优于既有算法。摘要称作者简化了算法,使其更接近原始理论;正文未披露实验样本量、基线数量和具体分数。真正值得盯的是,它把“隐喻理解”写成了可拟合、可模拟、可比较的程序,而不只停在理论表述。
#Reasoning#Benchmarking#Interpretability#Fuyama
精选理由
文章有一点 K:它把 TINT 隐喻理论程序化,并提出优于旧算法的可检验主张。分层仍是 excluded;题材偏认知理论,缺少 agent 或产品含义,且范畴论门槛过高,触发技术可达性失败。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
05:04
16d ago
arXiv · cs.CL· atomEN05:04 · 04·11
CoSToM:面向大语言模型内在心智理论对齐的因果导向引导
论文提出 CoSToM,用因果追踪加激活引导,干预 LLM 的 ToM 关键层,以提升社会推理与对话质量。正文只披露机制是先定位内部 ToM 特征分布,再做轻量定向 steering;模型名、基准名、提升幅度均未披露。真正该盯的是,它想把“会答题”改成“内部表征对齐”。
#Reasoning#Alignment#Interpretability#Research release
精选理由
这篇论文有机制新意,HKR-K 成立:它想把 ToM 从“会答题”转到“内部表征对齐”。但正文没披露模型、基准和提升幅度,主题又偏内部因果干预与表征分析,普通 AI 从业者进入点很少,触发 hard-exclusion 的 technical-accessibility fail,分数压到 40 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0

更多

频道

后台