ax@ax-radar:~/all $ grep -v 'tier=excluded' stream.log
44 srcsignal 72%cycle 04:32

全部 · 2026-04-11

42 items · updated 3m ago
RSS live
2026-04-11 · 星期六2026年4月11日
18:47
15d ago
arXiv · cs.CL· atomEN18:47 · 04·11
医疗领域大语言模型比较分析
这篇研究评测 5 类模型在医疗场景的 2 类任务表现,覆盖 ChatGPT、LLaMA、Grok、Gemini 和 ChatDoctor。评测使用 MedMCQA、PubMedQA、Asclepius 3 个开放数据集;摘要称 ChatDoctor 在医疗语境可靠性更强,Grok 与 LLaMA 在结构化问答的量化准确率更高。真正该盯的是任务分化:标题已给出比较研究,正文未披露具体分数、模型版本和统计显著性。
#Benchmarking#Reasoning#OpenAI#Meta
精选理由
这篇稿子只给出医疗横评框架:5 类模型、2 类任务、3 个开放数据集。核心结果缺少具体分数、模型版本和统计显著性,HKR 三轴都不成立;对通用 AI 从业者的产品或竞争判断帮助很弱,按 excluded 处理。
HKR 分解
hook knowledge resonance
打开信源
44
SCORE
H0·K0·R0
15:58
16d ago
● P1arXiv · cs.CL· atomEN15:58 · 04·11
惊人的 Agent 竞赛:工具使用强,导航能力弱
明尼苏达大学团队发布 AAR 基准,含 1400 个 DAG 工具链任务,测出最佳 agent 仅 37.2% 准确率。该基准分 sequential 800 题与 compositional 600 题,导航错误占 27% 至 52%,工具使用错误低于 17%。真正该盯的是导航短板;线性 benchmark 会把这类失败藏起来。
#Agent#Tools#Benchmarking#University of Minnesota
精选理由
这篇 arXiv 基准有完整的新机制和新数字,HKR 三项都成立。分数给到 featured 而非 p1,因为它更像高质量研究发布,不是头部实验室模型发布或行业级产品事件。
编辑点评
明尼苏达大学把 agent 跑进 1400 个 DAG 任务后,最好成绩只有 37.2%;这条很扎实地戳穿了“会调工具就会做事”的错觉。
深度解读
明尼苏达大学这组结果直接把一个常见幻觉拆开了:agent 现在不是“不会用工具”,而是“找不到该去哪里”。AAR 放了 1400 个任务,最好准确率 37.2%;导航错误占 27% 到 52%,工具使用错误低于 17%。这个差距已经够大,大到你没法再把失败都甩给 function calling 或 API schema。 我觉得这条有价值,不在于它又造了一个 benchmark,而在于它故意把任务结构从线性链条改成 DAG。过去很多 tool-use 评测,本质还是 2 到 5 步的直线通关:先搜,再调工具,再写答案。模型只要局部动作对,整体就容易看起来“像 agent”。AAR 这里加了 fork-merge 结构,agent 得先判断走哪条支路,再把多路信息合回来。这个更接近真实工作流,像查文档、跳页面、比对实体、回收中间结果。很多系统在 demo 里很顺,一进这种图结构任务就掉到底,说明 orchestration 层还很原始。 文章外的参照也能对上。去年不少代理评测,像 GAIA、WebArena、部分 coding agent 任务,大家已经看到一个现象:模型单步能力在涨,长链成功率没按同样斜率涨。我没逐篇去核数字,但这个方向很一致。AAR 把问题再切细一刀,告诉你瓶颈不只在长上下文,也在“状态定位”和“下一跳选择”。这跟很多团队线上观察是同一件事:日志里工具调用格式都对,轨迹还是绕路、漏页、回不到主线。 我对这条也有一个保留。AAR 用 Wikipedia 导航,这很适合做可验证 benchmark,但它天然偏向超链接检索和页面遍历。企业 agent 的真实环境常常不是公开网页,而是 Jira、Slack、Notion、SQL、私有 API 的混合图。那里的导航错误,很多时候来自权限、命名歧义、上下文切换,不只是“没找到页面”。所以 AAR 很像把病灶照亮了一块,但还不是全身 CT。标题给了很强判断,正文没披露更细的 failure bucket,比如不同难度、不同 agent loop 策略、replanning 频率分别掉在哪一步,这部分我还想看原论文。 还有一个信号我挺在意:Claude Code 和 Codex CLI 都在 37% 左右,但前者 token 少 6 倍。这个结果对做产品的人比“谁第一名”更有用。它说明 agent 架构没有被模型尺度碾平,至少在这类任务上,搜索策略、记忆压缩、何时回退、何时重规划,权重不比底模小。你要是还把 agent 研发理解成“换更大的模型,再多接几个工具”,这条 benchmark 基本已经在打脸了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
14:38
16d ago
● P1arXiv · cs.CL· atomEN14:38 · 04·11
CodeComp结构化KV缓存压缩方法用于智能代码生成
CodeComp把静态程序分析引入KV缓存压缩,用于长代码库上的缺陷定位与补丁生成。它用Joern提取的Code Property Graph先验保留调用点、分支条件、赋值等结构关键信号;正文未披露具体基准名、压缩率和绝对分数。真正值得盯的是,它无需训练、无需改模型,并声称可直接接入SGLang代理式编码流水线。
#Code#Inference-opt#Agent#Joern
精选理由
这篇 arXiv 预印本把静态程序分析接到 KV 压缩上,面向长代码库缺陷定位与补丁生成,HKR 三项都过线。分数压在 76,因为正文未披露基准名、压缩率和绝对成绩,现阶段是有料的研究线索,不是当天必写事件。
编辑点评
CodeComp把程序静态分析接进KV压缩,这个方向我买账;只看注意力分数做裁剪,用在代码代理上本来就偏。
深度解读
CodeComp论文提出了一种免训练KV压缩方法,并把Joern提取的代码属性图接进推理流程。两家来源都用了同一标题,Takara正文也基本就是论文摘要的扩写版,这说明目前公开信息高度收敛在作者自述上,不是媒体各自挖到了新细节。能确认的事实有三个:它面向agentic coding;它强调静态程序分析先验;它声称在相同内存预算下优于attention-only基线。更细的数字,正文没披露。压缩率、上下文长度、用的是哪些模型、具体领先多少,目前都还没有。 我对这个方向的判断是正面的,因为它戳中了过去一年KV压缩里一个很实在的错位:通用压缩方法默认“被注意到的token更重要”,可代码任务里,重要性经常不是自然语言那套显著性。一个调用点、一个分支条件、一次赋值,注意力权重不一定高,但对故障定位和补丁生成经常是硬约束。你把这些token按分数先丢了,模型后面再会“推理”也没材料可用。代码代理这类工作负载,本来就比聊天更依赖结构信号;把Code Property Graph拿来当保留先验,我觉得比继续卷花哨eviction heuristic更像正路。 两家来源的一致性也要读清楚。arXiv给的是论文原始声明,Takara补了一句“可无缝接入SGLang agentic coding pipeline,且不改模型”。这类表述我基本按作者claim处理,因为没有独立复现,没有线上吞吐数字,也没有工程代价拆解。静态分析不是白来的。Joern跑图要时间,要支持语言前端,要处理大型仓库的解析失败和不完整语义。论文把“训练免费”说得很清楚,但“部署免费”显然不是一回事。你省下的是KV显存,新增的是前处理链路和系统复杂度。要是仓库是多语言、脚本混杂、生成代码很多,图先验还能不能稳定给出收益,摘要没有回答。 我还想 push back 一点:摘要里把对手概括成“只依赖attention信号的方法”,这个靶子立得有点舒服。过去一年不少KV压缩工作已经在往任务感知、head感知、甚至跨上下文复用走,不再是最早那批纯attention打分。比如2025年有论文专门讲KV压缩的坑,指出多指令场景会系统性丢失某些关键指令;也有工作做reasoning head级别分配,或者做多agent场景的KV复用。CodeComp的新意不在“终于发现attention不够”,而在“把代码结构先验正式塞进KV保留策略”。这个点成立,我觉得有价值;但它是不是足够通用,得看实验覆盖。 还有一个我自己很在意的地方:摘要说它在bug localization和code generation上“恢复了大部分full-context accuracy”,还说patch generation质量能匹配未压缩全上下文推理。这个说法很猛,可“大部分”到底是95%还是70%,“匹配”是pass@1、patch apply rate、还是某个LLM-as-a-judge分数,正文摘要没给。代码代理论文最容易把benchmark讲漂亮,因为评测口径一换,结论就会漂。要是它只在单仓库、单语言、单模型上成立,那是一个不错的特化技巧;要是跨RepoBench、SWE-bench类任务都稳,那才说明结构先验真的抓住了通用瓶颈。现在我还没看到这个层面的证据。 所以这件事我会这样看:不是一篇“又一个KV压缩paper”,而是代码场景开始逼着推理系统承认,token不是独立平等的,程序结构要进缓存决策。这个思路我认同。它也顺手提醒了一件事,做coding agent的人别再把长上下文问题只当成更大的context window问题,很多时候先要解决的是“留下哪些状态”。论文标题已经把方向讲明白了;价格、吞吐、压缩比、模型覆盖,正文还没给,先别急着把它吹成通用解。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
13:43
16d ago
arXiv · cs.CL· atomEN13:43 · 04·11
Relational Probing:把语言模型适配为图结构做金融预测
论文提出 Relational Probing,用关系头替换语言模型输出头,直接从隐藏状态诱导关系图,并与股票趋势预测模型联合训练。实验使用 Qwen3 0.6B、1.7B、4B,作者把可在单张 24GB GPU 上按给定 batch 和序列长度端到端微调的模型定义为 SLM;摘要称其较共现基线稳定提升,具体指标正文未披露。
#Reasoning#Fine-tuning#Benchmarking#Qwen3
精选理由
论文落在金融预测窄场景,正文也没给出关键结果数值。它对通用 AI 读者的进入门槛偏高,按 hard-exclusion-technical-accessibility fail 处理,重要性封顶在 39 以下,归为 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
13:16
16d ago
HuggingFace 论文 · takara 镜像· rssEN13:16 · 04·11
Wolkowicz-Styan 上界用于平滑非线性神经网络交叉熵损失的 Hessian 特征谱
该论文为平滑非线性多层神经网络的交叉熵损失,推导出 Hessian 最大特征值的闭式上界。上界由仿射变换参数、隐藏层维度和训练样本正交性决定;RSS 摘要未披露定理条件、实验规模或误差界。真正值得盯的是,它试图绕过数值特征分解,直接分析 sharpness 与泛化。
#Interpretability#Research release
精选理由
这篇论文有一个明确新结论:为平滑非线性网络的交叉熵损失给出 Hessian 最大特征值闭式上界,所以 HKR-K 成立。技术门槛过高,摘要也没披露定理条件、误差界和实验规模,触发 hard-exclusion 的 technical-accessibility fail,分数压到 39 以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
11:11
16d ago
arXiv · cs.CL· atomEN11:11 · 04·11
ODUTQA-MDC:开放域欠明确表格问答与多轮澄清任务
论文提出 ODUTQA-MDC 任务与首个配套基准,覆盖 209 张表和 25,105 组问答,处理开放域欠明确表格问答中的多轮澄清。基准还含细粒度标注方案与动态澄清接口,用于模拟用户反馈;作者同时提出多智能体框架 MAIC-TQA,正文摘要未披露具体模型规模与基线分数。真正值得盯的是,它把“先澄清再作答”做成可评测任务,不再只比单轮命中率。
#Agent#Benchmarking#Reasoning#arXiv
精选理由
这篇 arXiv 论文把“先澄清再作答”做成开放域表格问答基准,数据规模 209 张表、25,105 组问答,HKR 主要命中 K。标题和场景都偏学术,正文摘要未披露基线分数、模型规模与真实部署信号,外溢到产品和行业竞争的话题性有限。
编辑点评
论文把 209 张表做成多轮澄清基准,这步方向是对的;“开放域”四个字我先打个问号,数据规模和真人交互都还不够硬。
深度解读
这篇我先给正面评价:它总算把表格问答里最常见、也最常被 benchmark 故意绕开的那件事拿到台面上了——用户的问题经常就没说清。ODUTQA-MDC 用 209 张表、25,105 组问答,把“先澄清再回答”单独做成任务,这个设定比继续刷单轮 exact match 更像真实产品。做过企业数据助手的人都知道,错很多时候不在检索,也不在推理,而在用户一句“去年销量最高的是哪个”里根本没说地区、口径、时间粒度。 但我对这条的包装有保留。标题写 open-domain,摘要给出的支撑只有 209 张表。这个量做任务定义和误差分析够用,拿来承载“开放域”就偏小了。表格 QA 这条线上,WikiTableQuestions、TabFact、HybridQA、FeTaQA 这些老基准,很多问题都已经不是算子本身,而是表结构、外部知识、表述歧义怎么混在一起。ODUTQA-MDC 的新意在“欠明确+多轮澄清”,这点我认可;但它离开放环境里的分布差异、表格脏数据、列名别称、企业私有 schema 漂移,还差一大截。 我第二个疑虑是交互接口。摘要说有 dynamic clarification interface 来模拟用户反馈,这比静态标注前进了一步,但“模拟”两个字很关键。很多澄清型 benchmark 一到 simulated user 就会变干净:用户永远合作、永远知道自己想表达什么、永远按标注者预设路径回答。真实场景不是这样。用户会改口,会补充新约束,会把上一轮条件推翻。要是论文正文没有披露模拟器策略、容错规则、以及多轮终止条件,那 MAIC-TQA 的成绩就很难判断含金量。标题已经给出多智能体框架,正文摘要没披露模型规模、基线分数、澄清轮次成本,也没说和单代理 prompt、工具调用式 pipeline 比到底赢多少。 我自己更关心的,是这个任务会不会把评测重心从“答对”拉到“该不该先问一句”。这在过去一年已经是 agent 评测里的空白区。很多模型在 WebArena、Spreadsheet 类任务里失败,不是不会操作,而是太急着给答案。Anthropic 和 OpenAI 近几代系统提示都在强化 ask-when-uncertain,但公开 benchmark 还是更爱奖赏直接输出。ODUTQA-MDC 如果把 ambiguity detection、clarification utility、final answer trade-off 拆开评,这会比又一个表格 EM 分数更有用。 说真的,我现在不会把它看成“新一代表格 QA 基准”,我更愿意把它当成一个方向校正器:提醒大家,交互式消歧本身就是能力,不是回答前的废话。前提是论文正文后面得把三件事讲清楚:模拟用户怎么构造,澄清带来多少净收益,209 张表之外能不能迁移。要是这些都没展开,这条就还是一个好题目,不是一个已经站稳的 benchmark。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H0·K1·R0
10:33
16d ago
HuggingFace 论文 · takara 镜像· rssEN10:33 · 04·11
MOSAIC:面向预见式推荐的多域正交会话自适应意图捕获
MOSAIC 提出三路编码器,把多域会话偏好拆成领域特有、领域共通、跨序列独有 3 类表示,用于提升推荐准确率。方法用领域掩码、梯度反转层对抗训练、表示对齐和独立性约束,再用动态门控按时间步融合;正文提到在 2 个真实世界基准上优于现有方法,但未披露具体数据。
#Research release#Benchmark
精选理由
HKR-K 命中,因为摘要至少交代了三路编码器、领域掩码、梯度反转层和动态门控这些具体机制。问题在于它是高专门化的推荐系统论文,正文也没给出基准提升数字,触发 technical-accessibility fail,分数压到 excluded。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H0·K1·R0
10:00
16d ago
● P1arXiv · cs.CL· atomEN10:00 · 04·11
Think in Sentences:显式句子边界增强语言模型能力
该论文提出在输入句子边界插入分隔符,并在7B到600B的模型上测试,GSM8K最高提升7.7%,DROP最高提升12.5%。方法覆盖in-context learning和supervised fine-tuning两种设置;摘要称微调后模型内部表征出现“句子感知”,但正文片段未披露具体评测配置。真正值得盯的是机制很轻:不是加新模块,而是把句子结构显式写进上下文。
#Reasoning#Fine-tuning#Interpretability#DeepSeek
精选理由
这篇论文命中 HKR 三轴:标题的吸引点是“只加句子分隔符也能涨点”,正文给出 7B-600B、GSM8K +7.7%、DROP +12.5% 等可检验数字。分数高于普通论文,因为机制很轻、能直接迁移到提示和微调;分不到 P1,因为正文未披露更完整的评测配置与复现细节。
编辑点评
这篇论文用句子分隔符把 GSM8K 拉高 7.7%、DROP 拉高 12.5%,我觉得这不是“小技巧”,这是在提醒大家很多模型到现在还没把句子当稳定计算单元。
深度解读
论文报告句子边界分隔符提升了 GSM8K 7.7% 和 DROP 12.5%,条件是把输入显式切成句子并插入分隔标记。我的判断很直接:如果这种轻量改写能从 7B 一路吃到 600B DeepSeek-V3,那暴露的不是 prompting 还有多少花样,而是很多模型直到现在都没有把“句子”学成稳定的推理步长。 我对这条的兴趣,主要不在涨了几点,而在它打到一个老问题。过去一年大家一直在折腾 test-time scaling、reasoning traces、dummy tokens、step markers,默认前提是模型会自己学会切分信息单位。这个前提我一直不太买账。预训练语料当然有句号、有换行,但 tokenization 和 next-token loss 并不保证模型把句子边界当成硬边界。Transformer 看到的是 token 序列,不是语法树。你给它一个显式分隔符,相当于把“这是一段该局部收束的地方”写进上下文,注意力分配、压缩记忆、跨句检索都会变。说真的,这比很多“加一个新头、挂一个新模块”的论文更扎实,因为它先问了一个朴素问题:模型到底按什么粒度在处理文本。 我能想到的外部参照也支持这条方向。2024 到 2025 年那波 structured prompting,很多工作用 XML tags、Step 1/Step 2、bulletized decomposition,都在不同任务上给过稳定增益。OpenAI、Anthropic 的官方 prompt guide 也长期鼓励用清晰分隔块,把 instruction、context、examples 分开。区别在于,那些方法大多是工程经验,这篇想把“句子边界”单独拎出来,作为比任意 dummy token 更有语义先验的结构信号。如果结果能复现,它会把一堆零散经验收束成一个更像理论命题的东西:自然语言模型对结构化边界高度敏感,而且这种敏感性在大模型上没有自动消失。 但我对论文现在给出的证据有保留。正文片段只给了最高增幅,没给 baseline、方差、prompt 模板、delimiter 形式、token 开销、任务分布,也没说提升主要集中在哪些模型尺寸。7B 提升明显和 600B 提升明显,结论分量完全不同。GSM8K 提升 7.7%,如果 baseline 是 80 到 86.1,和 20 到 27.7,含义差很多。DROP 提升 12.5% 也一样,得看 exact match 还是 F1,看 few-shot 还是 fine-tune。还有一个我很在意的问题:这是不是“结构先验收益”,还是“额外 token 带来的计算预算收益”?很多链式推理技巧最后都卡在这里。你多插了分隔符,模型 attention pattern 变好是一种解释;你只是让模型多看了几个显眼锚点,是另一种解释。没有严格 ablation,我不会把它直接升格成认知机制。 摘要里说 fine-tuned 模型内部表征出现“sentence awareness”,这部分我也先按保留意见看。表征分析很容易讲得漂亮,难的是排除伪相关。你只要在训练里稳定注入边界符,某些层把 delimiter 附近 token 聚成簇并不奇怪;这离“模型学会句子级处理”还差一截。要让我更信,至少得看到跨任务迁移、对抗性改写、删掉分隔符后的退化曲线,或者 attention head / residual stream 在边界处的可复现实验。我还没查到这些。 如果后续全文把配置补齐,我觉得这条会有两层价值。第一层很现实:数据整理、SFT、RAG chunk formatting、agent planner prompt 都能低成本试,几乎没有部署门槛。第二层更麻烦,也更有意思:很多人把 scaling 当成“模型自然会学会所有有用结构”,这篇如果站得住脚,结论恰好相反——有些语言结构即便在 600B 规模上,还是要你显式扶一把。这个判断对训练配方、tokenizer 设计、合成数据模板都不小。别急着把它吹成新范式,但也别把它当 prompt 小修小补;我看它更像是在提醒我们,当前 LLM 的语言能力里,句法显式化这件事一直被低估了。
HKR 分解
hook knowledge resonance
打开信源
85
SCORE
H1·K1·R1
09:38
16d ago
arXiv · cs.CL· atomEN09:38 · 04·11
基于自监督语音表征中的音系子空间分析,无需训练的跨语言构音障碍严重度评估
该论文用冻结 HuBERT 表征中的 12 维音系特征,在 5 种语言、10 个语料、890 名说话者上评估构音障碍严重度,且不训练任何监督严重度模型。方法只用健康对照语音,经 Montreal Forced Aligner 提取音素级嵌入并计算 d-prime;5 个辅音特征与临床严重度显著相关,meta-analysis rho=-0.50 至 -0.56,p<2e-4。真正值得盯的是跨语种迁移条件很克制:前提是目标语言已有 MFA 声学模型,作者称当前覆盖 29 种语言,并公开了 6 种语言的流程与特征配置。
#Audio#Benchmarking#Tools#HuBERT
精选理由
HKR-K 成立:论文有明确样本规模、统计结果和可复现流程。它仍命中“传统科学 + AI 跨界且无 agent / product 含义”硬排除,主题是临床构音障碍评估,不在 AI RADAR 的核心覆盖面内,重要性封顶在 39 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
09:00
16d ago
最佳拍档· atomZH09:00 · 04·11
AI 正在加速起飞:Greg Brockman 谈 AGI 70% 与 Spud、Sora、超级应用
Greg Brockman 据视频转述称,OpenAI 估计通往 AGI 已完成 70%到80%,新预训练基础模型 Spud 已完成预训练。视频还称 OpenAI 因算力紧张暂缓大规模推进 Sora,把资源转向 GPT 推理模型、超级应用和预计今年秋季亮相的自动化 AI 研究员;1100 亿美元基建投入被其视作“收入中心”。正文未披露访谈原始时间、Spud 参数、基准成绩与发布时间。
#Reasoning#Code#Agent#OpenAI
精选理由
HKR-H 和 HKR-R 成立:标题有强钩子,OpenAI 路线调整也有讨论度。HKR-K 不成立:这是二手视频转述,缺访谈原始时间、Spud 参数、基准和发布时间,关键信息停在口头判断,重要性压在 all。
编辑点评
OpenAI 若真把 Sora 让位给 GPT 主线,这不是收缩,是把算力和产品叙事彻底押到同一张桌上。
深度解读
OpenAI 把 1100 亿美元基建和 GPT 主线绑在一起,Sora 则因算力约束被放慢。我的判断很直接:这段转述里最硬的信息,不是“AGI 70% 到 80%”,而是 OpenAI 已经把资源分配逻辑说穿了——先保能变现、能留存、能形成日常入口的模型与应用,视频生成排到后面。 我对“AGI 已完成 70% 到 80%”这句话不太买账。先别谈哲学定义,连原始访谈时间都没给,口径也没有可复现标准。文中给的定义是“像人类一样高效操控电脑处理智力工作”。按这个定义,行业过去一年确实在逼近:Anthropic 押代码与 agent,Google 把 Gemini 往工具调用和多模态工作流推,OpenAI 自己也一直把 Codex 式能力往通用助手里塞。但把这些进展折算成“70% 到 80%”是典型的内部信号外放,不是可验证里程碑。没有任务集,没有失败边界,没有成本阈值,这个百分比更像鼓舞组织的语言,不像给外部从业者的技术指标。 我反而相信“暂停 Sora 扩张”这部分。原因很现实。视频生成的训练和推理都吃算力,单位用户价值却未必高过代码、办公、搜索式问答这些高频场景。OpenAI 如果手上真有更强的预训练底座要继续做强化学习、后训练、部署,再叠加 ChatGPT 日活、企业 API、代码产品,算力会先流向主航道。这个取舍并不罕见。去年到今年,几家头部实验室都在把 flashy demo 往后排,把能进工作流、能收 seat fee 或 usage fee 的能力往前推。说真的,这比“统一架构”那套宏大说法更可信。 “大一统 GPT 架构”这句我也留个问号。文中说图像、语音、文本都统一到 GPT 底座,连图像生成都不是传统扩散路线。这个方向我信一半。过去一年,行业确实越来越喜欢把感知、推理、工具调用塞进同一个产品层,让用户感觉自己面对的是一个系统,不是一堆模型拼盘。但产品统一,不等于训练范式已经统一。OpenAI 正文没给架构、loss 设计、数据配比、推理路径,也没给任何 benchmark。没有这些,外部没法判断这是“单一底座”还是“多个专用子系统被包装成一个 GPT 体验”。这两件事差很多,成本结构也差很多。 Spud 这段信息量也有限。正文只说它完成了预训练,是新基础模型,是后续强化学习和后训练的地基。这个描述本身没问题,几乎所有前沿模型都这么走。但只要没有参数规模、训练 token、上下文长度、基准成绩、蒸馏关系,你就没法判断它是一次代际跳跃,还是给产品线补库存。OpenAI 以前就很会把“研究节点”包装成“进步引擎的一部分”。这回我更想知道的是,Spud 服务的是哪条线:通用聊天、代码 agent、研究 agent,还是内部 teacher model。标题给了名字,正文没给角色。 “超级应用”反倒是这条里最像真战略的部分。ChatGPT 早就不是单一聊天框生意了。行业这两年已经证明,用户不会长期为“更聪明一点”单独买单,用户会为“少切三个工具、少走十步流程”买单。Anthropic 把 Claude 往代码和企业工作流推,Microsoft 继续把 Copilot 贴进 Office,Google 也在 Workspace 和搜索入口反复试。OpenAI 若把长期记忆、浏览、代码、表格、代理执行揉成一个前台,这不是新鲜概念,但它确实是最有机会吃到留存和 ARPU 的路线。问题在于,超级应用不是模型问题,而是权限、可靠性、回滚、审计和 UI 问题。Greg 如果承认 OpenAI 过去输在最后一公里易用性,这个自我诊断我基本认同。 自动化 AI 研究员那段,我会更谨慎。让 AI 帮研究员做文献整理、实验设计、结果分析,这件事已经在发生。把它说成“今年秋季见”的端到端研究员,我自己先打个折。过去一年,很多“AI scientist”系统在封闭 benchmark 上都很好看,一碰到开放课题、脏数据、实验异常、负结果解释,就容易掉链子。你可以把它当高强度 research intern,用来并行试错;把它当能独立提出并验证新理论的研究员,正文没有证据。 安全那段也有叙事张力。文中一边强调提示词注入和对齐投入,一边又给“开放参与、韧性治理”站台。这个说法我有点怀疑。OpenAI 这两年的实际路线并不偏开放,至少前沿权重层面是这样。把“广泛参与”当治理原则可以,说成当前做法就不严丝合缝。标题和正文都没有给新的安全评测、红队数据、误用拦截率,所以这部分我只能当价值表态,不能当能力进展。 我的结论是,这条转述最该信三件事:OpenAI 算力仍然紧,GPT 主线优先级继续上升,产品团队开始把易用性当核心工程。最不该直接吞下的是 AGI 百分比、Spud 的代际意义、自动化研究员的时间表。没有原始访谈、没有基准、没有发布时间,这些判断先别替 OpenAI 做完。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
08:23
16d ago
arXiv · cs.CL· atomEN08:23 · 04·11
SEPTQ:面向大语言模型的简单有效后训练量化范式
论文提出后训练量化方法 SEPTQ,用两步流程压缩大语言模型,并称其在低比特设置下优于强基线。方法先为权重矩阵各元素计算重要性分数,再以全局静态方式确定量化位置,并按列更新被掩码选中的权重。标题已给出适用对象是大语言模型,正文未披露具体模型名、位宽数值、数据集名称和提升幅度;真正值得盯的是它把 PTQ 简化到两步。
#Inference-opt#Benchmarking#Research release
精选理由
SEPTQ 至少给出一条可复述的新机制,所以 HKR-K 成立;但 feed 没披露模型名、位宽、数据集和提升幅度,H 与 R 都弱。题材又落在低层量化优化,面向通用 AI 从业者的进入门槛高,触发 technical-accessibility fail,按规则降为 excluded。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H0·K1·R0
08:09
16d ago
X · @op7418(歸藏)· x-apiZH08:09 · 04·11
Hermes Agent 也原生支持连接微信,但不是微信官方插件
Hermes Agent 已原生支持连接微信,但条件是它用的不是微信官方插件,而是逆向方式接入。正文只有这条结论,未披露接入机制、可用范围、账号风险或发布时间;真正该盯的是逆向接入的稳定性与封号边界。
#Agent#Tools#Hermes Agent#WeChat
精选理由
HKR-H 命中在“原生连微信但走逆向接入”的反差,HKR-R 命中在微信自动化与封号边界。HKR-K 失手,因为正文没给机制、范围、时间和账号风险,只够低 60 分段的 all。
编辑点评
Hermes Agent 宣称原生接入微信,但走的是逆向链路;这类功能先天不是产品力竞争,先天是存活率竞争。
深度解读
Hermes Agent 这次把微信接进 agent,前提是它不是官方接口而是逆向接入;标题已经给出路线,正文没披露协议层做法、登录方式、消息同步延迟、封号边界。我的判断很直接:这条先别按“能力扩展”看,先按“灰色基础设施”看。能不能跑,不只取决于模型和工具调用,而是取决于微信风控多久出手一次。 我一直觉得,做中国市场 agent 的团队迟早都会撞上这个口子。企业微信有开放能力,微信个人号没有,于是大家都会被逼到逆向、RPA、桌面自动化、Hook 这几条路里选一条。问题是,这几条路过去一年已经反复证明:demo 很快,持续运行很难。早些时候不少 AI 助手、私域 CRM、聊天中台都演过一遍,首周很惊艳,后面死在登录态、设备指纹、消息丢失、批量封禁。我没看到 Hermes 这次给出任何稳定性数字,所以我不买“原生支持”这四个字。没有官方 API 的原生,很多时候只是把脆弱性包进产品里。 还有一层经常被故意讲轻:账号风险不是附带问题,是主问题。你把个人微信接给 agent,涉及的不只是收发消息,还包括联系人关系、聊天频率、自动回复节奏、异地登录特征。风控看的是行为模式,不是你产品页怎么命名。要是 Hermes 用的是常见逆向方案,理论上就绕不开协议变更和对抗升级;微信只要改一次校验,产品侧就得跟一次。我自己还没查到他们用了哪条技术栈,所以没法判断是高频小修,还是一改就断。 外部对比也很清楚。海外 agent 接 Gmail、Slack、Notion,争议点多半是权限范围和执行可靠性,因为官方接口在。接微信个人号不是这个逻辑,它更像早年各种 unofficial WhatsApp client 的命运:能起量,但生命周期被平台牢牢攥着。要是 Hermes 后面拿不出明确的适用范围,比如仅测试号、仅单设备、仅低频收发,这条发布就有点过,容易让用户误判成稳定能力。现在我能确认的只有标题那一句,别的关键条件正文都没给。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
07:55
16d ago
● P1arXiv · cs.CL· atomEN07:55 · 04·11
为什么监督微调学不会:大语言模型不完全学习的系统研究
论文定义并系统研究 SFT 的“不完全学习”现象:模型即使收敛,仍会复现失败部分监督训练样本。摘要称该现象在 Qwen、LLaMA、OLMo2 及多领域数据中普遍存在,并归因为 5 类来源;真正该盯的是,整体指标上涨会掩盖持续学不会的子集。
#Fine-tuning#Benchmarking#Interpretability#Qwen
精选理由
HKR 三轴都成立:标题反直觉,摘要给出跨模型与 5 类来源,议题直接指向微调评估是否可信。提供的文本没披露失败比例、实验设置和复现门槛,所以定在 80 分 featured,不到 p1。
编辑点评
这篇论文把 SFT 的老毛病钉成了一个可测问题:模型收敛了,训练集里仍有一批样本死活学不会。
深度解读
论文把“不完全学习”定义成一个很扎实的问题:模型在 SFT 收敛后,仍无法复现部分监督样本,并把成因拆成 5 类。这个定义我买账,因为它戳中的不是 benchmark 漂不漂亮,而是训练目标有没有真的被吃进去。做过指令微调的人基本都见过这类现象:eval 涨了,loss 也降了,抽查训练集里的边角样本,模型还是答偏。以前大家多半把它归到噪声、seed、数据脏。作者这次想说,别再拿总分掩盖局部失学。 这件事跟过去一年很多“调一调就变强”的叙事有点拧着来。开源圈从 Llama 3、Qwen 2 到 Qwen 2.5,那套默认动作一直是多轮 SFT 加偏好优化,再看通用榜单和若干垂类集。工业流程里,大家也常用 pass@k、win rate、平均 Rouge 这类聚合指标做 stop condition。问题是,聚合指标天生会吞掉尾部失败样本,尤其是低频格式、长链依赖、知识前提缺失、还有数据内部自相矛盾的样本。论文把这批“怎么训都半吊子”的例子单独拎出来,其实是在提醒一个很不舒服的事实:你看到的收敛,经常只是大多数样本的收敛,不是监督信号的完整吸收。 我觉得文中 5 类来源里,最有工程价值的是两类。第一类是 pretrain 先验和 SFT 监督打架。这个在代码、数学、拒答、安全风格上特别常见。预训练里学到的高频模式太强,SFT 给的监督量又不够,结果模型表面顺从,细看仍会滑回旧分布。第二类是 sequential fine-tuning 的 left-side forgetting。这个说法和很多多阶段流水线经验很贴:先训格式,再训领域,再训安全,最后上线前补一轮小数据,模型早期学到的东西会被后段覆盖。我自己没看全文实验设计,摘要也没披露每类占比、判别信号、干预增益,所以这里先不能替作者把机制说死。 我还想补一个文章外的上下文。去年不少团队已经在讨论“SFT teaches style more reliably than knowledge”。我记得一些工具调用和结构化输出工作里,模型很容易学会 JSON 壳子,却学不会触发条件和参数边界。再往前看,LoRA/QLoRA 在小预算适配上很好用,但它也常把优化容量集中到高频模式,稀有样本更容易掉队。这篇论文如果证明确实跨 Qwen、LLaMA、OLMo2 都稳定存在 ILP,那它碰到的就不是某个 tokenizer、某个 learning rate、某个 adapter rank 的局部坑,而是 SFT 目标本身过于粗糙。 我对这条也有一个保留。论文标题叫“Why SFT Fails to Learn”,口气很大,正文摘要给出的其实是“有一部分样本学不会”。这两者不是一回事。很多训练样本本来就不该被逐字复现,尤其是多答案任务、带压缩表述的 instruction、还有本身标注不一致的数据。把“训练后不能复现样本”直接等同于“没学会”,有定义偷跑的风险。作者说他们做了 diagnostic-first mapping,这很好,但 RSS 摘要没给出判定标准:是 exact match、语义等价、还是 task-specific verifier?没有这个,ILP 的边界会很飘。 还有一层更现实。很多团队今天已经不把 SFT 当唯一主菜了,而是和 DPO、RFT、online RL、test-time scaffolding 混着用。OpenAI、Anthropic、Google 这两年公开材料里,越来越少把纯 SFT 当最终性能来源。原因很简单:SFT 对分布内模仿很强,对跨样本泛化、长程规划、奖励对齐没那么稳。所以这篇论文的价值,不是证明“大家一直用错了”,而是给 SFT 在整条后训练链路里重新定位置。它更像一个高带宽写入器,但不是可靠的完整记忆器。 要是全文后面真的给出了每一类 ILP 的可观测信号和对应干预,我会很想看两件事。第一,干预后改善的是那批未学会子集,还是只是换一批样本继续掉队。第二,修复 ILP 会不会伤到 OOD 泛化和拒答稳定性。很多时候你把训练集记得更死,泛化反而变差。摘要没披露这些数字,我还不能站到“这会改写 SFT 流程”那一步。 我对这篇的结论是偏正面的。它没有发明新训练范式,却把一个工程上老被忽略的损失项翻到了台面上。对做微调平台、数据清洗、课程学习和后训练评测的人,这比再多一个综合榜单分数有用得多。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
05:14
16d ago
arXiv · cs.CL· atomEN05:14 · 04·11
范畴论隐喻理解模型的计算实现
该研究实现了基于 Fuyama 等人 TINT 理论的隐喻理解计算模型,并在数据拟合、系统性、新颖性 3 项指标上优于既有算法。摘要称作者简化了算法,使其更接近原始理论;正文未披露实验样本量、基线数量和具体分数。真正值得盯的是,它把“隐喻理解”写成了可拟合、可模拟、可比较的程序,而不只停在理论表述。
#Reasoning#Benchmarking#Interpretability#Fuyama
精选理由
文章有一点 K:它把 TINT 隐喻理论程序化,并提出优于旧算法的可检验主张。分层仍是 excluded;题材偏认知理论,缺少 agent 或产品含义,且范畴论门槛过高,触发技术可达性失败。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H0·K1·R0
05:04
16d ago
arXiv · cs.CL· atomEN05:04 · 04·11
CoSToM:面向大语言模型内在心智理论对齐的因果导向引导
论文提出 CoSToM,用因果追踪加激活引导,干预 LLM 的 ToM 关键层,以提升社会推理与对话质量。正文只披露机制是先定位内部 ToM 特征分布,再做轻量定向 steering;模型名、基准名、提升幅度均未披露。真正该盯的是,它想把“会答题”改成“内部表征对齐”。
#Reasoning#Alignment#Interpretability#Research release
精选理由
这篇论文有机制新意,HKR-K 成立:它想把 ToM 从“会答题”转到“内部表征对齐”。但正文没披露模型、基准和提升幅度,主题又偏内部因果干预与表征分析,普通 AI 从业者进入点很少,触发 hard-exclusion 的 technical-accessibility fail,分数压到 40 以下。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H0·K1·R0
04:33
16d ago
X · @op7418(歸藏)· x-apiZH04:33 · 04·11
Claude Code 生成的代码质量明显变好,且不再出现此前的偷懒行为
用户 op7418 称 Claude Code 生成代码质量明显变好,且在其使用条件下不再出现此前“偷懒行为”。正文只有这条主观反馈,未披露模型版本、更新时间、任务类型、对比样例或复现条件。别把它当官宣更新,这更像一次值得跟踪的用户侧信号。
#Code#Anthropic#op7418#Commentary
精选理由
这是一条用户侧体感,不是产品官宣。正文没给模型版本、更新时间、任务类型、对比样例或复现条件;HKR-H 与 HKR-R 弱命中,HKR-K 失手,触发硬排除:零来源内容,分数封顶 39。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
04:16
16d ago
新智元 · 公众号· rssZH04:16 · 04·11
AI的尽头是神学:60岁硅谷前高管神父重写Claude灵魂,拒绝五角大楼军用
标题称,一名60岁硅谷前高管出身的神父重写Claude“灵魂”,并拒绝将其用于五角大楼军用场景。文章正文为空,未披露此人姓名、所指Claude版本、所谓“重写”的具体机制,也未说明拒绝军用是个人立场还是Anthropic正式政策。别被标题带偏,目前只有立场性说法,没有可复现细节。
#Anthropic#Pentagon#Commentary#Safety/alignment
精选理由
标题把宗教身份、Claude 对齐和五角大楼军用放在一起,HKR-H 与 HKR-R 有钩子。正文为空,姓名、Claude 版本、“重写”机制、拒军用的政策归属都没给,HKR-K 失败,并触发零来源内容硬排除。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
03:05
16d ago
X · @op7418(歸藏)· x-apiZH03:05 · 04·11
龙虾作者 Peter 的 Claude 账号早上被封,发文后 Anthropic 解封
Peter 表示他的 Claude 账号今早被封,发帖后 Anthropic 已解封。当前可确认的事实只有“早上被封”和“发出来之后解封”这两个时间顺序,正文未披露封禁原因、申诉流程与处理时长。真正值得盯的是人工介入触发条件,标题没给。
#Peter#Anthropic#Incident#Commentary
精选理由
这是个单一案例的小事故,账号被封后因公开发帖恢复,HKR-H 和 HKR-R成立。信息量很薄,正文没有封禁原因、申诉路径、处理时长,HKR-K不成立,所以只到低位 all。
编辑点评
Peter 发帖后 Anthropic 解封了 Claude 账号,这事不好笑。公开发声能加速解封,说明申诉链路和风控阈值至少有一处没站稳。
深度解读
Peter 今早被封了 Claude 账号,发帖后 Anthropic 又给他解封了。现阶段能确认的只有这条时间顺序,正文没披露封禁原因、申诉入口、处理时长,也没说是自动风控还是人工误判。 我对这类事的判断一直很直接:单次误封不稀奇,发到 X 上就解封才说明问题。平台做风控,本来就会接受一定误伤率,OpenAI、Google、Meta 这些年都出过误封案例,这不新鲜。难看的是线下申诉没被看见,线上声量一出来就有人工介入。对用户来说,这会把“合规流程”变成“社交媒体 escalations”。你不是在跟系统交互,你是在赌自己有没有传播力。 这对 Anthropic 尤其伤,因为 Claude 现在卖的不只是模型分数,还有“更稳、更安全、企业可托管”的感觉。我没看到这条有任何数字能证明误封率有多高,所以不能拿个案当普遍现象。问题在别处:如果一个知名创作者的正常使用都会触发封禁,而且恢复依赖公开发帖,那企业客户会自然追问两件事——第一,账号级风控和 API 级风控是不是同一套策略;第二,误判后有没有 SLA,还是只能等人工捞。标题给了前者的风险感,后两项正文都没披露。 我还想补一个上下文。过去一年,几家主流模型厂都在把安全策略从“内容拦截”往“账户与工作流拦截”推,原因很现实:agent 调工具、批量跑任务、长上下文持久会话一上来,单条输出审查已经不够了。问题是,拦截面一扩大,误伤就会从一句回复变成整个账号不可用。产品体验的损失会陡很多。Anthropic 如果最近也在收紧 abuse 检测,这类误封并不意外;但我对“发帖后立刻解封”这个信号有点警觉,它像是在告诉外界:系统没有把高价值正常用户稳定分出来。 说真的,这条信息太薄,没法下更重结论。我还没查到 Peter 当时具体做了什么,也没看到 Anthropic 官方解释。现阶段比较稳的判断只有一个:Anthropic 需要把申诉路径讲清楚,至少给出封禁类别、复核入口、预计时长。没有这些,所谓安全感就是靠品牌信用硬扛。一两次还能扛,案例多了就会反噬。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
01:49
16d ago
X · @op7418(歸藏)· x-apiZH01:49 · 04·11
新的实时可交互世界模型 Waypoint-1.5
Waypoint-1.5 被称为新的实时可交互世界模型。RSS 摘要只确认两点:主角动作流畅,且能与武器交互。真正该盯的是实时性的硬指标;正文未披露开发方、延迟、帧率、分辨率与交互机制。
#Multimodal#Vision#Product update
精选理由
标题有新鲜感,但正文只给出“动作流畅、可与武器交互”两点。延迟、帧率、分辨率、交互机制和开发方都未披露,HKR 只稳过 H,不够 featured,先放 all 等多源跟进。
编辑点评
这条只给出两点:Waypoint-1.5 展示流畅动作和武器交互。没延迟、没帧率、没分辨率,我不把它当实时世界模型定性。
深度解读
这条信息量很薄:Waypoint-1.5 只展示了流畅动作和武器交互,正文未披露开发方、端到端延迟、帧率、分辨率、持续交互时长。少了这几项,"实时可交互世界模型"这个标签就还站不稳。做过这类系统的人都知道,单段 demo 流畅不难,难的是连续 30 秒以上不漂移、不掉帧、状态还能闭环。 我对这类演示一直比较谨慎。过去一年里,世界模型 demo 常见两种取巧:一种是短窗口 autoregressive rollout,看起来像在实时响应,实际延迟被剪掉了;一种是把交互做成有限状态机触发,武器能拿、能挥,但环境并没有被稳定建模。标题里说了交互,正文没说交互机制,所以现在还不能判断它更接近生成视频,还是接近可执行模拟。 外部参照也很清楚。DeepMind 的 Genie 2、Decart 那类实时生成世界的演示,至少会让人追着问分辨率、可控时长、动作到画面的响应延迟;NVIDIA Cosmos 那一路更偏 world foundation model,但离玩家级实时闭环也还有工程距离。我自己还没看到 Waypoint-1.5 的任何硬指标,所以没法把它放进同一张表里比。 我不太买账的是社交平台上动不动就把"能互动的视频"直接叫世界模型。要配得上这个词,最少得给三样东西:输入到画面的毫秒级延迟、连续运行条件下的稳定性、物体交互的一致性测试。现在只有标题信息,这条最多算一个方向感不错的 demo,离产品级、研究级结论都还早。
HKR 分解
hook knowledge resonance
打开信源
59
SCORE
H1·K0·R0
01:14
16d ago
机器之心 · 公众号· rssZH01:14 · 04·11
CVPR Highlight|国防科大提出让无人机自主认路并锁定位目标的新解法
国防科技大学在一篇 CVPR Highlight 论文中提出一套无人机方法,目标是让无人机自主认路并锁定位目标;目前仅标题可确认这两个任务。RSS 片段为空,正文未披露模型结构、训练数据、评测基准、成功率与实时性指标。真正值得盯的是,若同一方法同时覆盖导航与目标锁定,它更接近任务闭环,而非单点感知改进。
#Robotics#Vision#NUDT#CVPR
精选理由
标题有新奇点,HKR 只命中 H;正文只确认 CVPR Highlight、无人机认路和锁位目标,模型结构、训练数据、评测基准、成功率与实时性都未披露。题材又偏军工机器人专研,普通 AI 从业者进入门槛高,按 technical-accessibility fail 排除。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K0·R0
01:14
16d ago
机器之心 · 公众号· rssZH01:14 · 04·11
“10万小时人类数据”不做对齐只靠规模,灵初智能 Psi-R2 登顶 MolmoSpaces
标题称灵初智能用10万小时人类数据训练 Psi-R2,且“不做对齐只靠规模”,并登顶 MolmoSpaces。正文为空,模型参数、评测分数、MolmoSpaces 任务定义均未披露。真正该盯的是可复现细节;现在只有标题信息。
#Benchmarking#灵初智能#Benchmark
精选理由
标题把“10万小时人类数据”“不做对齐”和“登顶榜单”绑在一起,HKR-H、R 成立。正文为空,参数、分数、评测任务与复现条件全缺,按零来源内容处理并触发硬排除,分数封顶 39。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
01:05
16d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
刘壮、陈丹琦团队开源通用视觉推理 RL 框架 Vero,零思考数据刷新 SOTA
普林斯顿刘壮、陈丹琦参与团队开源视觉推理 RL 框架 Vero,并称其训练模型在30个基准中的23项超过 Qwen3-VL-8B-Thinking。正文称 Vero 从59个数据集筛出60万样本,配合任务路由奖励与单阶段强化学习,覆盖图表、STEM、空间、定位等六类任务。真正该盯的是机制组合:不用私有思考数据也能做通用视觉推理,但具体训练成本与基座模型配置正文未披露。
#Reasoning#Vision#Alignment#Princeton University
精选理由
这是一篇高质量研究发布:标题有反常识钩子,正文也给出 23/30 基准、59 个数据集与 60 万样本等可核对信息。分数停在低 80 段,因为训练成本、基座模型和完整复现实验条件正文未披露,离行业级事件还有距离。
编辑点评
Vero用60万样本和单阶段RL刷了23项基准,但我先不把它当“开源版GPT视觉推理”。这更像一次把学术界常见碎片方案认真拼成系统工程的胜利。
深度解读
Vero这篇里,最硬的信号不是“0思考数据”,是它把视觉推理RL里最麻烦的三件事一次性接上了:60万样本的数据覆盖、按任务分流的奖励、单阶段训练流程。23/30超过Qwen3-VL-8B-Thinking,说明这套组合至少在8B档位已经成立。我的判断很直接:视觉推理这条线,瓶颈没有大家讲得那么玄,先卡住的还是数据分布和奖励工程,不是某家独有的“thinking secret sauce”。 这事为什么重要。因为过去一年开源视觉RL一直有个老毛病:数学题能刷,图表能刷,换到空间定位、开放描述、计数搜索就掉得很难看。原因其实不神秘。不同视觉任务奖励面差太远。选择题看最终答案。定位题看空间对齐。开放描述还得找裁判模型。你把这些任务粗暴混训,模型经常不是泛化,而是互相干扰。Vero至少正面承认了这个问题,然后用任务路由奖励去拆。这个设计不花哨,但很对路。很多项目失败,不是RL不行,是把所有任务都塞进同一种 verifier 里硬算分。 我对“0思考数据刷新SOTA”这个标题有一点保留。文章给了结论,没给关键信息。基座模型是谁。初始化配方是什么。RL跑了多久。采样温度、rollout长度、judge模型成本是多少。正文都没披露。没这些,外界就没法判断这23项提升里,究竟多少来自Vero机制,多少来自底座选型和算力堆法。尤其“没有私有thinking数据”这句很容易被读成“不要蒸馏也能复现闭源能力”。我不买这么满的说法。OpenAI、Google、Anthropic过去几代视觉推理,吃掉的不只是思考轨迹,还包括工具调用、后验筛选、长链拒答和评测集清洗。Vero现在证明的是:少掉私有思考数据,开源路线照样能做出强结果;它还没证明这些闭源配方已经不重要。 外部参照也很关键。Qwen系视觉模型这两代已经把“开源VLM + 后训练”门槛压得很低,尤其在图表、OCR、数学混合任务上,8B模型的上限比一年前高不少。我没查到Qwen3-VL-8B-Thinking完整发布页,但按这篇说法,Vero赢的是一个已经带Thinking后缀、做过专项优化的对手。这比打一个裸底座有说服力。另一个参照是去年不少视觉RL工作,常见套路还是单域数据集加格式化奖励,最后论文里一片亮眼数字,跨任务一测就散。Vero把59个数据集筛成60万样本,反而说明“多”不是关键,“筛过且平衡”才是关键。这个判断我基本认同。语言模型后训练去年也走过同样的路。不是原始偏好数据越多越强,而是坏数据会把奖励信号直接做脏。 我比较在意的一点,是它把“广泛数据覆盖”定义成主要驱动力。这个结论听起来顺,但我还是想看消融细节。广覆盖到底带来了什么。是让策略学会迁移,还是只是降低了过拟合某几类 verifier 的概率。若后者占主导,那核心贡献就更偏训练稳定性,不是推理能力本身的跃迁。两者差很多。前者说明你找到了通用视觉推理的训练入口。后者说明你只是把benchmark training做得更像样。我还没看到正文给出足够证据来分清这两件事。 还有一个现实问题。任务路由奖励很好听,部署起来未必便宜。开放描述要挂另一个大模型当裁判,定位和数学又要各自 verifier。训练时这套多路评估链条,常常比模型前向本身更麻烦。学术团队能把代码放出来当然是好事,但企业团队会先算账:每个样本的奖励成本是多少,吞吐有多低,judge drift怎么控。正文没有成本数字,我只能保留意见。很多“开源可复现”的方案,最后卡死在奖励计算太贵,或者复现方拿不到同样稳定的判分器。 说真的,这条我反而看成一个研究节奏变化的信号。过去视觉推理常被讲成“等更大多模态基座自然长出来”。Vero给出的路线更工程化:底座不用神化,先把任务覆盖、样本筛选、奖励路由、训练阶段数打磨好,8B也能往前顶。这个方向和近一年文本端的变化很像。大家慢慢接受,后训练不是收尾活,而是能力定义的一部分。 所以我对Vero的评价是偏高的,但不是因为它“开源追平闭源”。这话现在证据不够。它更有价值的地方,是把视觉推理RL从单项特技拉回到可操作的方法论。要是后续仓库补出基座配置、训练算力、各任务消融,还有跨分布测试,这套东西就不只是论文结果,会变成很多团队都能拿来改的配方。那时它的影响力才会开始放大。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
01:05
16d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
OpenClaw 方法扩展到多模态生成,6B 小模型部分任务超过 Nano Banana 2
上海人工智能实验室等团队提出 GEMS,把 Agent Loop、Memory、Skills 用于多模态生成,并称 6B 的 Z-Image-Turbo 在部分任务超过 Nano Banana 2。文中给出 5 个主流任务平均提升 14.22、4 个下游任务较最佳基线提升 8.92;论文与代码已公开,正文未披露 Nano Banana 2 的完整设置。
#Agent#Multimodal#Memory#Shanghai AI Laboratory
精选理由
这篇稿的钩子和信息量都够:GEMS 把 Agent Loop、Memory、Skills 引入多模态生成,且给出 5 项任务平均 +14.22、4 项下游 +8.92 的可核对结果,论文与代码已公开。共鸣点在“小模型靠测试时扩展追大模型”,但正文没交代 Nano Banana 2 的完整对比设置,所以停在 featured 高位,不进 P1。
编辑点评
GEMS 把 6B 模型抬过了部分榜单,但我先不把它当成“模型反超”;这更像一次把多轮推理预算塞进多模态生成的漂亮包装。
深度解读
GEMS 报告 6B 的 Z-Image-Turbo 在 5 个主流任务平均提升 14.22、在 4 个下游任务较最佳基线提升 8.92;我对这条的第一判断是,它证明了 agent loop 在多模态生成里有效,没证明 6B 基座突然跨代了。 我先说结论:这更像推理时编排赢了,不是基础模型能力被重新定义。文里最关键的结构有 3 个,Agent Loop、分层压缩 Memory、按需加载 Skills。这个组合在代码 agent 里已经跑通过一遍了,OpenClaw、Claude Code 这一路都说明,只要任务允许“试错—反思—再生成”,小模型能靠流程吃到一截分数。把这套搬到图像生成,并不奇怪。奇怪的是宣传口径很容易把“系统胜利”讲成“模型胜利”。这两件事差很多。前者买的是额外轮次、额外 token、额外路由;后者才是参数本身更强。 我对“6B 超越 Nano Banana 2”这句有保留,原因很简单:正文没给 Nano Banana 2 的完整设置,也没把对比口径摊平。GenEval2 上是单轮还是多轮,图片采样次数多少,是否允许 memory 累积,skill 提示词有多长,人工筛选有没有介入,正文都没披露。少这些条件,“超过”只能先当成一个局部结果。做多模态的人都知道,图像任务对 sampling budget 和 rerank 很敏感。同一个底模,给 4 次机会和给 1 次机会,最后分能差一大截。文章提到“平均生图次数”和性能有权衡,但没给具体轮次分布,这个缺口不小。 外部参照其实很清楚。过去一年,代码和通用 agent 的很多提升都来自 inference-time scaling,而不是 pretraining 里突然多学会了什么。OpenHands 也好,OpenClaw 也好,吃的是循环执行、工具调用、记忆压缩。多模态这边同样成立:一旦任务从“一次出图”变成“多轮修图、审图、重写提示词”,系统设计的权重就会快速超过底模 size。这个方向我买账,因为它贴近真实工作流;但我不买“所以 6B 已经压过闭源大模型”的顺滑叙事。你得先把每轮成本、总延迟、总 token、调用次数都摆出来。 Memory 那段我反而觉得是这篇里最像长期资产的部分。把历史轨迹里的事实保留,把 CoT 压成经验,这不是文案细节,是成本结构问题。多轮生成最怕上下文越滚越长,最后模型记住了废话,忘了约束。分层压缩如果真能稳住长期迭代,价值会比单次 benchmark 更大。这里我想到 Anthropic 去年反复讲的“compressed memory / summary memory”思路,代码 agent 里已经验证过一轮;现在把它放到图像生成,方向是对的。问题还是老问题:压缩后丢了多少关键信息,跨任务迁移是否稳定,正文没给失败案例。 Skill 模块也一样。按需加载专家指令,能让结果更“有艺术感”,这个我信一半。信的是,风格化提示模板确实能显著改善构图、光影、叙事元素。只要 skill 库写得够好,小模型会看起来突然聪明很多。不太信的是,案例图很容易挑最顺眼的样本。没有 blind eval、没有人评协议、没有 skill 触发错误率,这块更像 demo,不像结论。 所以这条我会这样看:GEMS 说明多模态生成正在进入 agent 化阶段,评价单位会从“单次出图质量”转向“闭环完成任务的总成本”。这个转向很重要。很多开源图像模型接下来比的,不会只是参数和数据,而是谁能把 critic、memory、skill、tooling 接到一起。可如果论文最后只给平均提升,不给每项任务的 compute 账单,那它离工程决策还差一步。我还没查原论文附录里是否补了这些表;按这篇正文信息,证据还不够让我接受“6B 反超”这个大标题。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
01:05
16d ago
● P1量子位 · 公众号· rssZH01:05 · 04·11
中国具身模型拿下全球第一,10万小时机器人人类数据集发布
灵初智能发布总计10.09万小时的人类+真机操作数据集,并称其 Psi-R2 登顶 AllenAI 发起的 MolmoSpace 榜单。正文给出95472小时人类数据、5417小时真机数据、已开源1000小时,覆盖294种场景、4821种任务、1382种物体;Psi-W0 训练中加入30%失败样本,Psi-R2 推理从2.2秒压到100毫秒内。真正值得盯的是数据闭环与评测口径,文中提到“成功率高近10倍”,但未披露任务设置、基线全名和统计细节。
#Robotics#Multimodal#Benchmarking#Psibot
精选理由
HKR 三项都过:10.09万小时人类+真机数据、30%失败样本训练、2.2秒降到100毫秒内,这些都是可讨论的新信息。分数停在 80,因为“榜单第一”和“成功率高近10倍”缺少任务设置、基线全名与统计细节,离同日必写还有距离。
编辑点评
灵初这次把筹码押在10.09万小时人类数据上,我买账一半。数据量确实猛,"全球第一"和"近10倍成功率"的口径还远没站稳。
深度解读
灵初公布10.09万小时操作数据集,并宣称 Psi-R2 登顶 MolmoSpace。我的判断很直接:这条最有价值的不是榜单第一,而是他们终于把具身预训练的数据规模往前推了一大截;最可疑的也不是模型结构,而是成功率“近10倍”这句宣传,正文没给任务拆分、基线全名、方差区间,也没讲评测是不是同一机械臂、同一控制频率、同一相机位姿。 先说我认可的部分。95,472 小时人类数据,加 5,417 小时真机数据,这个配比很有攻击性。过去一年,行业里多数可复用操作数据还停在几百到几千小时,能上万小时就已经算重投入。文中拿 NVIDIA EgoScale 的 2 万小时做人类第一视角对比,这个方向是对的:具身这件事,卡点一直不是“有没有更大的 VLA”,而是有没有足够密、足够脏、又能回到控制空间的数据。灵初至少证明了一件事,国内团队也开始接受一个现实:纯靠遥操作小数据微调,撑不起泛化。 我也认可他们把失败样本拉进训练。Psi-W0 额外加了 30% 失败样本,这个做法比很多发布会上的“世界模型”说法实在。机器人学成功轨迹不难,难的是知道哪里会掉、会滑、会卡、会撞。只喂成功演示,模型学到的是一条干净轨迹,不是可恢复策略。过去不少 manipulation 工作卡在这一层,demo 很顺,部署一乱就碎。把失败样本系统化地放进动作条件世界模型,至少在方法论上是对路的。 但我对这套叙事有两个保留。第一,MolmoSpace 到底测到了什么,正文其实没说透。标题给了“全球第一”,正文给了“超越 PI、DreamZero”,还给了“近10倍成功率”,可没披露具体任务集合、任务长度、成功定义、重复次数、统计显著性。AllenAI 的 benchmark 有参考价值,我不否认;可机器人榜单和语言榜单一样,特别怕口径漂移。只要物体集、相机位、控制周期、是否允许重规划有一项不同,名次就会变味。没有完整表格,这个第一只能先打问号。 第二,100 毫秒内推理听起来很猛,我还是想看条件。文中说 Psi-R2 从 2.2 秒压到 100 毫秒内,靠的是 DiT 缓存、Torch 编译、量化。这在工程上完全合理,我不怀疑能做出数量级下降。问题是,这个 100 毫秒对应的分辨率、batch、硬件、动作 horizon、是不是只算模型前向,正文都没披露。机器人控制里 100 毫秒和 100 毫秒不是一回事:视觉编码是否复用、末端控制是不是低层闭环、碰撞检测算不算在内,都会改结论。很多团队把“模型延迟”当“系统延迟”讲,我对这个口径一直比较警觉。 再放回行业里看,这条路并不孤立。Figure、Physical Intelligence、Skild 过去一年都在讲大规模多样化操作数据,差别只在谁更强调互联网式预训练,谁更强调真机闭环。灵初这里最像 Physical Intelligence 早期那套思路:先用异构数据把表示学宽,再想办法把人类轨迹压进机器人可执行空间。文中提到“不到 100 条轨迹就能完成微调”,这个数字如果能在公开任务上复现,会比“榜单第一”更有说服力。因为它直接对应部署成本。说真的,工厂客户不关心你是不是榜一,他们关心的是换一类箱子、换一个抓手、换一条线,要不要再采 500 条真机数据。 还有一个地方我不太买账:文章把“开源”写得很满,实际只开了 1,000 小时。1,000 小时当然不小,放在具身领域甚至已经算大方;可它和 10.09 万小时总量之间差了两个数量级。要靠开发者生态补足数据飞轮,这个开源比例还远远不够。除非后面把标注格式、传感器同步、动作接口、质检工具链一并放出来,不然外部团队很难真接进同一条数据管线。具身开源最难的从来不是把视频传上 GitHub,而是把采集协议和执行接口做成别人能复现的标准。 我还想补一个正文外的上下文。过去一年 VLA 和 world model 叙事越来越热,很多团队喜欢用视频预测证明“理解了物理世界”。我一直觉得这个说法有点过。视频预测强,不等于控制稳定;能生成未来帧,不等于能完成装配、插接、柔顺接触。灵初这次至少往前走了一步,因为他们把人类触觉、3D 手部位姿、失败样本一起拉进来,目标不是漂亮视频,而是可执行动作。这个方向我认可。可要说“人类数据时代来了”,现在还早。行业还没回答三个硬问题:跨本体映射损失多大,长尾任务怎么定义,数据闭环到底有多少是真机验证、多少是模型自举。 所以我对这条的结论是:数据规模这件事,灵初确实做出了一个该被重视的样本;品牌稿里的“全球第一”“一战成名”我不买。下一步他们要拿出的,不是更燃的直播,而是公开评测表、复现实验脚本、更多开源小时数,以及几条跨场景部署曲线。那些东西一出来,这家公司到底是在做具身基础设施,还是在做一轮高配宣发,就很清楚了。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1

更多

频道

后台