全部 · 2026-04-09

▸ 16 items · updated 3m ago

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1531 1694 1768 1853 1962 2095 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19167 20116 21121 22114 2348 2446 2570 26107 27116 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2140 3130 4111 5118 668 766 8124 9114 1075 1175 1275 13191415161718192021222324252627282930

2026-04-09 · 星期四2026年4月9日

19:31

64d ago

● P1X · @dotey（宝玉）· x-apiZH19:31 · 04·09

Anthropic 推出顾问工具 API 让廉价模型执行任务向高端模型咨询

Anthropic 推出了“顾问工具”API，让 Sonnet 或 Haiku 作为执行者跑任务，遇到难决策时把上下文递给 Opus 出主意，Opus 不碰工具、不直接输出，只当幕后军师。这跟常见的“大模型拆任务、小模型执行”反过来了，好处是大部分 token 烧在便宜模型上。Sonnet 配 Opus 在多语言 SWE-bench 上比单干高 2.7...

#Agent#Tools#Inference-opt#Anthropic

精选理由

Anthropic 这次 API 更新挺实在，不是画饼。核心就是让 Sonnet 或 Haiku 当执行者跑任务，卡壳时再问 Opus，而且是在同一次 API 请求里完成模型切换，Token 分开算钱。给的数字也清楚：Sonnet+Opus 在多语言 SWE-bench 上比单用 Sonnet 高了 2.7 个百分点，单任务成本还降了 11.9%；Haiku+Opus 在 BrowseComp 上从 19.7% 跳到 41.2%，成本只要 Sonnet 的 15%。我会先打个折，毕竟还在 beta，但这条路子对控制推理成本确实有用，值得关注。

一句话点评

Anthropic 让便宜模型干活、贵模型当顾问，思路直接，但正文没给成本和延迟数据，省钱效果先打问号。

锐评

Anthropic 这个“顾问工具”API，说白了就是给便宜模型配了一个“场外求助”按钮。平时让 Haiku 这类低成本模型自己跑任务，一旦它觉得搞不定，就自动去问 Claude Opus 这种高端模型，拿到建议再继续干活。这思路不新鲜，但直接做成 API 功能，省去了开发者自己搭路由管道的麻烦。目前公开信息只有标题和一句话描述，正文没披露具体怎么判断“遇到难题”、切换模型的延迟会增加多少、以及实际能省多少算力成本。x-op7418 提到 Anthropic 算力成本压力大，这个功能更像是内部降本需求的外化。如果切换逻辑不够准，频繁请顾问反而可能更贵更慢。还缺一组关键数据：在典型任务上，这种混合模式相比纯高端模型能降多少成本，同时准确率会掉多少。没有这些，就只能当个有意思的架构思路看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:28

64d ago

● P1X · @claudeai· x-apiEN18:28 · 04·09

Claude 平台上线“顾问策略”：用 Opus 当军师，Sonnet 或 Haiku 当执行者

Claude 平台把 Opus 模型设为“顾问”，让更便宜的 Sonnet 或 Haiku 去执行具体任务。官方说法是，这样能让 agent 的智能水平接近 Opus，但成本低很多。正文没给出具体价格对比、跑分数据或上线时间，所以实际省多少、效果打多少折，还得等实测再看。

#Agent#Reasoning#Anthropic#Claude

精选理由

Anthropic 给 Claude Platform 加了个 advisor 模式，让 Opus 出主意、Sonnet 或 Haiku 干活，说这样能让 agent 接近 Opus 的水平还更省钱。我会先打个折——正文没给价格、没给基准分数、也没说什么时候上线，所以省多少、强多少现在全是问号。但思路本身对做 agent 的人很有用，值得放出来让大家盯着后续。

一句话点评

Anthropic 要把顾问策略搬上 Claude 平台，但正文没披露具体怎么落地、对开发者意味着什么。

锐评

这条消息本身信息量很薄，只有标题，没有正文细节。从字面看，Anthropic 打算把“顾问策略”做成 Claude 平台的一个功能或产品形态。所谓顾问策略，大致可以理解为让模型像咨询顾问一样，先理解问题背景、拆解需求，再给出建议，而不是直接扔一个答案。这种交互方式对需要多轮推理、上下文敏感的任务会有帮助，比如商业分析、法律合规审查。但关键信息全缺：是开放给所有 API 用户，还是只面向企业客户？是新的系统提示词模板，还是底层模型行为调整？定价、延迟、可用区域一概没提。如果是真的把顾问式交互做成可配置的选项，对开发者来说能省掉不少提示词工程的功夫；如果只是营销说法，实际还是靠用户自己调 prompt，那就没什么新东西。这点先别太激动，等具体文档出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:36

64d ago

● P1X · @OpenAI· x-apiEN17:36 · 04·09

OpenAI 推出100美元ChatGPT Pro新档位支持Codex用量增长

OpenAI 新设了一个每月 100 美元的 Pro 订阅档，Codex 用量是 Plus 档的 5 倍，适合长时间、高强度的编程任务。这个档位保留了原 Pro 的全部功能，包括专属 Pro 模型以及 Instant 和 Thinking 模型不限次使用。到 5 月 31 日前有个限时活动，Codex 用量临时提到 Plus 的 10 倍。正文没解释为...

#Code#Tools#OpenAI#Product update

精选理由

OpenAI 给 Pro 加了个每月 100 美元的新档位，核心是把 Codex 用量提到 Plus 的 5 倍，其他 Pro 功能不变。5 月底前有个临时福利，Codex 额度再翻倍到 10 倍，但我会先打个折，这只是限时促销。真正值得盯的是，他们开始把代码代理这种重度用法单独拿出来计费，说明以后高强度用 AI 写代码可能要多掏钱。正文没提新模型或技术突破，所以重要性主要落在定价信号上，对团队预算和工具选型有直接参考价值。

一句话点评

OpenAI 新加了个 100 美元/月的 Pro 档位，主要给 Codex 用量大的人用，但官方没细说具体额度。

锐评

OpenAI 在原来 200 美元 Pro 和 Plus 之间塞进了一个 100 美元的新档位，官方说法是 Codex 用量涨太快，需要中间选项。这相当于给重度编程用户一个不上不下的选择：比 Plus 能扛更多调用，又不用直接跳到 200 美元那档。但官方公告正文是空的，只靠标题和第三方消息拼出轮廓，具体每分钟 token 上限、上下文窗口、能不能用最新模型，这些全没写。200 美元档位还在，官方还特意感谢了老用户，说明不是降价替代，而是分层。对团队来说，如果 Codex 是日常刚需，这个档位可能刚好卡在预算和用量之间，但没看到数字之前，别急着算性价比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:12

64d ago

X · @Yuchenj_UW· x-apiMULTI17:12 · 04·09

一个员工每天烧掉2000美元的Claude额度

一位创业公司创始人透露，员工每人每天用Claude花掉约2000美元，折合每人每年73万美元。如果换成贵5倍的Claude Mythos，每人每年成本将飙到365万美元。创始人还表示“拿我的钱来”。不过这条帖子没交代团队规模、具体工作负载，也没说Mythos到底贵在哪，所以这个数字更像是段子式的估算，别直接当预算参考。

#Agent#Tools#Anthropic#Yuchenj

精选理由

H和R通过，因为每人每天2000美元的Claude消耗是个尖锐的钩子，也切中了单位经济模型的真实神经。K不通过：帖子只给了口头估算和一个5倍外推，没有团队规模、任务构成、账单或Mythos的具体信息。

一句话点评

正文没披露具体对话内容，标题只说跟一位创始人聊了。信息缺口太大，没法判断聊了什么、有没有干货。建议等完整报道再读。

锐评

帖文把 Claude 单人日耗写到 2000 美元。这个数字已经足够刺眼，但我不买它顺手推出的那句“未来公司给 agent 花的钱会超过给人花的钱”。原因很简单：这里给出的只有口头账，没有任务结构、没有团队规模、没有输出质量，也没有说明这 2000 美元里有多少是长上下文反复重跑、有多少是工具调用、有多少是工程失控。先把硬数摆平。2000 美元/天乘 365 天，年化约 73 万美元/人，这个算术没问题。问题在口径。多数创业团队不会按 365 天满负荷烧推理费，很多内部核算会按工作日、按活跃 seat、按高峰日去讲。按 250 个工作日算，单人年化是 50 万美元，不是 73 万。还是贵，但含义完全不同：前者像长期固定成本，后者更像一支高强度团队在冲刺期的变量成本。标题只给了前一种叙事，正文没披露第二种口径。我一直觉得，讨论 agent 成本时，把“每人每天烧多少钱”直接等同于“每个员工值不值这个钱”，很容易把团队管理问题伪装成模型价值问题。一个员工如果在 IDE、终端、浏览器、回放日志、跑测试之间挂着十几个 agent，token 消耗当然会上去。但 token 上去，不等于产出按比例上去。去年到今年，Cursor、Devin、Claude Code 这一波最常见的落地瓶颈，不是模型不会写，而是 review、回滚、环境漂移、工具权限、重复调用失控。我没看到这条里任何一个控制变量，所以“Take my money”更像 founder 在买速度幻觉，不像在买稳定的人效。拿行业里更可核的口径对一下，这个数也显得很极端。我记得 Anthropic 和 OpenAI 过去一年主流编码模型的公开价格，大致都还是落在每百万 token 几美元到几十美元的区间；就算加上工具调用、长上下文、失败重试，要把单人单日稳定打到 2000 美元，通常意味着两种情况：一是上下文管理很差，反复把大仓库、大日志、大文档整段喂进去；二是 agent workflow 已经从“辅助”变成“批量自主试错”，大量 token 烧在错误路径上。两种都不天然指向护城河，很多时候反而指向工程没收敛。帖文里那句“Claude Mythos 贵 5 倍”我更保留。标题给了 5 倍估算，正文没披露 Mythos 的正式定价、适用任务、吞吐、成功率，也没说这 5 倍是 input/output token 价格、整套 seat 价格，还是某种内部试用感受。没有这些条件，把 73 万美元直接乘到 365 万美元，只能算情绪放大，不算分析。说实话我对这种算法有点警觉：只要成功率、调用轮数、上下文压缩率有一个改掉，最后总账会差出整倍数。还有一个被故意省掉的问题：公司到底在拿这些 token 替代什么。如果一个顶级工程师年总成本 40 万到 70 万美元，agent 账单冲到 50 万美元以上，管理层至少该回答三件事：交付周期缩短了多少，线上事故率有没有下降，团队能不能少招人。没有替代项，只有消费额，这种数字本身没有经营含义。云计算刚起来时也有类似故事，很多团队先把 AWS 账单烧飞，再回头补 FinOps；今天 agent 成本也在重复这条路，只是单位从实例小时变成 token 和工具调用。所以我对这条的判断是：它不是在证明“未来 agent 比人贵”，它是在提醒大家，2026 年很多所谓 agent-native 公司还没建立像样的 AI 成本纪律。谁先把缓存、上下文裁剪、模型路由、失败重试、工具权限这几件事做好，谁就能把同样的任务成本打掉一半以上。我自己没看到这家公司数据，不能断言它低效到什么程度；但在正文只给一句口头转述的条件下，把高额账单当成趋势证据，我不买账。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:09

64d ago

FEATUREDX · @claudeai· x-apiEN16:09 · 04·09

Claude Cowork 向所有付费用户开放，企业版加了权限和花费管控

Anthropic 把 Claude Cowork 从测试转成了正式功能，Pro、Team、Enterprise 都能用。企业版这次主要给管理员加了几个控制项：按角色设访问权限、给团队设花费上限、看用量报表，还接入了 OpenTelemetry 方便监控。正文没提具体定价、调用次数上限和推送时间。如果是真的，对想在全公司铺开用的团队来说，管钱管权限会方...

#Tools#Anthropic#Claude#Product update

精选理由

Anthropic 把 Claude Cowork 推给所有付费用户，企业版多了角色权限、分组花钱上限、用量统计和更全的遥测接入。我会先打个折：正文没写价格、配额和具体上线时间，所以别急着算账。真正值得看的是治理那几条腿终于补齐了，但组织级部署的细粒度参数还没亮出来。

一句话点评

Claude 的协作模式向所有付费用户开放了，但官方公告正文没给细节，具体怎么用、效果如何还得看实测。

锐评

Anthropic 把 Claude Cowork 从测试推到了正式版，所有付费套餐都能用。这个功能的核心是让模型能直接操作电脑桌面，像人一样点鼠标、敲键盘、看屏幕，不再只是聊天框里的文字来回。对从业者来说，这意味着 agent 从“给建议”进到了“动手干”的阶段，比如自动填表、操作专业软件、跨网页抓数据。但这次公告信息量很薄，正文是空的，只靠标题和来源名称撑起来。没写支持哪些操作系统、对延迟和准确率有没有新数据、会不会像早期演示那样容易点错按钮。也没提安全边界怎么设——让 AI 控制桌面，权限一旦放开，风险比聊天接口大得多。想评估实际价值，还得等第三方实测：它到底能稳定跑完多长的任务链，出错率多少，以及企业部署时怎么审计每一步操作。如果只是把测试版换了个标签，那这次“正式发布”的含金量就要打个折。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

15:53

64d ago

X · @dotey（宝玉）· x-apiZH15:53 · 04·09

Claude Code 加个环境变量就能关掉 1M 上下文

在 ~/.claude/settings.json 里加一行 CLAUDE_CODE_DISABLE_1M_CONTEXT=1，就能关掉 Claude Code 的 1M 上下文窗口。很多人觉得上下文太长会“降智”，但原文说这只是猜测，没有证据。这个开关是可复现的配置，但性能影响没验证。

#Tools#Code#Product update#Commentary

精选理由

价值在于可复现的开关，所以 HKR-K 通过；同时它踩中了 Claude Code 用户对长上下文取舍的讨论，所以 HKR-R 也通过。分数留在 60 多分，因为帖子没有给出任何基准测试、失败案例或官方文档，而且明确承认“1M 上下文会降智”只是用户猜测，没有证据。

一句话点评

Claude Code 默认开了 1M 上下文窗口，但如果你觉得太费钱或没必要，可以在配置文件里手动关掉。正文没披露关闭后能省多少 token 成本，也没说是否影响代码补全质量。如果是长项目，1M 窗口可能有用；短对话场景关了反而省开销。

锐评

Claude Code 提供了一个可复现开关：用户把 `CLAUDE_CODE_DISABLE_1M_CONTEXT=1` 写进 `~/.claude/settings.json`，就能关掉 1M context。先把事实钉住：帖子只给了变量名、取值 `1`、配置路径这 3 个信息；“1M 上下文会降智”这句，正文自己也承认没有证据。所以这条我不想顺着社媒情绪走。长上下文一旦出问题，原因常常不是“窗口越大越笨”这么粗。更常见的是检索命中率、提示词结构、工具调用顺序、缓存策略，或者中间摘要把关键信息压扁了。很多 coding agent 的体验波动，最后查出来是上下文装载机制的问题，不是基座模型在 1M token 条件下突然退化。我自己也没跑过 Claude Code 这个开关的 A/B，但如果 Anthropic 留了显式禁用项，通常说明他们内部已经见过兼容性、延迟、成本，或质量稳定性上的 trade-off，不会只是随手埋个彩蛋。这里有个文章外的上下文。过去一年几家模型公司都在拿超长上下文做产品卖点，可一到真实工作流，团队最后还是会回到“有效上下文”而不是“标称上限”。Gemini 很早就把百万级窗口放上台面，OpenAI 和 Anthropic 也都不断抬数字，但工程侧一直有同一个老问题：你给模型塞进 500k 以上内容，不等于模型就稳定利用了 500k 信息。注意力分配、检索路径、系统提示优先级，都能把大窗口变成大噪音。这个经验在代码场景更明显，因为 repo、终端输出、工具结果会抢同一段预算。我对这条叙事的 pushback 在这：一个可关闭的 1M 开关，不等于 Anthropic 默认方案有问题，更不等于“长上下文没用”。它更像给重度用户的逃生门，方便你定位问题源头。真想验证，很简单：拿同一个仓库、同一个任务、同一套工具权限，分别跑开关前后，对比完成率、首个可运行 patch 时间、token 消耗和工具调用次数。帖子没给任何 benchmark，也没给版本号，所以现在最多只能说：这个开关有操作价值，那个“降智”判断还站不住。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

13:14

65d ago

FEATUREDX · @op7418（歸藏）· x-apiZH13:14 · 04·09

Code Pilot 脱离 Claude Code 独立运行，支持 GPT 账号登录

Code Pilot 发了一篇保姆级教程，同时宣布两个变化：一是可以脱离 Claude Code 独立运行了，二是支持用 GPT 账号授权登录，走用户自己的额度。正文没披露版本号、定价、支持哪家 GPT 供应商、有没有使用限制。核心信号是降低了使用门槛，教程本身不是重点。

#Code#Tools#Claude Code#GPT

精选理由

这是一条中等偏轻的编码工具更新。HKR-H/K 通过，因为解绑 Claude Code 和复用 GPT 额度是实在的变化；HKR-R 不通过，因为版本、定价、供应商范围、限制都没说，所以留在 all 而不是 featured。

一句话点评

这条更像个人动态，不是产品发布。正文没提供任何产品细节、功能或数据，只能当一条预告看。

锐评

这条信息来自个人博客，标题说“终于轮到自己的产品了”，但正文是空的，只有标题。没有产品名、没有功能描述、没有上线时间，也没有任何可验证的链接或截图。唯一能确定的是作者 x-op7418 之前常写别人的产品教程，现在自己做了东西。对从业者来说，这条目前没有任何可评估的信息点。如果后续有产品页面或具体说明，才值得再看。现在只能把它当作一个个人动态，别当产品新闻来理解。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

12:25

65d ago

MIT 科技评论· rssEN12:25 · 04·09

MIT 科技评论今日速览：AI 不会撞墙、人造草坪争议与海水淡化数字

微软 AI 负责人 Mustafa Suleyman 发文反驳“AI 算力即将撞墙”的说法，认为三大进步在推动指数增长：更快的计算单元、高带宽内存、以及把分散 GPU 连成巨型超算的技术。正文没披露具体芯片型号、成本或时间表，但核心观点是把规模扩展看作系统架构问题，不只是堆单卡。另外，美国人造草坪安装量从 2001 年的 700 万平方米涨到 2024...

#Inference-opt#Mustafa Suleyman#Microsoft AI#Google DeepMind

精选理由

这篇是汇总，不是一手产品或研究发布。HKR-K 和 HKR-R 靠具体的基础设施杠杆和扩展瓶颈讨论过关。HKR-H 偏弱，正文没披露具体芯片、成本或时间表，也没有可验证的数据，所以分数在 60 多分，定级 all。

一句话点评

这篇是MIT Tech Review的每日汇总，核心看点是Mustafa Suleyman（微软AI CEO）写的专栏，他反驳“AI算力增长见顶”论，认为三大技术（更快计算单元、高带宽内存、GPU集群互联）会继续推动指数增长。注意这是观点文，不是实证研究，且Suleyman有利益立场。另外Meta发了新模型Muse Spark（首个来自其“超级智能实验室”的模型），但正文没披露具体参数和性能...

锐评

Suleyman用3个硬件抓手支撑“AI短期不会撞墙”，我不太买账。标题给了 faster compute、HBM、GPU interconnect 这3项，正文没给具体芯片、成本曲线、功耗条件，也没给训练或推理哪一侧先受益；在这种信息量下，把“墙不会来”讲得这么满，证据是不够的。我同意他抓到了一半问题。过去一年，扩展瓶颈确实早就不是单卡 TFLOPS 了，而是系统工程：HBM 容量和带宽、机柜级互连、拓扑、封装、供电、散热、集群调度一起决定有效算力。Nvidia 这两代从 H100 到 Blackwell，再到 NVL72 这种整柜设计，卖点就已经不是一颗 GPU 有多强，而是 72 卡放在一起以后，训练吞吐和推理时延能不能稳定。Meta、xAI、OpenAI、Microsoft 这波大集群也都在证明同一件事：把 10 万卡接成“像一台机器”，难度远高于多买几万卡。问题在于，这只能说明扩展还能继续，不等于回报还能指数走。HBM 和互连改善，解决的是系统利用率；它们没有自动解决数据质量、后训练成本、评测污染、真实产品留存这些更麻烦的约束。训练端过去还能靠更大集群吃到可见增益，到了 2025 年后，行业讨论已经明显从“再堆 pretraining”转向 inference-time compute、test-time search、agent scaffolding、工具调用。这个转向本身就在说明，单纯靠预训练扩展拿增益，边际已经没前两年那么陡。Suleyman这段话把硬件供给讲成能力进步的主因，我看着像把必要条件说成了充分条件。还有一层我会更警觉：他说这话的身份是 Microsoft AI CEO。微软现在同时押数据中心 capex、模型分发和 Copilot 收入，叙事上天然需要“墙还很远”。这不代表他说错，但利益相关很强。尤其这篇只是 RSS 摘要，连“更快 basic calculators”具体指哪条路线都没展开，是 Blackwell 级 GPU，还是更长期的 ASIC、光互连、近存计算，正文都没披露。没有这些，读者无法判断他说的是未来 12 个月，还是 3 到 5 年。我自己的判断很简单：短期内，算力扩展不会突然停；经济有效的扩展，已经比“卡更多”苛刻得多。谁能把 HBM、网络、功耗、编排、推理缓存、agent 工作流一起做顺，谁就继续往前；做不顺的团队，账单会先撞墙。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

10:25

65d ago

Product Hunt · AI· rssEN10:25 · 04·09

Rosentic：在合并前抓住互相搞破坏的编码智能体

Rosentic 会在每次 PR 合并前，拿它跟所有其他未合并的 PR 一起做交叉检查。多个编码智能体并行干活时，经常互相改坏对方的代码，单看一个 PR 根本发现不了。Rosentic 声称用确定性分析（同一份代码每次扫结果一样）来抓这种冲突。安装很快：一个 YAML 文件，不用注册，60 秒搞定，跑在你自己的基础设施上。正文没披露具体检测机制、支持哪...

#Agent#Code#Rosentic#Product update

精选理由

HKR-H 和 HKR-R 靠编码 agent 互相破坏这个钩子过关，但 HKR-K 不通过：正文没给检测机制、支持的代码平台、价格或可复现的测试条件。

一句话点评

多智能体并行写代码互相改坏的问题，Rosentic 在合并前做交叉检查。

锐评

Rosentic 解决的是多编码智能体并行开发时的经典问题：Agent A 改了函数签名，Agent B 还在调旧接口，单看各自 PR 完全正常，合到一起就炸。它声称用确定性分析（同一份代码每次扫结果一样）来抓这种跨 PR 冲突，不是概率模型，这点先别太激动——确定性分析意味着规则匹配，不是 AI 推理，误报率可能低但覆盖也有限。安装确实轻：一个 YAML 文件，不用注册，60 秒跑在自己基础设施上，对团队友好。但正文没披露具体检测机制（是静态分析还是运行时追踪？）、支持哪些语言和框架、定价模式，以及“大多数扫描结果干净”这个说法缺乏基准数据——干净的标准是什么？如果只是没改到同一行，那价值有限。对于已经在用多 Agent 编码流水线的团队值得一试，但别指望它能替代人工 Code Review。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:06

65d ago

● P1量子位 · 公众号· rssZH04:06 · 04·09

腾讯推出MoT架构，2B参数的具身模型在22项评测里拿了16项第一

腾讯混元与Robotics X联合发布了HY-Embodied-0.5，核心是一个叫MoT-2B的模型。它总参数量4B，实际干活时只激活2B，在22项具身智能评测中拿了16项第一。训练数据量不小：用了超过1亿条具身数据、600B以上的预训练token、3000多万条中期训练样本，还引入了视觉隐空间token、双向注意力、RFT、强化学习和在线蒸馏。这模...

#Agent#Multimodal#Robotics#Tencent

精选理由

我会先打个折：这还是一次模型发布，不是那种当天就改变行业格局的大事，所以分数没拉到 85 以上。但它的钩子够强——腾讯说 MoT 比 MoE 更适合具身，而且一个激活参数只有 2B 的模型在 22 项评测里赢了 16 项，数字和训练细节也给得实在。对做端侧机器人的从业者来说，这套专门为具身重做的架构和训练链路比通用模型微调有意思得多，所以 H、K、R 都站得住。

一句话点评

腾讯给具身智能模型换了种“思维”架构，2B小模型在22项测试里拿了16个第一，但原文被屏蔽，具体怎么测的、跟谁比的都看不到。

锐评

这条消息说的是腾讯搞了个叫MoT（Mixture of Tokens）的新架构，用在2B参数的具身智能模型上，22项评测里16项拿了最佳。MoT可以理解成把“混合专家”的思路从整段文本细化到单个token级别，让模型在处理每个词时都能动态挑最合适的“专家”模块，理论上更省计算、反应更快。对具身智能这种要在机器人上实时跑的场景，小模型能打是个实在的优势。但问题在于原文被微信屏蔽了，我们看不到具体评测基准、对比对象和实验设置。22项评测是哪些任务？16项最佳是跟多大尺寸的模型比？这些关键信息全缺。另外腾讯自己也没放出模型权重或技术报告，目前只能当一条“宣称很强”的消息看。如果后续有论文或开源，才值得认真评估这个MoT到底是不是真比MoE好用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:59

65d ago

机器之心 · 公众号· rssZH03:59 · 04·09

读代码前先跑5个Git命令？方法火了，网友吵起来了

一篇帖子建议在读别人代码前先执行5个Git命令，引发开发者争论。正文被微信屏蔽，没披露具体是哪5个命令、适用什么仓库、以及争议焦点。如果你好奇，只能去原帖看，这里信息不够。

#Code#Tools#Commentary

精选理由

H和R都成立：标题的钩子明确，争议话题也切中工程师真实场景。但K完全失败——正文一个字都没有，既没披露具体命令，也没交代适用条件和争论焦点。按硬规则，标题级评论且无正文证据，重要性压不到40以上，直接归入excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:32

65d ago

X · @dotey（宝玉）· x-apiZH03:32 · 04·09

用一条指令把手绘风格PPT做出来

baoyu-skills 提供了一个叫 baoyu-slide-deck 的命令，输入“/baoyu-slide-deck 用手绘风格画 <PDF或素材路径>”就能生成幻灯片。正文只给了1个命令示例和2种输入类型，没提用了什么模型、怎么渲染、输出什么格式、要不要钱。想试的话得自己跑一下才知道效果和成本。

#Tools#Multimodal#Commentary

精选理由

钩子成立：一条命令生成手绘幻灯片，入口可复现。但正文信息量极低，只给了命令格式和输入类型，模型、渲染质量、输出格式、价格全部未披露，知识缺口明显。也没有成本对比或团队落地场景，从业者看完没法判断是否值得接入，所以整体属于低带宽的泛关注级。

一句话点评

短评：一个用 baoyu-skills 生成 Slides 的演示，但正文没给任何效果或成本数据，先别激动。点评：这条消息来自 x-dotey，标题说可以用 baoyu-skills 的 baoyu-slide-deck 生成 Slides，但正文是空的，只有标题和来源。目前能确认的是：这个工具存在，且有人（可能是作者）在推荐它。但关键信息全缺——生成速度多快、质量如何、需要多少样本、是...

锐评

baoyu-skills 这条帖文给出 1 条 `/baoyu-slide-deck` 命令，支持 PDF 路径或素材路径 2 类输入。就这点信息，我的判断很直接：它展示的是一个很顺手的调用入口，不是一个已经能拿来比较的 slides 生成器。问题不在“能不能生成 Slides”，而在“生成链路到底落在哪一层”。正文没披露模型、版式引擎、渲染方式、输出格式、价格，也没说是一次性出整套 deck，还是先抽提结构再逐页生成。少了这些，做 AI 工具的人其实没法判断护城河。若它底层只是把 PDF 解析、提纲抽取、模板套版、插图风格化串成一个命令，那价值在产品封装和工作流速度；若它能稳定处理跨页叙事、图表重绘、母版约束、中文字体兼容，那才接近一条独立能力线。现在文章没给证据。我一直觉得 slides 生成是个很容易被演示视频高估的方向。过去一年里，Gamma、Tome 更早期那套叙事，加上 Canva 的 Magic Design，再到不少 agent 工作流，都证明了一件事：首屏效果通常不难，难的是第 20 页还不散，改 3 次需求后版面不崩，导出到 PPT/Google Slides 还能继续编辑。我没看到这条帖文回答这些硬问题。只给“手绘风格”四个字，我反而会警觉，因为风格往往是最容易 demo 化、也最容易掩盖结构问题的部分。还有一个我不太买账的地方：输入写成“PDF 文件路径或者素材路径”，听起来像是面向已经在命令行或本地工作流里的人，不像通用办公产品。这个定位未必差，甚至可能更对开发者胃口。可一旦面向这批用户，大家会立刻追问可复现性：支持多大 PDF、是否保留原页层级、图像抽取用什么 OCR 或 parser、失败重试怎么做、输出是 HTML、PPTX 还是图片集。标题已经给出入口，正文没披露边界，我现在只能把它看成一个值得试手的 skill，而不是一条足够硬的产品信号。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

02:14

65d ago

FEATUREDX · @op7418（歸藏）· x-apiZH02:14 · 04·09

Gemini 应用终于能按项目整理聊天和文件了

谷歌在 Gemini 应用里加了“笔记本”功能，类似 Claude 的 Project，你可以把跟 Gemini 的聊天记录和文件按项目归类放一起。关键点是这个笔记本能直接在 NotebookLM 里打开继续交流，等于把聊天工具和深度研究工具串起来了。正文没披露这个功能是灰度测试还是全量上线，也没说免费版有没有数量限制。

#Tools#Memory#Google#NotebookLM

精选理由

这是一条中等体量的谷歌产品更新。HKR-K 来自两个具体机制——共享笔记本和 NotebookLM 接力；HKR-R 来自项目级上下文管理，对多项目从业者有用；HKR-H 偏弱，因为功能本身是补课。正文没披露上线范围、版本门槛和配额，所以留在 all 层。

一句话点评

谷歌给 Gemini 加了项目文件夹功能，能按主题整理聊天和文件。这功能竞品早有了，但迟到总比不到强。

锐评

这条更新本身不复杂：Gemini 应用终于支持按项目来归置对话和上传的文件了。对日常高频使用的人来说，不用再在一堆聊天记录里翻找，是个实打实的效率提升。但标题也点明了关键——谷歌的迭代节奏确实慢。类似的项目或文件夹整理功能，ChatGPT 和 Claude 早就上线了，谷歌现在才补齐，更像是在填坑而非创新。正文没有提供更多细节，比如项目内是否支持共享、能否设置自定义指令、文件格式和大小有没有限制，这些都没说。信息源是个人博客的 RSS 片段，正文为空，所以没法判断实际体验如何。如果只是简单地把聊天记录归到一个标签下，那价值有限；如果能结合谷歌生态，比如联动 Google Drive 或 Docs，才算有点看头。目前看，先别太激动，等上手实测再说。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

00:33

65d ago

少数派 · 直链· rssZH00:33 · 04·09

智谱发布 GLM-5.1，号称能连续干活 8 小时不歇

智谱发了旗舰模型 GLM-5.1，主打“长程任务”——模型可以自己规划、执行、优化、交付，连续干 8 小时不用人管。代码能力在 SWE-Bench Pro 等三项测试里综合排全球第三，国产和开源里第一，甚至超过了 GPT-5.4 和 Claude Opus 4.6。目前已经开源，也能走 API 调用。不过正文没披露模型参数量、训练成本、推理速度这些关键...

#Zhipu AI#Sony#DeepSeek#Product update

精选理由

这是一条新闻汇总，不是 GLM-5.1 的独立报道。HKR 三项都不满足：文章只给了发布名称，没有规格、价格、基准和可用性，读者无法判断竞争影响；分数低于 40，层级为 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:00

65d ago

Hugging Face 博客· rssEN00:00 · 04·09

Waypoint-1.5：普通显卡也能跑的实时生成世界，画质更高了

Hugging Face 发了 Waypoint-1.5，一个实时视频世界模型，主打在普通消费级显卡上跑出更高画质的交互式生成世界。正文说相比 1.0 版本，训练数据量大了近 100 倍，画面连贯性和运动一致性明显提升。模型分两个档次：720p 版本适合 RTX 3090 到 5090 这类桌面卡，能跑到 60 帧；360p 版本则针对游戏本和即将支持...

#Multimodal#Tools#Hugging Face#Product update

精选理由

标题有吸引力，但正文完全没内容。HKR-H靠'日常GPU+交互世界'这个角度通过；HKR-K因为显存、帧率、方法、代码全缺而失败；HKR-R没有具体成本或性能数字，验证很弱。

一句话点评

Overworld 发布了 Waypoint-1.5，一个能在普通显卡上实时生成 3D 世界的模型。亮点是 RTX 3090 到 5090 上能跑 720p/60fps，还出了个 360p 版给笔记本和苹果芯片用。训练数据比上一代多了近 100 倍，画面连贯性有提升。但正文没披露具体参数量、推理延迟和显存占用，也没说 360p 版在 Mac 上具体什么时候能跑。这点先别太激动，能跑和跑得流畅...

锐评

Hugging Face 这次只公开了 Waypoint-1.5 的名称和“日常 GPU 上更高保真交互世界”这句定位，正文未披露模型机制、显存需求、帧率、分辨率、时长上限，也没有代码链接。我的判断很直接：这条现在几乎没法当成能力发布看，只能当成一个方向预告。对做 world model、interactive simulation、embodied agent 的人来说，缺的不是修饰词，缺的是最基本的复现条件。我对“everyday GPU”这个表述一直比较警觉。8GB 算日常，12GB 算日常，24GB 在很多独立开发者那里也能算日常，但这三档硬件能跑的东西完全不是一回事。要是 Waypoint-1.5 只能在 RTX 4090 或 3090 上低帧率跑 demo，这个标题就有点过。正文连 VRAM 都没给，读者没法判断它是在讲实时交互、低分辨率 rollout，还是离线生成几秒钟可玩的片段。少了这些条件，“higher-fidelity”基本没有信息量，因为 fidelity 至少该落到分辨率、物理一致性、长期时序稳定性、可操作对象数里的一个。我拿过去一年同类叙事对一下，问题会更明显。去年到今年，凡是认真发世界模型或交互环境的团队，至少会给出一组硬指标：比如多少秒视频、多少 Hz 控制、单卡还是多卡、训练数据规模、有没有可交互 benchmark。我记得 Genie 2、Cosmos、还有几条游戏/机器人方向的 world model 公开材料里，都会把“实时性”和“可控性”拆开讲；有的画面更好，但交互一长就崩；有的能闭环，但视觉质量普通。Waypoint-1.5 现在把“更高保真”和“日常 GPU”放在一个标题里，野心不小，可正文没给任何约束条件，这就很难判断它到底解决了哪一层问题。还有一个我不太买账的点：Hugging Face 这个名字天然会让人联想到开放、可跑、可 fork。可这篇条目连最基础的 repo、model card、demo 链接都没有。标题先把预期拉上去，证据完全空着，这种发法对开发者不太友好。你可以说这是 RSS 抓取不完整；如果是这样，当前能见到的信息依然不足，结论也只能保守。说真的，这条后续只要补三样东西，判断就会立刻清楚很多：第一，明确“日常 GPU”对应哪一档显卡和显存；第二，给交互帧率或 step latency；第三，给最小可复现入口，比如 demo 或 checkpoint。没有这三项，我不会把 Waypoint-1.5 计入世界模型竞争格局，只会把它放进“先占标题，再补细节”的那一类。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

00:00

65d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·09

Agent 管线里最贵的模型可能放错了位置：Opus 做规划不如 8B 小模型

AgentOpt 论文（微软研究院，2026年4月）用实验数据打脸一个常见直觉：关键环节用最强模型。在 HotpotQA 的 planner-solver 管线中，Claude Opus 放在 planner 位置准确率仅 31.71%，排名倒数；而把 Ministral 8B（参数量小一个数量级）放 planner、Opus 放 solver，准确率...

#Agent#Tools#Commentary

精选理由

标题钩子成立，但正文只有 RSS 片段，零数据、零机制、零案例，触发硬排除规则（零来源内容），评分上限 40 且直接排除。别被“最贵”带偏，真正该盯的是每个节点的模型放置条件，但文章没给任何可验证信息。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

全部 · 2026-04-09

更多

频道

后台