AX 严选 · 2026-05-12

▸ 28 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-12 · 星期二2026年5月12日

23:13

31d ago

FEATUREDAI HOT 精选· aihot-apiZH23:13 · 05·12

Andrej Karpathy 说，AI 编程账单九成花在了没用的上下文上

Karpathy 点出几个常见的浪费行为：每次请求都把整个代码库丢给模型、用最贵的模型干简单活、Agent 重复发送相同内容。他给的省钱思路是管好上下文、打开提示词缓存、按任务难度分模型——日常用便宜的，关键任务再上贵的，再建一个 SKILL.md 文件避免每次都重新教模型。正文没给出具体测试数据，但逻辑上确实能省。

#Agent#Code#Tools#Andrej Karpathy

精选理由

Karpathy 这条吐槽本身信息量不大，但胜在把“无效上下文”这个老问题用账单浪费的角度重新讲了一遍。我会先打个折：正文没给出具体账单样本或可复现的测试，所以没法验证 90% 这个数字。不过它确实把三种典型浪费场景列清楚了——重复传代码库、杀鸡用牛刀、不开缓存——对正在付钱的开发者有直接参考价值。这点先别太激动，但值得看一眼自己的 API 调用是不是也犯了这些毛病。

一句话点评

Karpathy 说九成 AI 编程账单花在没用的上下文上，比如每次都把整个代码库丢给模型。省钱思路很直白：管好上下文、开缓存、简单活别用贵模型。

锐评

这条推文本身没给测试数据，更像经验总结，但逻辑上确实能省。Karpathy 点出的浪费行为很具体：每次请求都塞整个代码库、用最贵的模型干简单活、Agent 重复发相同内容。他建议按任务难度分模型——日常用便宜的，关键任务再上贵的，再建一个 SKILL.md 文件避免每次都重新教模型。这些操作门槛不高，但效果可能比调参更直接。我会先打个折：正文没披露具体能省多少，也没说这些优化在不同场景下的实际收益。比如提示词缓存对长对话有效，但短任务可能差别不大；多模型路由听起来好，但切换模型可能引入风格不一致的问题。另外，Kimi 2.6 和 Opus 的组合是他举的例子，不一定适合所有人的技术栈。还缺两样东西：一是量化数据，比如开了缓存后延迟和成本具体降了多少；二是边界条件，什么情况下这些优化会失效。如果只是转发观点而没有实测，这条的价值就停在“提醒”层面。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:31

31d ago

FEATUREDAI HOT 精选· aihot-apiZH20:31 · 05·12

OpenAI 演示 Codex 在 Mac 上跨应用后台干活，不用占着你的电脑

OpenAI 开发者账号发了一段演示，Codex 能跨 Mac 应用点击、输入、在后台持续执行任务，不会锁住你的鼠标键盘。视频里 @AriX 和 @romainhuet 聊了这种代理能干的事，但正文没披露发布时间、权限怎么设计、以及这次开放给哪些用户。

#Agent#Tools#Code#OpenAI

精选理由

我会先打个折：正文只有一段演示描述，没给发布时间、权限模型、可用范围，所以重要性停在 76 分。钩子很直接——Codex 能在 Mac 后台帮你跨应用点按钮、填文字，听着像本地 RPA 但由模型驱动。这点先别太激动，因为没交代它怎么拿系统权限、会不会误操作、有没有沙箱。对开发者来说，这要么是桌面 agent 的一大步，要么是个安全坑，得等更多细节。

一句话点评

OpenAI 演示了 Codex 在 Mac 上跨应用后台干活，不占鼠标键盘，但没提什么时候能用、权限怎么管。

锐评

这条演示最直接的价值是：Codex 不再只是帮你写代码，而是能像人一样操作你的 Mac 应用，点击、输入、在后台持续跑任务，还不会锁住你的鼠标键盘。这对需要跨多个工具串流程的开发者来说，省掉的是反复切换和等待的时间。但正文只放了一段视频和几句对话，关键信息全缺。发布时间没给，权限设计没说——它要拿多大的系统权限才能跨应用点击输入？安全边界怎么划？这次是给所有开发者用，还是小范围内测？这些不交代，演示再流畅也只能当概念片看。我会先打个折：后台持续执行听着强，但实际稳定性、应用兼容性、以及出错了怎么回滚，视频里都没展示。等有真实用户跑通完整任务链再判断不迟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:30

31d ago

FEATUREDAI HOT 精选· aihot-apiZH19:30 · 05·12

阶跃星辰发了 Step Image Edit 2，35 亿参数在指令修图榜 KRIS-Bench 上拿了综合、事实、概念三项第一

这个 35 亿参数的图像模型在 KRIS-Bench 指令修图评测里，综合、事实和概念三个类别都排第一，跑赢了参数大它五六倍的模型。能干的事包括文生图、按指令改图、中英文文字渲染，以及保持主体一致的风格迁移。官方说生成快、单次编辑成本低，但没给出具体延迟和价格数字。模型已经上线阶跃开放平台，可以直接用。

#Vision#Multimodal#Benchmarking#StepFun

精选理由

我会先打个折：目前只有厂商自报成绩，没有第三方复现或定价信息，所以别急着全信。但35亿参数能在KRIS-Bench三个子项都排第一，说明小模型做图像编辑这条路走得通，对在意推理成本的人是个好消息。正文没披露训练数据规模和具体推理延迟，这两点会直接影响实际能用在哪。

一句话点评

35亿参数小模型在KRIS-Bench修图评测里拿了三个第一，跑赢大它五六倍的模型，但官方没给延迟和价格，这点先别太激动。

锐评

阶跃星辰发了Step Image Edit 2，一个35亿参数的图像模型，主打指令修图。在KRIS-Bench这个评测集上，综合、事实和概念三个类别都排第一，压过了参数大它五六倍的对手。能干的事包括文生图、按指令改图、中英文文字渲染，还有保持主体一致的风格迁移。官方说生成快、单次编辑成本低，但正文没披露具体延迟数字和价格，也没说明KRIS-Bench的测试集规模和样本分布。35亿参数确实小，推理成本理论上会低，但实际能省多少、响应速度多快，得等上线后自己跑才知道。模型已经上了阶跃开放平台，可以直接用。我会先打个折：榜单第一是好事，但修图类评测主观性强，KRIS-Bench的评分标准是否贴近真实使用场景，正文也没交代。建议拿自己的图跑几组对比，看看文字渲染和风格迁移在复杂场景下稳不稳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:54

31d ago

FEATUREDAI HOT 精选· aihot-apiZH18:54 · 05·12

Anthropic 安全团队用自家 Claude Code 搭了个威胁检测平台，一天出原型、一周上线

Anthropic 的检测平台工程团队用 Claude Code 开发了 CLUE 威胁检测与响应平台。他们一天就做出了概念验证，一周完成交付。这个平台把安全分析员查日志的时间从几小时压缩到了几分钟。文章是团队技术负责人 Jackie Bow 写的，主要讲他们怎么用 Claude Code 自动处理告警、加速调查，但没披露具体用了哪些模型、实际误报率多...

#Agent#Code#Tools#Anthropic

精选理由

这是 Anthropic 安全团队自己吃狗粮的案例，不是 Claude Code 功能发布。CLUE 平台和一天 PoC、一周交付的时间线让它刚好够上 featured 门槛，但我会先打个折——内部案例的通用性还没验证，正文也没披露误报率、处理量这些硬指标。

一句话点评

Anthropic 用自家 Claude Code 一天搭出安全检测平台原型，一周上线。但全文没提误报率和模型版本，效果先打七折。

锐评

这是篇典型的“吃自家狗粮”案例。Anthropic 的安全团队用 Claude Code 开发了内部威胁检测平台 CLUE，把安全分析员查日志的时间从几小时压到几分钟，概念验证一天做完，一周交付。速度确实快，说明用 AI 辅助写安全工具这条路跑得通。但文章是团队技术负责人写的，本质上是产品宣传，不是第三方评测。关键信息全缺：用了哪个版本的 Claude、实际误报率多少、处理多少告警量、有没有漏报。安全产品最怕“狼来了”，如果误报率高，几分钟出结果也没意义。另外，平台跑在 Anthropic 自己的环境里，外部团队复现难度和成本都没提。值得关注的是思路——让模型直接参与告警分诊和调查，而不是只做日志摘要。但落地前得先问清楚：它在你家数据上的准确率，和在这篇博客里一样好看吗？

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:23

31d ago

FEATUREDAI HOT 精选· aihot-apiZH18:23 · 05·12

Claude Opus 4.7 快速模式开放研究预览，API 和 Claude Code 都能用

Anthropic 把 Claude Opus 4.7 的快速模式放出来了，现在可以在 API 和 Claude Code 里用，但还挂着研究预览的标签。正文没提模型参数量、具体定价、调用频率限制，也没说什么时候转正式版。如果是真的快又便宜，对日常开发场景会挺实用，不过这些关键信息都缺着，先别急着切生产环境。

#Inference-opt#Code#Tools#Anthropic

精选理由

我会先打个折：正文只说了开放研究预览，没披露模型大小、定价、速率限制和正式上线时间，所以别当成品看。但这条消息对用 Claude Code 干活的人很实在——快速模式意味着写代码、调工具的等待时间可能明显缩短，工作流会顺很多。信息缺口主要在成本和规模上，没这些数字就没法算账，这点先别太激动。整体判断挂在延迟改善和开发者体验上，信息不够的部分也标清楚了。

一句话点评

Opus 4.7 出了快速模式，但正文没给价格、限频和参数量，先当实验品用，别急着上生产。

锐评

Anthropic 把 Claude Opus 4.7 的快速模式挂上了研究预览标签，现在 API 和 Claude Code 都能调。从命名看，这版主打低延迟，可能适合写代码、做工具调用这类需要即时反馈的场景。但正文只发了一条推文，没披露任何硬指标：模型参数量未知，具体定价没提，调用频率限制也没说，更没给正式上线的日期。我会先打个折。研究预览通常意味着稳定性没保证，接口可能随时改，SLA 大概率不存在。如果团队想切生产环境，至少要等 Anthropic 公布延迟对比数据、成本结构和 rate limit 再说。另外，快速模式是单独训练的小模型还是原版 Opus 4.7 加推理优化，正文也没交代，这直接影响能力边界判断。现在还缺的东西挺多：和 Opus 4.7 标准模式、Sonnet 的延迟与质量对比，实际使用成本，以及预览期间的配额限制。这些信息不出来，就只能当个尝鲜玩具。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:20

31d ago

FEATUREDAI HOT 精选· aihot-apiZH18:20 · 05·12

美国六州司法部长要求 SEC 调查山姆·奥特曼，怀疑他用 OpenAI 给自己捞好处

佛罗里达、蒙大拿等六个州的司法部长联名写信给美国证交会，要求查 OpenAI CEO 山姆·奥特曼有没有利用公司谋私利。信里说奥特曼在 OpenAI 不直接持股，个人能从公司业绩里分到的钱很有限，反而存在严重的自我交易和利益冲突风险。众议院监督委员会主席也让他交出相关投资文件。OpenAI 现在估值 8520 亿美元，但利益冲突审计报告一直没公开。正文...

#Safety#OpenAI#Sam Altman#SEC

精选理由

六州司法部长联名要求 SEC 查山姆·奥特曼有没有借 OpenAI 给自己捞好处，正文给了 8520 亿美元估值这个数字，说明盘子够大、利益关联敏感。我会先打个折：目前只是请求调查，不是 SEC 已经立案，所以分数没再往上拉。审计报告没公开这点让整件事还悬着，先别太激动。

一句话点评

六个州司法部长联名要求 SEC 查奥特曼有没有用 OpenAI 给自己捞好处，公司估值 8520 亿美元但利益冲突审计报告一直没公开。

锐评

这事核心不是奥特曼有没有直接持股，而是他在 OpenAI 不拿股权、个人能从公司业绩里分到的钱很有限，反而让他有动机通过外部投资和关联交易来变现自己的影响力。六个州司法部长联名致信 SEC，众议院监督委员会主席也让他交出投资文件，说明监管层在认真盯这件事。OpenAI 现在估值 8520 亿美元，但利益冲突审计报告至今没公开，正文也没披露具体是哪些交易被质疑、涉及多少金额。这点先别太激动——联名信只是要求调查，不等于已经查出问题。真正要看的是 SEC 会不会正式立案，以及那份审计报告到底写了什么。如果报告继续压着不放，那才是值得担心的信号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:54

31d ago

● P1AI HOT 精选· aihot-apiZH17:54 · 05·12

Anthropic 为法律行业发布 Claude 插件和 MCP 连接器

Anthropic 发布了 20 多个 MCP 连接器和 12 个法律专用插件，让 Claude 能直接操作合同管理系统、研究平台、文档管理和电子取证软件。具体来说，它可以在 Word 里起草和修改合同，在 Outlook 里处理日常法律流程，还能做条款对比。正文没披露这些工具的实际准确率、客户测试数据或定价，所以效果和成本现在还没法判断。

#Agent#Tools#Anthropic#Claude

精选理由

Anthropic 这次不是发模型，而是给 Claude 配了一套法律行业的“工具包”：20 多个 MCP 连接器加 12 个插件，直接嵌进 Word 和 Outlook 里干活，合同起草、修订、条款比对都能做。我会先打个折——正文没披露这些连接器具体覆盖哪些系统、插件是自己做的还是第三方接的，也没给实际客户案例或效率数据，所以“省了多少时间”现在说不清。但方向很明确：让模型进业务流程干活，而且选了一个对准确率要求极高、人工成本也高的行业。如果是真的跑通了，律所和法务团队的重复劳动会被吃掉一大块。这点先别太激动，等看有没有律所站出来说实测结果。

一句话点评

Anthropic 给法律行业打包了 20 多个外接软件连接器和 12 个专用插件，但没公布实际律所测试数据和出错率。

锐评

Anthropic 这次不是发新模型，而是给 Claude 配了一套法律行业的“外挂工具包”：20 多个 MCP 连接器用来打通合同管理、电子取证、文档系统这些律所日常软件，12 个插件针对具体法律业务场景做定制。说白了就是让 Claude 能直接读你系统里的案卷、合同，而不是靠人复制粘贴。文章提到法律从业者是 Claude Cowork 功能里最活跃的知识工作者群体，这个数据挺有意思，说明律师们确实在用。但整篇博文没给出任何一家律所的实际部署案例，也没提幻觉率、引用准确率这些法律场景最要命的指标。法律文书错一个条款引用就是大麻烦，光说“连接上了”不够。还缺的东西很明确：第三方律所的测试反馈、具体任务上的准确率对比、以及这套工具包到底怎么收费。没有这些，这更像一份产品路线图而不是交付证明。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:35

31d ago

FEATUREDAI HOT 精选· aihot-apiZH17:35 · 05·12

GitHub Copilot 个人版新增弹性配额，并推出更高配的 Max 计划

GitHub 在 2026 年 6 月 1 日调整了 Copilot 个人版套餐，Pro 和 Pro+ 用户会获得一个弹性配额，用来调用更高级的模型或功能，超出部分怎么算正文没细说。同时新加了一个 Max 计划，定位比 Pro+ 更高，但具体价格、配额上限和分配规则都没公布。简单讲就是给个人用户更多选择，但关键数字全藏着，现在没法判断性价比。

#Code#GitHub#GitHub Copilot#Product update

精选理由

我会先打个折：这条更新对用 Copilot 写代码的人挺实在，弹性配额意味着可能不用被固定额度卡脖子，Max 计划听起来像给重度用户准备的。但正文没披露价格、额度上限和具体怎么分配，这点先别太激动。HKR 三项都踩中了，但信息缺口明显，所以放在 featured 低位，等价格和规则出来再重新评估。

一句话点评

Copilot 个人版要加弹性配额和更贵的 Max 档，但价格、额度、怎么扣费全没公布，现在只能当个预告看。

锐评

GitHub 宣布 6 月 1 日起调整 Copilot 个人版套餐，Pro 和 Pro+ 用户会拿到一个弹性配额，用来调用更高级的模型或功能。但正文没写配额具体是多少、超出后怎么收费，也没说哪些模型算“高级”。同时新增的 Max 计划定位比 Pro+ 更高，价格和权益同样没披露。这次调整的核心是把“用更好的模型”从无限畅饮改成限量供应，对重度用户影响可能不小。但关键数字全藏着，现在没法判断是变相涨价还是真给选择。建议等 6 月细则出来再算账，别急着升级。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:34

31d ago

● P1AI HOT 精选· aihot-apiZH17:34 · 05·12

谷歌在 Android Show 2026 上发了新助理 Android Intelligence，能跨 App 自动干活

谷歌这次推的 Android Intelligence 是一个系统级智能助理，主打跨安卓应用的多步骤自动化任务，比如你让它订咖啡、回消息、填表，它可以自己切 App 完成。Chrome 里的 Gemini 也加了浏览器操作能力，能直接帮你操作网页。另外还有语音笔记转文字功能叫 Rambler，以及可以自定义的生成式 UI 小组件。整场发布没提具体推送时...

#Agent#Tools#Audio#Google

精选理由

这条消息抓人是因为安卓系统级的智能助理，能跨 App 自动操作，不是某个 App 的小修小补。具体放出的功能点挺实在：Chrome 里让 Gemini 直接帮你用浏览器、自动填表、语音转文字，还有可定制的小组件，都是开发者能马上摸到的界面。正文没给技术细节和实际延迟数据，所以效果先打个折。但这件事本身是移动 AI 代理的卡位战，对做工具和分发的团队来说，风向意义大于单点功能。

一句话点评

谷歌把 Gemini 塞进安卓系统层，能跨 App 自动干活了，但正文没提推送时间、支持机型和收费方式，先别急着换手机。

锐评

这次 Android Intelligence 的核心是把助手从“回答问题”变成“动手操作”：它能自己切 App 帮你订咖啡、回消息、填表，Chrome 里的 Gemini 也能直接操控网页。这比之前单 App 内的 AI 功能进了一步，相当于让模型进入业务流程干活。但整场发布没披露具体推送时间、哪些设备能用、是否收费，这些信息缺口让实际落地效果要打个折。另外，Rambler 语音笔记转文字和自定义生成式 UI 小组件听起来实用，但没给准确率、延迟或隐私处理细节。对开发者来说，系统级权限和跨 App 调用的稳定性会是关键，目前还看不到技术白皮书或 API 文档。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:27

31d ago

AI HOT 精选· aihot-apiZH17:27 · 05·12

Symphony给每个任务单独开一个Codex智能体

Symphony的做法是：每个未完成的任务都配一个常驻的Codex智能体，相当于给每个活儿派一个专属AI助手一直盯着。正文没披露什么条件下会触发、最多能同时跑多少个任务、以及怎么收费，所以实际能用多顺、成本多高还不清楚。

#Agent#Code#Symphony#OpenAI

精选理由

HKR全过，因为工作流挂钩具体，但正文只给了“每任务一个智能体”这个点，触发条件、并发限制和定价全没披露，属于60–71分的小产品更新区间。

一句话点评

Symphony 给每个未完成任务配一个常驻 Codex 智能体，相当于每个活儿都有专属 AI 助手盯着。好处是任务不用排队等调度，但正文没披露触发条件、并发上限和收费方式，实际顺不顺、贵不贵还不清楚。短评：常驻 Agent 听着省心，但并发和成本没交代，先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:05

31d ago

FEATUREDAI HOT 精选· aihot-apiZH17:05 · 05·12

Google 用 ADK 搭了一个能跑几周不丢上下文、会自己暂停和恢复的 AI 助手

Google 开发者博客发了一篇教程，用自家的 Agent Development Kit（ADK）搭了一个“新员工入职协调助手”。这个助手能跑好几周：发完欢迎邮件就自己暂停，等员工签完文件再继续，中间还能把装电脑的活派给另一个专门的小助手，最后发一份定制的第一天日程。文章没给具体性能数据，但重点讲了三个让 demo 变生产可用的架构思路：用结构化的持...

#Agent#Reasoning#Memory#Google Developers

精选理由

Google Developers 这篇教程没发新模型或新平台，但把长时运行智能体的持久化机制讲得很实在：状态机管流程、会话存储保上下文、Webhook 接外部系统。我会先打个折，因为只是工程实践分享，不是重大发布，但对正在落地 agent 的团队来说，这种能跑几天不丢状态的方案比很多 demo 更有用。

一句话点评

Google 用自家 ADK 搭了个能跑几周的入职助手，靠状态机+外挂存储让 agent 暂停后不丢上下文，但没给性能数据。

锐评

这篇是 Google 开发者博客的教程，用 Agent Development Kit（ADK）做了一个“新员工入职协调助手”的 demo。这个助手能跑好几周：发完欢迎邮件就自己暂停，等员工签完文件再继续，中间还能把装电脑的活派给另一个专门的小助手，最后发一份定制的第一天日程。文章没给具体性能数据，但重点讲了三个让 demo 变生产可用的架构思路：用结构化的持久状态机记录“现在该干什么”，用持久会话存储把上下文存下来，再用事件驱动的 webhook 在外部事件发生时唤醒 agent。多 agent 之间通过委托来分工，主助手把子任务派给子助手，自己继续等。这套设计解决了一个实际问题：现实里的业务流程经常要等好几天，模型不能一直开着烧钱。暂停-恢复机制让 agent 只在有事干的时候才跑，能省不少计算成本。但文章没提大规模部署时的延迟、并发上限和存储成本，也没说如果子助手挂了怎么恢复。这些是真正上生产前必须搞清楚的事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:59

31d ago

AI HOT 精选· aihot-apiZH16:59 · 05·12

AI 取代人类？先看看谁在靠这个说法赚钱

吴恩达说“AI 导致大规模失业”是夸大其词，证据是软件工程师招聘依然强劲、美国失业率也低。他点破背后动机：AI 公司拿员工薪资对标来抬价，企业借 AI 解释裁员，教育机构靠制造焦虑卖课，媒体追流量。实际净增岗位远超替代，AI 改变的是工作性质而非摧毁就业。正文没披露具体净增数据来源，这点先别太激动。

#Andrew Ng#Commentary

精选理由

HKR-H和HKR-R通过：角度有争议性，且紧扣从业者的岗位焦虑。HKR-K不通过：正文没有给出任何可验证的招聘率、失业率数字或机制，停留在观点评论层面，因此归入常规评论区间。

一句话点评

吴恩达给AI失业论泼冷水，核心论据是软件工程师招聘依然强劲、美国失业率低。他点破背后利益链：AI公司拿员工薪资对标抬价，企业借AI解释裁员，教育机构卖焦虑课，媒体追流量。实际净增岗位远超替代，AI改变的是工作性质而非摧毁就业。正文没披露净增数据来源，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:24

31d ago

FEATUREDAI HOT 精选· aihot-apiZH16:24 · 05·12

Anthropic 在 Code w/ Claude SF 2026 上给开发者工具加码：Claude Code 调用频率翻倍，托管智能体新增记忆审查、多...

Anthropic 在旧金山的年度开发者大会上宣布了几项更新。Claude Code 的速率限制直接翻了一倍，Opus 模型的 API 调用上限也提高了，对重度用户来说不用那么频繁撞墙了。Claude 平台上的托管智能体（hosted agents）这次加了四个新功能：记忆审查，让智能体能回顾之前的对话；多智能体委派，可以把任务分给其他智能体去干；输出...

#Agent#Code#Tools#Anthropic

精选理由

Anthropic 这次更新有具体数字和功能列表，不是画饼。速率翻倍对重度用户是实打实的改善，托管智能体加 4 项功能也说明他们在推 agent 落地。没有新模型发布，所以重要性在 78–84 这个区间合理。

一句话点评

Anthropic 给 Claude Code 和 Opus 提了速率上限，重度用户不用频繁撞墙了，但没公布新模型，更像一次开发者体验补丁。

锐评

这次旧金山开发者大会没有新模型发布，主要是给现有工具松绑。Claude Code 的速率限制直接翻了一倍，Opus 模型的 API 调用上限也提高了，对高频使用者来说，被限流打断的体验会好一些。托管智能体（hosted agents）加了四个功能：记忆审查让智能体能回顾之前的对话，多智能体委派可以把任务分给其他智能体去干，输出标准用来约束回答格式，webhooks 则让智能体能对外发通知。这些功能让智能体更像一个能协作、能记住上下文、能按规矩交活的角色，而不只是单次问答。不过，正文没披露具体的数字门槛——翻倍是从多少提到多少、Opus 上限放宽到什么程度，都没说。也没提这些改动对延迟或成本的影响。如果你在重度用 Claude Code 做开发，可以期待少撞几次墙，但别指望性能有质变。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:08

31d ago

AI HOT 精选· aihot-apiZH16:08 · 05·12

Perceptron Mk1 视觉语言模型上线 OpenRouter，能看视频还能输出空间结构

Perceptron Mk1 是一个能分析视频的视觉语言模型，刚上线 OpenRouter。它最高每秒看 2 帧画面，有 32k 的多模态上下文窗口，可以同时处理文字和图像。亮点是它把点、框、多边形这些空间结构作为主要输出，而不是只给一段文字描述，适合做具身推理或视频理解。不过正文没披露具体价格和延迟，实际跑起来成本高不高、快不快还不清楚。

#Multimodal#Vision#Reasoning#Perceptron Inc.

精选理由

一条小模型上架 OpenRouter 的常规更新，亮点是 2 FPS 视频分析和 32k 多模态上下文，但公司本身没号召力，也没披露成本或应用场景，所以落在 60–71 这个区间。

一句话点评

Perceptron Mk1 是个能看视频的视觉语言模型，刚上 OpenRouter。它每秒最多看 2 帧，有 32k 上下文窗口，输出不是文字而是点、框、多边形这些空间结构，适合做具身推理或视频理解。但正文没披露价格和延迟，实际跑起来快不快、贵不贵还不清楚。短评：输出空间结构而非文字，适合具身推理；但没价格和延迟，先别激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:54

31d ago

FEATUREDAI HOT 精选· aihot-apiZH15:54 · 05·12

开放模型生态如何滚起雪球

作者 Nathan Lambert 从中国 AI 圈几乎全员开源的现状出发，聊了聊开放模型生态真正的省钱逻辑。核心判断是：造前沿模型的大头成本不在最终训练，而在研发试错，这部分算力开销可能占到 80%。中国各家实验室通过详细技术报告和刻意分享，相当于帮同行排了雷，避免重复烧钱做实验，形成了一种靠信息共享降低未来研发成本的复合增长。文章也指出，开源 AI...

#Fine-tuning#Open source#Commentary

精选理由

这篇文章不是产品发布，而是一篇评论，核心观点是开源模型生态正在自我强化。我会先打个折：正文没披露下载量的绝对基数，200% 的环比增长到底是从 1 万涨到 3 万还是从 100 万涨到 300 万，差别很大，这点先别太激动。但它把开源模型的扩散、微调、再发布串成一个复合增长飞轮，这个框架比单纯报数字更有价值。对做模型选型和成本估算的从业者来说，这个趋势意味着国产开源模型的可用性在快速爬坡，值得关注。

一句话点评

造前沿模型的大头成本不在最终训练，而在研发试错，这部分算力可能占到80%。中国各家实验室靠详细技术报告互相排雷，省掉重复烧钱，这才是开源真正的省钱逻辑。

锐评

Nathan Lambert 这篇文章把开源模型省钱这件事讲得比较实在。核心判断是：造一个顶尖模型，80%的算力都烧在研发试错上，而不是最后那一次完整训练。这个数字来自 Ai2 和 Epoch AI 的两份研究，虽然误差范围不小，但方向是对的。中国 AI 圈几乎全员开源，各家通过详细技术报告和刻意分享，相当于帮同行排了雷，避免重复踩坑烧钱，形成了一种靠信息共享降低未来研发成本的复合增长。但文章也点出了开源 AI 和传统开源软件的根本区别：软件开源是用户越多修 bug 越便宜，而开源模型几乎全部成本都压在开发者身上。开放模型降低的是未来的研发成本，不是即插即用的产品价格。如果你只是拿来就用、不做深度定制，闭源的托管方案反而更便宜，因为人家靠规模效应摊薄了成本。文章没展开讨论的一个缺口是：这种互相排雷的模式能持续多久。目前各家还是会 fork 开源工具做成内部版本，真正开放的 RL 训练方案（比如 MoE 架构的大规模强化学习）其实还没有公开的成熟配方。如果核心环节继续半开半闭，这个生态的省钱效应会打折扣。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:43

31d ago

AI HOT 精选· aihot-apiZH15:43 · 05·12

Grok 接上 Gmail，用大白话翻邮件

Grok 现在能连你的 Gmail，用自然语言搜邮件、找附件（比如机票、发票）、按发件人或时间段汇总内容，还能提取会议和截止日期，生成摘要。说白了就是把收件箱变成能对话的资料库，不用再手动翻。但正文没披露什么时候开放、要不要额外付费、以及哪些账号能用，这点先别太激动。

#Agent#Tools#Grok#Gmail

精选理由

这是 xAI 一个中等偏小的产品更新，来源只有 X 上一条消息。上线范围、权限模型和收费方式都没披露，所以放在 all 而不是 featured。

一句话点评

Grok 现在能直接连 Gmail，用自然语言搜邮件、找附件、按人按时间汇总，还能提取会议和截止日期。说白了就是把收件箱变成能对话的资料库，不用再手动翻。但正文没披露什么时候开放、要不要额外付费、以及哪些账号能用，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:15

31d ago

FEATUREDAI HOT 精选· aihot-apiZH15:15 · 05·12

在 Claude Code 里装 OpenAI 官方 Codex 插件，让两个模型搭伙干活

作者在 Claude Code 的插件市场里加了 OpenAI 的官方库，把 Codex 插件装好、重载、配完就能用。这么做的思路来自 HeavySkill 论文的“重思考”方法：让多个模型各自独立推理，再找一个模型当主持人把思路揉到一起，提高最终回答质量。作者现在搭的 Skill 就是 Claude Code 负责推理，Codex 当主持人。正文没提...

#Agent#Reasoning#Tools#Anthropic

精选理由

HKR 三项都成立：跨模型插件调用有新闻性，安装路径可操作，对 AI 开发工作流有实际影响。但这是一篇教程型分享，不是模型或平台发布，所以只给 featured 低档。

一句话点评

Claude Code 里装 Codex 插件，让 Claude 推理、Codex 当主持人揉答案，思路来自 HeavySkill 的“重思考”方法。正文没给实测效果，先当玩法看。

锐评

这条分享了一个实操玩法：在 Claude Code 的插件市场里直接装 OpenAI 的 Codex 插件，配好就能用。核心思路来自 HeavySkill 论文的“重思考”——让多个模型各自独立推理，再找一个模型当主持人把思路揉到一起，提高最终回答质量。作者搭的 Skill 是 Claude Code 负责推理，Codex 当主持人。这个做法有意思的地方在于跨模型协作，不是简单换模型，而是让两个模型分工。但正文只给了安装步骤，没披露任何对比数据：揉完之后的回答到底比单用 Claude Code 好多少、延迟增加多少、成本翻了几倍，全都没提。HeavySkill 论文本身的效果验证也没被引用到这里，所以这个 Skill 的实际收益还悬着。我会先打个折：思路值得跟，但没看到跑分之前别急着把它当生产方案。还缺三样东西：一是具体任务的准确率对比，二是推理延迟和 token 消耗，三是 Codex 当主持人时会不会引入新的偏见或错误。这些补上了才能判断是真提效还是多花钱买热闹。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

31d ago

FEATUREDAI HOT 精选· aihot-apiZH15:00 · 05·12

GitHub 员工用 Copilot CLI 把代码库变成了地牢探险游戏

一个 GitHub 工程师拿 Copilot CLI 做了个扩展，能把任意代码仓库解析成 Roguelike 风格的地牢地图。核心机制是程序化生成关卡——说白了就是让代码结构自动变成房间和走廊。这更像一个创意编程和游戏原型 demo，展示 Copilot CLI 除了敲命令，还能用来快速搭出带交互的终端小玩意。正文没披露生成一张地图要多久、支持多大的代...

#Code#Tools#GitHub#Product update

精选理由

HKR-H 和 HKR-K 都成立：GitHub 官方教程里藏了个新奇的 Demo，机制也讲清楚了。但它不是 Copilot 核心能力的大更新，正文没给性能指标、定价或基准数据，就是个教程级别的 featured，我会先打个折，别当重磅发布看。

一句话点评

一个工程师用 Copilot CLI 把代码仓库变成了地牢地图，更像创意编程 demo，别当产品更新看。

锐评

这是 GitHub 工程师自己做的一个小扩展，核心玩法是把任意代码仓库解析成 Roguelike 风格的地牢——代码结构自动变成房间和走廊。它想展示 Copilot CLI 不止能敲命令，还能快速搭出带交互的终端小玩意。正文没披露生成一张地图要多久、支持多大的代码库、地图可玩性到底怎么样。这些关键指标全缺，所以目前只能当个创意原型看，离实际能用还有距离。如果你对程序化生成或终端游戏感兴趣，这个思路挺好玩；但如果你想知道 Copilot CLI 在生产环境能省多少事，这条信息帮不上忙。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:46

31d ago

AI HOT 精选· aihot-apiZH14:46 · 05·12

Runway 办了个“还没拍出来的节目”提案赛，二十强出炉

Runway 搞了个叫“尚未存在的节目”的提案比赛，刚公布了二十位获奖者，前五名的提案展示已经可以看。正文没披露评委是谁、奖金多少、评选标准是什么，所以目前只能当个创意征集活动来看，离实际落地还有距离。

#Commentary

精选理由

HKR里H勉强过关，因为比赛概念有点新鲜感；但K和R都不行——这读起来像Runway社区的一个比赛通知，没有评审细节、奖金条款、制作计划或产品机制，对AI从业者来说信息量不足。

一句话点评

Runway 搞了个“尚未存在的节目”提案比赛，刚公布二十强，前五名展示已可看。目前信息有限，评委、奖金、评选标准都没披露，只能当创意征集看，离落地还远。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

13:50

32d ago

FEATUREDAI HOT 精选· aihot-apiZH13:50 · 05·12

Hassabis 重申 AI 最该用来改善健康，Isomorphic Labs 拿到 21 亿美元加速药物研发

Demis Hassabis 发推说，他一直认为 AI 的首要应用是改善人类健康。这条线从 AlphaFold 开始，现在 Isomorphic Labs 正在用 AI 重新设计药物发现流程，目标是攻克所有疾病。公司刚融了 21 亿美元新资金来提速。推文没展开说这笔钱具体怎么花、用在哪些管线或技术上，也没给时间表。

#Demis Hassabis#Isomorphic Labs#Funding#Commentary

精选理由

Demis 这次表态不是空话，背后是 Isomorphic Labs 刚融了 21 亿美元。我会先打个折：正文没披露具体管线进展或临床数据，所以现在还看不到 AlphaFold 直接变成药的证据。但 21 亿这个数字本身就说明资本在押注 AI 缩短药物研发周期，从业者可以把它当成一个信号——AI 在生物制药的落地速度可能比预想快，只是验证周期长，这点先别太激动。

一句话点评

Hassabis 说 AI 最该用来改善健康，Isomorphic Labs 刚拿了 21 亿美元。但推文没讲钱怎么花、攻哪些病、多久能看到东西，先当愿景看。

锐评

Hassabis 这条推文更像表态，不是产品更新。他把 AlphaFold 到 Isomorphic Labs 的线拉出来，强调 AI 的首要应用是改善人类健康，这个判断本身没问题，但正文没给任何新数据或里程碑。21 亿美元融资是实打实的数字，说明资本市场愿意为 AI 制药买单，可钱投进去之后，管线进度、靶点选择、跟传统药企的对比，全都没提。我会先打个折：这笔钱能加速到什么程度，取决于 Isomorphic 能不能把 AlphaFold 的结构预测优势，真正转化成缩短临床试验周期的能力。现在还缺临床前验证结果、合作药企名单和具体疾病领域的时间表，光靠一条推文撑不起“攻克所有疾病”的叙事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:24

32d ago

AI HOT 精选· aihot-apiZH13:24 · 05·12

微软发布材料科学多任务模型MatterSim-MT，可同时模拟多种物性

微软研究院的MatterSim团队推出了MatterSim-MT，一个能同时模拟多种材料物性（不止是势能面）的多任务模型。正文没披露模型参数量、训练数据规模、具体评测基准以及是否开源，所以目前没法判断它比单任务模型强多少、成本高不高。如果真能一个模型搞定多个物性模拟，对材料筛选这类场景会省不少事，但具体效果还得等更多细节。

#Reasoning#Microsoft Research#MatterSim#Research release

精选理由

触发硬排除规则4：材料科学AI交叉，没有agent或产品落地含义。HKR-K 有模型名和能力描述，但参数、数据集和评测结果均未披露，信息缺口明显。

一句话点评

微软研究院的MatterSim-MT号称能同时模拟多种材料物性，不止是势能面。但正文没披露模型参数量、训练数据规模、具体评测基准以及是否开源，所以目前没法判断它比单任务模型强多少、成本高不高。如果真能一个模型干多个活，对材料筛选这类场景会省不少事，但具体效果还得等更多细节。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

12:26

32d ago

FEATUREDAI HOT 精选· aihot-apiZH12:26 · 05·12

想让 AI 当个人管家？先得把你在淘宝、京东、美团上的消费记录弄出来

作者实测了五个主流消费平台的数据导出方法。淘宝自带导出功能；京东没有官方支持，但作者用 Codex 写了个 Chrome 插件，能一键导出订单，代码已开源在 GitHub；饿了么可以申请导出 Excel；美团外卖目前完全没办法导出；大众点评的收藏列表也能通过定制插件导出来。作者把京东和大众点评的工具都开源了，目的是让用户拿这些消费数据喂给 AI Age...

#Agent#Tools#Taobao#JD.com

精选理由

这篇文章不是平台官方发布，是一个开发者的实操记录，所以重要性停在 featured 档。但 H、K、R 三项都踩中了：用订单数据喂 AI 助手这个切入点够抓人，5 个平台的具体导出方式是新事实，开源工具直接降低了数据可移植性的实现成本。我会先打个折——正文没披露导出数据的字段完整度和后续清洗工作量，这点先别太激动，但作为动手参考已经够用。

一句话点评

实测五个平台数据导出：淘宝自带、京东靠开源插件、饿了么可申请、美团外卖没戏。工具已开源，但别急着把消费记录全喂给 AI。

锐评

这条分享的价值在于动手验证，不是画饼。作者没停留在“AI 管家需要数据”的口号上，而是把淘宝、京东、饿了么、美团外卖、大众点评五个平台的导出路径挨个走了一遍。结论很具体：淘宝自带导出功能，京东没有官方支持，但用 Codex 写了个 Chrome 插件一键导出订单，代码已开源在 GitHub；饿了么可以申请导出 Excel；美团外卖目前完全没办法；大众点评的收藏列表也能通过定制插件导出来。我会先打个折：这更像个人工具链分享，不是产品更新。正文没披露这些导出数据的字段完整度、格式是否统一、有没有脱敏风险。把消费记录直接喂给 AI Agent 做个性化分析，听起来挺省钱，但隐私和准确性都没提。另外，Codex 写的插件稳定性、维护成本也没说。还缺两样东西：一是这些数据实际接入 Agent 后的效果验证，哪怕一个例子也好；二是平台政策风险——非官方导出接口随时可能被封。这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:04

32d ago

AI HOT 精选· aihot-apiZH10:04 · 05·12

GPT-4o + Kling AI 联手生成超写实 F1 直播截图，连压缩伪影都复刻了

有人用 GPT image 2（GPT-4o 的图片生成功能）和 Kling AI，按详细提示词合成了一张 F1 电视转播视角的截图。画面里一位年轻女性戴着赛车耳机、神情紧张，身份特征从参考图里保住了；背景加了“FINAL LAP”横幅、计时塔和直播标识。最狠的是连压缩伪影、肤质和 8K 画质都模拟了，看起来就像真从电视上截的。不过正文没披露用了多少样...

#Multimodal#Vision#Kling AI#GPT

精选理由

HKR 的 H 和 R 都达标，但正文就是一个生成演示，没给完整提示词、设置或可复现的测试。没有产品发布或新能力展示，所以兴趣度偏低。

一句话点评

有人用 GPT image 2 + Kling AI 按提示词合成了一张 F1 电视转播截图，连压缩伪影和 8K 画质都模拟了，看起来像真从电视上截的。身份特征从参考图保住了，背景加了“FINAL LAP”横幅和直播标识。但正文没披露用了多少样本、跑了多少轮，也没说参考图分辨率多高、有没有人工精修。如果真能一张图搞定广播级细节，那做广告素材或影视预可视化能省不少钱。不过目前只是单张 demo...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:55

32d ago

FEATUREDAI HOT 精选· aihot-apiZH03:55 · 05·12

全国首例 AI 代写“种草笔记”案宣判，工具方被判赔平台 10 万元

杭州中院判了一个案子：两家公司做了一个 AI 写作工具，能一键生成某社交平台风格的“种草笔记”和旅游攻略，还诱导用户把 AI 写的东西发到平台上。平台方告他们不正当竞争，法院最后判这两家公司赔 10 万元。判决里提了一个“四要素判定法”来界定 AI 服务提供者有没有尽到注意义务：一看是不是生成式 AI 服务，二看是不是针对特定平台场景做的（比如直接用了...

#Safety#杭州市中级人民法院#B 公司#C 公司

精选理由

杭州中院判的这个案子，是第一次有法院对 AI 代写种草笔记说不正当竞争。B 公司和 C 公司赔了平台 10 万块，钱不算多，但信号很清楚：用 AI 批量生产虚假体验笔记，平台可以告，而且能告赢。法院还提了个四要素判定法，相当于给这类纠纷画了条线，以后类似案子大概率会参考。正文没披露具体用了什么模型、怎么训练的，也没说有没有上诉，所以细节还比较薄。我会先打个折，等有判决书全文或者更多技术细节再往上调。

一句话点评

杭州中院判了全国首例 AI 代写“种草笔记”案，工具方赔了平台 10 万元。法院用“四要素判定法”划了条线：AI 工具不能定向模仿特定平台风格、诱导用户发假内容来赚钱。

锐评

这个案子给做 AI 写作工具的人敲了警钟。两家公司做了一个能一键生成某社交平台风格“种草笔记”的工具，会员费从月付 40 元到终身 168 元，还直接用了平台的命名和调性做宣传，诱导用户把 AI 编的假体验发上去。法院认为这破坏了平台靠真实分享攒下的内容生态，构成不正当竞争，判赔 10 万元。判决里最有信息量的是那个“四要素判定法”：一看是不是生成式 AI 服务，二看是不是针对特定平台场景做的，三看有没有诱导用户发假内容，四看是不是商业行为。这四点全中，就没跑了。这个框架比单纯说“AI 不能造假”要具体，以后类似纠纷大概率会参考它。不过报道没提这 10 万元是怎么算出来的，也没说被告靠这个工具赚了多少钱。如果违法所得远高于赔偿额，那威慑力就得打个折。另外，判决只约束了工具提供者，那些用工具批量发假笔记的用户和 MCN 机构怎么追责，正文也没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:42

32d ago

FEATUREDAI HOT 精选· aihot-apiZH03:42 · 05·12

npm 大规模供应链投毒，TanStack、Mistral AI 等 160 多个包被植入窃密代码

安全机构 Socket 发现一起名为“Mini Shai-Hulud”的供应链攻击，攻击者利用 GitHub Actions 的三个漏洞，在 npm 上发布了近 373 个恶意版本，覆盖 160 多个包名。受影响的不只是 TanStack 旗下的 84 个包（其中 @tanstack/react-router 周下载量超 1200 万次），还包括 Mi...

#Code#Tools#Safety#Socket

精选理由

这条是实打实的安全事件，不是模型或产品发布，所以分数没往上拉。Socket 的发现够硬，但正文里没提有独立复现或公开的论文/代码仓库，我会先打个折，78 分合理。

一句话点评

npm 供应链攻击波及 TanStack、Mistral AI 等 160 多个包名，安装时直接偷 AWS/GCP/GitHub 密钥。这点先别太激动，正文没披露实际受影响用户数，只说了恶意版本数量。

锐评

这次攻击不是偷 npm 账号密码，而是利用 GitHub Actions 的三个漏洞组合，绕过了双重验证，直接用 OIDC 信任链把恶意包推到 npm 上。攻击者在一个叫 voicproducoes 的账号下搞了个孤儿提交，里面塞了 2.3MB 的混淆脚本，安装时自动跑起来，从 AWS、GCP、Kubernetes、GitHub 等十几个常用位置搜刮密钥和 SSH 私钥，然后加密上传走人。受影响的包覆盖 @tanstack、@mistralai、@uipath 等命名空间，总共 373 个恶意版本。像 @tanstack/react-router 周下载量超 1200 万次，传播面确实大。但正文只列了恶意版本号，没说这些版本在 npm 上存活了多久、实际有多少人下载安装了恶意版本，也没给出受影响用户的通知渠道或自查方法。 TanStack 事后复盘把攻击链归因于 pull_request_target 的"Pwn Request"模式、跨 fork 缓存投毒和内存里扒 OIDC 令牌，这三个洞单独看都不新鲜，组合起来确实难防。还缺一个关键信息：攻击者到底有没有用偷来的密钥干别的事，还是只完成了窃取和外传。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:08

32d ago

AI HOT 精选· aihot-apiZH03:08 · 05·12

答案之外：信息呈现方式正成为AI智能层的一部分

SiliconFlowAI 认为，让大模型输出 HTML 比默认的 Markdown 能做出更丰富的排版和交互，是个值得试的技巧。长远看，人类喜欢用语音输入，但视觉（图像、动画、视频）才是更好的输出形式——因为大脑约三分之一的皮层专门处理视觉。AI 输出会沿着“原始文本→Markdown→HTML→交互式神经视频/模拟”这条路演进，最终可能由扩散模型直...

#Multimodal#Vision#Tools#SiliconFlowAI

精选理由

H和R靠输出格式这个角度勉强过关，但K完全不过：没有数据、实验、来源或具体案例支撑，按硬排除规则6，分数压在40以下。

一句话点评

短评：输出格式从 Markdown 换 HTML 就能提升交互，这招成本低、见效快，值得一试。但别急着吹“视觉革命”，正文没披露具体效果和用户反馈。 SiliconFlowAI 提了个实用技巧：让大模型输出 HTML 而非默认 Markdown，能直接做出更丰富的排版和交互，比如按钮、图表。这招几乎零成本，适合快速提升产品体验。长远看，他们画了条路线：原始文本→Markdown→HTML→...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:19

32d ago

● P1AI HOT 精选· aihot-apiZH02:19 · 05·12

Mira 的新公司 Thinking Machines 发了个原生多模态交互模型，前台 200 毫秒一响应，后台跑长线推理

这个模型把音频、视频、文字直接吃进去，不用再靠 agent 把一堆独立模型串起来。前台交互模型每 200 毫秒处理一次输入，保持对话的实时感，用户可以随时打断；后台推理模型负责长程规划和调工具。正文没披露具体参数量、训练数据和成本，也没给评测对比，所以实际效果和泛化能力还得看后续公开信息。

#Multimodal#Audio#Tools#Thinking Machines

精选理由

我会先打个折：正文没披露定价、开放范围和具体 benchmark，所以只能按现有信息给到 87。亮点在于 Thinking Machines 没有只发模型权重，而是给了一套前台 200 毫秒交互节点加后台推理的分层设计，原生多模态输入不是后期缝合的。这对正在折腾实时多模态 agent 的团队来说，至少提供了一个可参考的架构思路，但没看到代码或论文之前，不宜再往上拉。

一句话点评

Thinking Machines 发了个原生多模态交互模型，前台 200 毫秒一刷保持实时感，后台另跑推理做重活。正文没给参数量、训练数据和评测，效果先打七折。

锐评

Mira Murati 离开 OpenAI 后搞的 Thinking Machines 终于亮出了第一个产品。这个模型最大的卖点是原生多模态，音频、视频、文字一口吃进去，不用像现在很多方案那样靠 agent 把语音识别、视觉、语言模型串成流水线。架构上分了两层：前台交互模型每 200 毫秒处理一次输入，保证对话不卡顿，用户可以随时插话打断；后台推理模型负责长程规划和调工具。这种设计思路挺务实，把实时交互和重度推理拆开，各干各的。但正文没披露任何硬指标。参数量多大、训练数据从哪来、推理成本多少、跟 GPT-4o 或 Gemini 的对比评测，一概没有。200 毫秒的响应间隔听起来不错，可如果后台推理要等好几秒，前台再快也只是在拖时间。另外，原生多模态听着高级，实际能不能稳定处理嘈杂环境下的语音、模糊视频画面，还得看后续公开的测试结果。现在还缺的是第三方实测和开放试用。光靠一篇公告没法判断这个模型到底比现有方案强在哪，建议等有公开 benchmark 或 demo 再下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:39

32d ago

AI HOT 精选· aihot-apiZH00:39 · 05·12

Cursor 现在能装进 Microsoft Teams 了

Cursor 官方宣布支持 Microsoft Teams 集成，加上已有的 Slack 和 Linear，凑齐了三种办公协作工具。如果你公司用微软全家桶，Teams 是绕不开的入口，这个集成能省掉来回切换的麻烦。不过正文没披露具体能做什么（比如能不能在 Teams 里直接调 Cursor 写代码）、权限怎么管、什么时候上线、要不要额外付费——目前只给...

#Tools#Cursor#Microsoft Teams#Slack

精选理由

HKR-K 和 HKR-R 基于 Cursor 一个小的工作流更新通过，但 HKR-H 偏弱。正文只确认了 3 种集成；权限、具体操作和价格均未披露，所以留在 all 层级。

一句话点评

Cursor 集成了 Teams，加上已有的 Slack 和 Linear，凑齐三大办公协作入口。对微软全家桶用户来说，省掉来回切换的麻烦。但正文没披露具体能做什么（比如能不能在 Teams 里直接调 Cursor 写代码）、权限怎么管、什么时候上线、要不要额外付费——目前只给了安装链接。短评：集成入口是好事，但功能细节全缺，先别激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

AX 严选 · 2026-05-12

更多

频道

后台