AX 严选 · 2026-05-22

▸ 36 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-22 · 星期五2026年5月22日

23:59

21d ago

● P1AI HOT 精选· aihot-apiZH23:59 · 05·22

Gemini 月活破 9 亿，新增两个能替你干活的代理功能

Google 说 Gemini 应用月活用户超过 9 亿了。这次更新把 Gemini 从问答工具往主动干活的个人代理方向推了一步。新模型叫 Gemini 3.5 Flash，还换了套叫“Neural Expressive”的设计语言，另外 Gemini Omni 模型能把提示词直接生成视频。重点在两项代理功能：Daily Brief 会给你出个性化每日...

#Agent#Multimodal#Google#Gemini

精选理由

Google 这次更新核心就两件事：一是 Gemini 应用月活冲到 9 亿，盘子确实大；二是推出了 Daily Brief 和 Gemini Spark 两个代理功能，后者可以在用户授权下 24 小时跑任务。我会先打个折，正文没披露代理功能的具体完成率和延迟数据，实际干活靠不靠谱还不知道。但 9 亿这个量级加上“常驻后台的个人代理”定位，对做 agent 产品的团队来说是个明确的信号——大厂开始用自家分发渠道推代理了，竞争门槛在抬高。

一句话点评

Gemini 月活破 9 亿，但 Google 没说是怎么算的。新推的 Daily Brief 和 Spark 代理功能听起来像能替你干活，实际能接管多少任务、会不会翻车，正文没给细节，先别太激动。

锐评

Google 这次把 Gemini 从问答工具往主动干活的个人代理方向推了一步。月活 9 亿这个数字挺大，但正文没披露统计口径，是打开过就算，还是真在用的，不知道。新模型叫 Gemini 3.5 Flash，还换了套设计语言，另外 Omni 模型能把提示词直接生成视频，这点如果效果稳定，对内容创作挺省事。重点在两项代理功能：Daily Brief 给你出个性化每日简报，Gemini Spark 号称能 7x24 小时替你管理任务。听着像能帮你订票、回消息、整理日程，但授权范围、出错率、隐私怎么处理，正文全没提。这种主动代理一旦翻车，代价比问答答错大得多。还缺的是实际体验数据和限制条件。比如 Spark 能接管哪些 App，跨平台支持怎么样，延迟高不高。这些不说清楚，9 亿用户更像是个宣传数字，产品到底能不能用，还得等上手。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:30

21d ago

FEATUREDAI HOT 精选· aihot-apiZH22:30 · 05·22

黄仁勋说 AI 基建年开支会冲到 4 万亿美元，比华尔街共识高了四倍

黄仁勋在英伟达财报电话会上抛出一个数字：超大规模云厂商的 AI 基建年开支会从现在的 1 万亿美元涨到 3 到 4 万亿，CFO 给的时间线是 2030 年前。华尔街分析师原本的共识是 2028 年才到 1.03 万亿，老黄直接翻了四倍。一季度谷歌、亚马逊、微软三家资本开支加起来已经超过 1100 亿美元，Meta 更是把全年预算拉到 1450 亿，结...

#Inference-opt#Nvidia#Jensen Huang#Commentary

精选理由

黄仁勋说的 3-4 万亿美元是 CEO 预测，不是已发生的模型发布或产品落地，所以分数压在 78-84 这个区间。数字本身有信号价值——它把云厂商的烧钱速度量化了，也间接给英伟达的营收预期撑腰。但正文没披露这个 4 万亿是怎么算出来的，也没说时间节点，这点先别太激动。

一句话点评

老黄在财报会上把云厂商AI基建年开支预期直接拉到3-4万亿美元，是华尔街共识的四倍。数字很炸，但这是卖铲子的人给淘金者画的饼，先打个折听。

锐评

黄仁勋在英伟达财报电话会上扔出的“4万亿美元”判断，本质上是把自家未来收入的天花板往上抬了一大截。他说的不是整个AI市场，而是超大规模云厂商一年的资本开支，目前这个数字是1万亿，他预测会翻三到四倍。CFO给的时间线是2030年前。对比一下，华尔街分析师原本觉得2028年才能到1.03万亿，老黄直接把预期拉满了。这个预测的锚点在哪？一季度谷歌、亚马逊、微软三家资本开支加起来已经超过1100亿美元，Meta更是把全年预算拉到1450亿。按这个烧钱速度，1万亿确实挡不住。但问题在于，这些投入最终要靠应用层的收入来回收，而目前Agent的可靠性还撑不起大规模商业闭环，正文里也提到有Agent在获得权限后9秒删光生产数据库的案例。文章没披露的是，这3-4万亿的构成里，有多少是英伟达自己的芯片收入，有多少是配套的电力、土地和基建。另外，电费上涨那部分数据来自SemiAnalysis和IEA，不是英伟达官方口径，引用时要注意来源。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:10

21d ago

AI HOT 精选· aihot-apiZH22:10 · 05·22

ViggleAI 说动捕和角色动画变简单了，但没给细节

ViggleAI 发帖称动作捕捉和角色动画制作变得更容易，但正文只说了“持续构建，更多功能即将推出”。没有披露具体能力、技术参数、定价或发布日期，信息量很少，无法判断实际效果。

#Vision#Multimodal#ViggleAI#Product update

精选理由

硬排除规则5适用：这是一条产品预告，没有具体功能、规格、发布日期或可验证的机制。HKR-H、HKR-K、HKR-R均不满足。

一句话点评

ViggleAI 发了条帖子，说动捕和角色动画变简单了，但正文就一句“持续构建，更多功能即将推出”。没提具体能力、技术参数、定价或发布日期，信息量约等于零。短评：画饼帖，等真东西出来再说。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

22:09

21d ago

FEATUREDAI HOT 精选· aihot-apiZH22:09 · 05·22

Claude Code v2.1.149：用量报告分类展示、企业可开放云端 MCP 连接器，并修了三个安全漏洞

这个版本主要做了三件事。第一，/usage 命令现在会按类别（比如对话轮次、工具调用）分开展示用量，方便你看出成本花在哪。第二，企业管理员可以通过 allowAllClaudeAiMcps 设置，允许团队直接使用 Anthropic 云端的 MCP 连接器，不用自己搭。第三，修了三个安全漏洞：PowerShell 脚本可能绕过权限执行、Git work...

#Code#Agent#Tools#Anthropic

精选理由

Claude Code 的一次小版本更新，改动不多但都落在实处。/usage 现在能按类别看用量，方便你盯成本；企业管理员多了个 allowAllClaudeAiMcps 开关，可以统一放行 MCP 工具，不用一个个批。安全方面修了 3 个问题，最要紧的是 PowerShell 权限绕过——正文没展开具体利用条件，但光这个就够让运维团队推更新了。整体属于实用型发版，没画饼。

一句话点评

Claude Code 更新了用量分类展示，能看出钱花在对话还是工具调用上；企业版可以直接用 Anthropic 云端的 MCP 连接器，省去自己搭。

锐评

这次 v2.1.149 更新不大，但三个改动都踩在痛点上。/usage 命令现在按类别分开展示用量，比如对话轮次和工具调用各自花了多少 token，这对控制成本挺实用——之前你只能看到一个总数，根本不知道钱烧在哪。企业管理员多了个 allowAllClaudeAiMcps 开关，允许团队直接用 Anthropic 云端的 MCP 连接器，不用自己部署和维护，对不想折腾基础设施的团队是个省心选项。安全方面修了三个漏洞：PowerShell 脚本可能绕过权限执行、Git worktree 沙箱白名单溢出、以及脚本路径带空格时 otelHeadersHelper 会挂。正文没披露这些漏洞的严重程度和是否被利用过，但从描述看都属于边界情况下的权限或稳定性问题，建议尽快升级。整体来看这是个维护型版本，没有新功能大改，但用量透明化和企业部署简化都挺实在。还缺的是：云端 MCP 连接器具体支持哪些服务、有没有额外费用，这些正文都没提，企业用户做决策前得自己去翻文档。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:08

21d ago

FEATUREDAI HOT 精选· aihot-apiZH22:08 · 05·22

Claude 自动模式向 Pro 用户开放，支持 Sonnet 4.6 和 Opus 4.7

Claude 的自动模式现在 Pro 计划也能用了，不再是最贵那一档的专属。这次更新还接入了 Sonnet 4.6 和 Opus 4.7 两个模型，按 Shift+Tab 就能让 Claude 自己跑任务。正文没提价格有没有变，也没说是不是全量推送，这点先别太激动。

#Agent#Tools#Claude#Anthropic

精选理由

这是一次中等体量的产品更新，不是新模型或重大能力发布。自动模式进 Pro 计划，配上两个模型和快捷键，对日常靠 Claude 干活的开发者有实际影响，但还没到需要全行业关注的程度。

一句话点评

Claude 自动模式下放到 Pro 计划，还接入了 Sonnet 4.6 和 Opus 4.7，按 Shift+Tab 就能跑任务。但正文没提价格和推送范围，先别急着升级。

锐评

这次更新把自动模式从最贵档位拉到了 Pro 计划，门槛降了不少。之前只有 Max 用户能用，现在更多人可以让 Claude 自己跑任务，按 Shift+Tab 就启动。模型方面给了两个选择：Sonnet 4.6 和 Opus 4.7，前者快，后者强，看你要速度还是要质量。但正文没写 Pro 计划的价格有没有跟着变，也没说是不是全量推送、有没有调用次数限制。自动模式跑起来消耗的 token 通常比手动对话多，如果 Pro 的额度没调，实际能用多久是个问题。另外 Opus 4.7 在自动模式下的表现和手动模式有没有差距，也没给数据。还缺的是：Pro 用户每月能用多少次自动模式、单次任务有没有步数上限、两个模型在自动模式下的成功率和延迟对比。这些没公布之前，只能说门槛低了，但划不划算还得自己试。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:16

21d ago

AI HOT 精选· aihot-apiZH20:16 · 05·22

Codex 差异视图新增经典 +/- 标记选项

OpenAI 给 Codex 功能加了个外观设置：差异视图现在可以切换成传统的 +/- 标记，而不是只有彩色条。默认还是彩色条，需要你手动去开。就是个界面小调整，不影响功能。

#Code#Tools#OpenAI#Product update

精选理由

这是 OpenAI 开发者工具里一个很小的 UI 设置更新：HKR-K 靠具体机制（新增标记选项）通过，HKR-H 和 HKR-R 都很弱。属于小产品更新的低端，不值得推荐。

一句话点评

OpenAI 给 Codex 的差异视图加了个外观选项，可以切回传统的 +/- 标记，默认还是彩色条。就是个界面小调整，不影响功能，别激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

19:57

21d ago

● P1AI HOT 精选· aihot-apiZH19:57 · 05·22

Anthropic 的 Project Glasswing 一个月内发现超万个高危软件漏洞

Anthropic 说，他们和大约 50 家合作伙伴用 Claude Mythos Preview 模型，在全球最关键的基础软件里找到了超过一万个高危或严重级别的漏洞。现在瓶颈已经不是找漏洞的速度，而是验证、通报和打补丁的速度。在开源软件扫描这块，模型自己估算发现了 6,202 个高危或严重漏洞，其中 1,752 个已经过独立安全公司或 Anthrop...

#Code#Agent#Benchmarking#Anthropic

精选理由

Anthropic 这次放出的不是模型跑分，而是 Claude 在真实关键系统里挖漏洞的战报。约 50 家合作伙伴用 Claude Mythos Preview 扫出超过一万个高危或严重漏洞，独立验证准确率 90.6%，说明模型在安全自动化这条线上已经从“能看”走到“能干活”了。我会先打个折：正文没披露漏洞类型分布、误报率和修复成本，也没说这 90.6% 是在什么条件下测的，所以准确率数字先别太激动。但不管怎么说，一万多个高危漏洞这个量级，加上 Mozilla、Cloudflare 这类合作方背书，对做安全自动化和关键基础设施防护的团队来说，是一个...

一句话点评

Anthropic 用新模型一个月扫出上万个高危漏洞，但具体细节要等补丁铺开才能说，现在看到的数字先打个折。

锐评

Anthropic 公布了 Project Glasswing 的首月数据：约 50 家合作方用 Claude Mythos Preview 模型，在各自的核心软件里总共发现了超过一万个高危或严重漏洞。Cloudflare 一家就找到 2000 个 bug，其中 400 个是高危或严重级别，而且误报率比人类测试员还低。Mozilla 测 Firefox 150 时挖出 271 个漏洞，是上一版用 Claude Opus 4.6 时的十倍多。这些数字说明 AI 找漏洞的速度已经远超人类，现在瓶颈变成了怎么快速验证、通报和打补丁。在开源软件扫描上，Anthropic 自己用 Mythos Preview 扫了 1000 多个项目，模型自己估计有 6202 个高危或严重漏洞。其中 1752 个已经过外部安全公司复核，90.6% 是真漏洞，62.4% 确认是高危或严重级别。按这个比例推算，光开源项目就能筛出近 3900 个高危漏洞。wolfSSL 那个例子挺直观——模型直接构造了一个能伪造证书的攻击，影响数十亿设备。不过要冷静看。Anthropic 自己说了，因为行业惯例是漏洞发现后 90 天才公开细节，现在披露的都是滞后指标。正文没给出漏洞的具体类型分布，也没说这些漏洞里有多少是模型独立发现、多少需要人工引导。英国 AISI 和 XBOW 的外部评测都夸模型能力强，但评测基准的覆盖面和真实攻防场景的差距有多大，文章没展开。另外，微软和甲骨文都说补丁量在猛增，但没提这些补丁对应的漏洞修复成本有多高。等补丁大规模部署后 Anthropic 承诺会放出更多细节，那时候才能判断这波 AI 挖漏洞到底改变了什么。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:34

21d ago

AI HOT 精选· aihot-apiZH19:34 · 05·22

ChatGPT语音模式现在能帮你填表了

拍一张表单照片，用嘴说你要填什么，ChatGPT就能把填好的版本吐出来。正文没提支持哪些格式、哪些语言、要不要额外付费、以及什么时候上线。

#Multimodal#Vision#Audio#ChatGPT

精选理由

HKR中H和K通过，因为语音+图像的表单填写是一个具体可用的新交互流程，用户能直观理解价值。R偏弱，这只是OpenAI的一个小产品更新，没有披露支持的文件格式、语言范围、定价或上线时间，信息缺口明显，所以分数落在60-71区间。

一句话点评

拍张表单照片，用嘴说填什么，ChatGPT 就能吐出填好的版本。这功能把语音和视觉串起来了，省了打字和手写。但正文没提支持哪些格式、哪些语言、要不要额外付费、以及什么时候上线。如果是免费且支持中文，日常填表确实方便；要是只限英文 PDF 或 Plus 用户独享，那实用性就大打折扣。等具体上线范围和定价出来再判断值不值得激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

18:00

21d ago

AI HOT 精选· aihot-apiZH18:00 · 05·22

Google I/O 2026对话环节回顾

这篇博客回顾了Google I/O 2026的对话环节，主题涵盖AI、量子计算、机器人和创造力。但正文没有披露具体演讲者、产品发布或技术细节，信息量有限。

#Robotics#Google#Commentary

精选理由

这是一篇Google I/O 2026对话环节的回顾，正文只提到讨论了AI、量子计算、机器人和创造力，没有披露嘉宾名单、产品发布或任何技术参数。HKR三项全挂：没有悬念或发布钩子（h），信息量太少连关键事实都不够（k），对从业者来说没有可用的产品、成本或竞争信息（r）。按0/3规则直接排除。

一句话点评

Google I/O 2026 对话环节回顾，但正文没提任何具体演讲者、产品发布或技术细节，信息量约等于零。标题看着大，实际是篇活动总结，对从业者没参考价值。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:27

21d ago

FEATUREDAI HOT 精选· aihot-apiZH17:27 · 05·22

Kakuna：把原型代码自动加固成生产级项目的 AI 工具

Kakuna 是一个 AI 代理工具，专门把早期快速原型转成可维护的生产级代码库。它内置检查清单和“先定计划再执行”的工作流，模拟人类开发与运维的流程，在不动功能的前提下自动做代码审查、补测试、重构这些“无聊活”。工具强调用多个子代理并行干活来提效，一次大约 16 小时的运行能生成上百次提交，把一个脆弱的 MVP 变成结构清晰、能长期迭代的稳定项目。正...

#Agent#Code#Tools#Kakuna

精选理由

Kakuna 这个工具让代理按内置检查清单和“计划-目标”流程自动加固代码，一次约16小时能跑出上百次提交。我会先打个折——单条推文来源、非大厂出品，验证强度有限，但信息量够：工作流机制、运行时长、产出规模都给了具体数字，不是画饼。对正在折腾原型转生产的开发者来说，这种“代理帮你擦屁股”的思路有参考价值，所以放在 featured 档。

一句话点评

一次跑16小时自动把原型代码加固成生产级，但正文没提它改完的代码能不能直接通过CI和人工review。

锐评

Kakuna 做的事是把一个脆弱的 MVP 代码库自动加固成结构清晰、能长期维护的版本。它用内置检查清单和“先定计划再执行”的流程，模拟开发运维的常规操作，在不动功能的前提下补测试、做重构、跑代码审查。一次大约 16 小时的运行能生成上百次提交，这个量级说明它确实在干大量重复的“无聊活”，而不是只改几个文件做做样子。不过正文没披露它实际跑在什么语言或框架的项目上，也没说加固后的代码是否通过了 CI 流水线或人工 review。这点先别太激动——能生成上百次提交不代表每次提交都靠谱，如果后续还得人工大量返工，省下的时间可能又还回去了。另外，它强调用多个子代理并行提效，但没给出并行带来的具体加速比或资源消耗，比如 16 小时是单机还是集群跑出来的。还缺一个关键信息：它处理的项目规模有多大。如果只是几百行的小原型，16 小时和上百次提交反而说明效率不高。如果是几千行的项目，那这个自动化程度才值得认真看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:25

21d ago

AI HOT 精选· aihot-apiZH17:25 · 05·22

Warp 终端现在能直接调 OpenRouter 的模型了

Warp 这个终端工具接入了 OpenRouter，工程师演示了怎么连 DeepSeek。正文只给了文档链接，没提价格和具体上线时间。

#Agent#Tools#OpenRouter#Warp

精选理由

这是一个小型的开发者工具集成。正文只给了文档链接，没有披露定价、模型覆盖范围或 Warp 具体能力变化，所以分数维持在 60–71 区间。

一句话点评

Warp终端现在能直接调OpenRouter的模型了，包括DeepSeek。对开发者来说，等于少装一个插件，在命令行里就能切换模型。但正文只给了文档链接，没提价格、延迟和具体上线时间，实际体验和成本未知。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

17:09

21d ago

FEATUREDAI HOT 精选· aihot-apiZH17:09 · 05·22

谷歌在 I/O 大会甩出一整套 AI 代理开发工具，从写代码到上线调试全包了

谷歌这次发布的不是单个模型，而是一条让 AI 代理（能自主干活的程序）落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行工具和 SDK，方便开发者直接在本机跑代理。Google AI Studio 新增 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App。Gemini API 里加了托管代理服务，部署步骤简化...

#Agent#Tools#Code#Google

精选理由

HKR 三项都成立：谷歌端出了一套有名字、有组件的代理工具栈，覆盖本地开发、云端托管和浏览器协议。不过目前只有社交媒体的摘要，正文没披露定价、API 细节和实际演示，所以分数卡在 78–84 这个区间。我会先打个折，等看到更完整的文档再往上调。

一句话点评

谷歌把代理开发工具一口气打包了，从桌面到浏览器到部署都给了，但别急着喊生态，先看实际跑起来稳不稳。

锐评

谷歌这次 I/O 发的不是单个模型，而是一整套让 AI 代理落地的工具链。Antigravity 2.0 是个独立桌面应用，配了命令行和 SDK，开发者可以在自己电脑上直接跑代理，不用全扔云端。Google AI Studio 加了 Kotlin 支持，号称能一键生成安卓应用并发布，还出了手机版 App，方便在移动端调试。Gemini API 里新增了托管代理服务，部署步骤简化到一键，但正文没披露托管环境的延迟、并发上限和计费细节，这点先别太激动。 WebMCP 作为开放标准塞进了 Chrome 149，让网页能向代理暴露工具，相当于给代理开了个浏览器里的工具箱。Chrome DevTools 也开放给代理做自动化调试，理论上能省不少手动排查时间。企业客户可以直接连 Google Cloud 项目，DeepMind 的科学技能包则针对特定领域研究加速。整条链从开发、接口到部署都覆盖了，但关键信息缺了不少：Antigravity 2.0 的资源占用、托管代理的稳定性验证、WebMCP 的安全边界都没提。工具链看着全，实际能不能扛住生产环境的复杂度，还得等开发者大规模用起来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:03

21d ago

AI HOT 精选· aihot-apiZH17:03 · 05·22

Perplexity 开源了供应链安全扫描器 Bumblebee

Perplexity 今天开源了一个叫 Bumblebee 的工具，专门扫描 macOS 和 Linux 开发者机器上的高风险软件包、扩展和 AI 工具配置。它是只读的，不会改你系统。亮点是连上他们的 Computer 平台后，一旦有新的供应链风险出现，可以自动触发更深的扫描。目前只支持 macOS 和 Linux，Windows 用户暂时用不了。代码...

#Tools#Perplexity#Open source#Product update

精选理由

HKR 三项都过：Perplexity 出安全工具出乎意料，扫描范围具体（包、扩展、AI 配置），供应链安全焦虑真实。但原文只是一条简短社交更新，没披露规则集、误报率、集成方式或采用数据，所以分数压在 60–71 区间。

一句话点评

Perplexity 开源了 Bumblebee，一个只读扫描器，专查 macOS/Linux 开发者机器上的高危包、扩展和 AI 工具配置。亮点是连上他们的 Computer 平台后，新风险出现能自动触发深度扫描。目前只支持 macOS 和 Linux，Windows 用户暂时用不了。短评：开源供应链扫描工具，只读不写系统，连平台能自动触发深度扫描。但只支持 macOS/Linux，W...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:01

21d ago

FEATUREDAI HOT 精选· aihot-apiZH17:01 · 05·22

智能体工作负载正在改写推理成本账本

SemiAnalysis 扒了 43.2 万条真实编码智能体的请求记录，输入 token 的中位数不是大家常说的 3.2 万或 6.4 万，而是 9.6 万。这个量级意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文。正文没披露用了哪些模型、成本曲线、采样方式和统计时间窗口，所以这个数字先当个参考，别急着拿它算账。

#Agent#Code#Inference-opt#SemiAnalysis

精选理由

HKR 三项都过：SemiAnalysis 拿出了一个 43.2 万条编码智能体请求的数据集，中位输入 9.6 万 token，这个数据点本身够硬。但模型、成本曲线、采样方法全都没说，所以只能算强数据点，到不了必写级别。

一句话点评

SemiAnalysis 扒了 43.2 万条真实编码智能体请求，输入 token 中位数是 9.6 万，不是大家常说的 3.2 万或 6.4 万。这个数字先当参考，正文没披露用了哪些模型、成本曲线和采样方式。

锐评

这条数据点值得从业者看一眼，因为它直接打脸了行业里对智能体输入长度的普遍假设。9.6 万 token 的中位数意味着模型在接到你的问题之前，已经吞下了比《了不起的盖茨比》全书还长的上下文——这对推理成本和延迟的影响是实打实的。如果这个数字有代表性，那很多按 3.2 万 token 做的成本估算都得重算。不过我会先打个折。正文没披露这 43.2 万条请求来自哪些模型、采样时间窗口多长、有没有过滤掉异常值。如果样本里混了大量调试阶段的超长上下文请求，中位数就会被拉高。另外也没说成本曲线——输入长了，但模型是不是用了缓存、分块处理或者投机解码来压成本，这些都不知道。还缺两样东西：一是输出 token 的分布，光看输入不看产出，算不出完整的推理账单；二是不同模型在这个输入量级下的延迟和成功率对比。有这两块，才能判断 9.6 万 token 到底是新常态，还是某个特定场景的偏态。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:41

21d ago

AI HOT 精选· aihot-apiZH16:41 · 05·22

Luma Agents 上线 Seedance 2.0，一键生成电影级画面

Luma Agents 推出了 Seedance 2.0，主打人像、风景、科幻、奇幻四种风格，声称能一键生成电影级画面。正文没披露模型参数、分辨率、生成速度或价格，所以实际效果和可用性还不清楚。如果你对 AI 视频生成感兴趣，可以点链接试试，但先别太激动。

#Agent#Multimodal#Vision#Luma Labs

精选理由

H/K 通过，因为 Seedance 2.0 集成和场景覆盖算新事实；但正文没提价格、分辨率、生成时长和基准对比，属于常规小版本更新，从业者参考价值有限。

一句话点评

Luma Agents 上线了 Seedance 2.0，主打四种风格一键生成电影级画面。但正文没披露分辨率、生成速度或价格，实际效果和可用性未知。如果你对 AI 视频生成感兴趣可以试试，但先别太激动。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

16:17

21d ago

AI HOT 精选· aihot-apiZH16:17 · 05·22

Suno AI 做的《波多黎各》成夏日神曲，被美国早间节目 GMA 推荐

Suno 官方发帖说，今年夏天一首叫《波多黎各》的歌是用他们的 AI 工具做的，还上了美国早间节目 GMA 的推荐。帖子没透露播放量、创作者是谁、以及具体怎么生成的。

#Audio#Suno#GMA#Product update

精选理由

硬排除——纯营销：Suno 自己发帖说《Puerto Rico》用了它的工具、上了 GMA，但播放量、创作者、制作流程一概没披露，也没有第三方验证。

一句话点评

Suno 官方说《波多黎各》是AI做的，还上了GMA早间节目。但没提播放量、创作者和生成细节，更像品牌宣传。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:10

21d ago

AI HOT 精选· aihot-apiZH16:10 · 05·22

GitHub 连续第三年拿下 Gartner 企业级 AI 编程代理领导者象限

Gartner 把 GitHub 放在企业级 AI 编程代理的领导者象限，这是第三年。正文没披露具体的评估标准、竞争对手位置，也没说 Copilot 的企业采用数据。所以这个排名更多是品牌背书，不能直接当采购决策依据。

#Agent#Code#GitHub#Gartner

精选理由

触发硬排除规则5：这是一篇厂商获奖公告，核心事实是 GitHub 被 Gartner 认可，但正文没披露评估方法、竞品排名或 Copilot 采用数据。HKR 三项均不满足，因此排除。

一句话点评

GitHub Copilot 连续第三年被 Gartner 评为企业级 AI 编程代理领导者。但正文没披露评估标准、竞品位置和企业采用数据，这个排名更像品牌背书，不能直接当采购依据。短评：Gartner 连续三年把 GitHub 放领导者象限，但没给评分细节，当品牌新闻看就好。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

15:12

21d ago

FEATUREDAI HOT 精选· aihot-apiZH15:12 · 05·22

Project Genie 接入谷歌街景，能把美国真实地点变成可交互世界

Project Genie 和谷歌地图街景打通了，现在你可以把美国真实地点直接转成能走进去玩的交互式世界。正文没披露具体支持哪些城市、生成机制、收费方式，也没说开放范围有多大。

#Multimodal#Vision#Google DeepMind#Google Maps

精选理由

Project Genie 跟谷歌街景合作，把美国真实地点变成能走进去互动的世界。我会先打个折——正文没写具体城市、生成机制和开放范围，所以别当产品发布看。但如果是真的，用街景数据直接生成可交互环境，省掉建模成本，这点对做仿真和世界模型的人挺有吸引力。

一句话点评

谷歌地图街景能直接生成可交互世界了，但正文没提支持哪些城市、怎么收费、生成要多久，先当概念演示看。

锐评

Project Genie 把谷歌街景的美国地点变成了能走进去玩的交互式世界。听起来像把静态全景图升级成可探索的 3D 场景，但正文只发了一条推文，没披露任何技术细节。关键信息全缺：支持哪些城市、生成一场景要多久、对用户设备有什么要求、是否收费、开放给普通用户还是仅限内测。没有这些，很难判断是产品落地还是技术 demo。从 AI 从业者角度看，如果真能把街景数据实时转成可交互环境，对游戏、模拟训练、虚拟旅游都有价值。但街景数据本身是离散的全景图拼接，要生成连续可走的 3D 空间，中间涉及深度估计、场景重建、空洞填补，质量如何完全没提。建议等官方放出实际演示或技术文档再评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:09

21d ago

FEATUREDAI HOT 精选· aihot-apiZH15:09 · 05·22

大模型在生产环境会“说胡话”，但大部分跑分测试根本不查这个

Dharma-AI 在 Hugging Face 发了篇博文，说现在的大语言模型上线后经常出现文本退化——输出内容来回重复、前言不搭后语或者逻辑崩掉。这种故障直接影响用户体感和模型能不能用，但主流基准测试基本没把这类问题纳入评分。文章呼吁业界在评估体系里加上对文本退化的系统追踪和量化指标，正文没披露具体的指标设计或实验数据。

#Benchmarking#Safety#Dharma-AI#Hugging Face

精选理由

HKR 三项都过了，但这篇帖子只披露了故障模式和基准盲区，没给样本量、具体指标或复现方法，信息密度偏低，放在 featured 里靠下的位置比较合适。

一句话点评

大模型上线后输出变复读机或胡言乱语，主流跑分榜根本不测这个，正文没给具体指标和实验数据。

锐评

Dharma-AI 在 Hugging Face 上指出了一个挺实在的问题：模型在真实环境里会“文本退化”，比如来回重复同一句话、前后逻辑断裂，用户一看就觉得这模型不行。但现在的评测榜单基本不碰这块，大家还在卷数学题和阅读理解，离生产环境差得远。文章呼吁把退化现象纳入评估体系，但正文没披露他们打算怎么量化——是统计重复 n-gram 比例、测连贯性分数，还是用人工标注？也没给出任何实验数据或案例样本。所以这篇更像一个方向提醒，不是一套可落地的方案。对做模型部署的团队来说，这个提醒本身有价值：如果你只看榜单选模型，上线后用户投诉“它老说车轱辘话”，那榜单分数再高也没用。但具体怎么测、阈值设多少，还得自己摸索，文章没给现成答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:36

21d ago

● P1AI HOT 精选· aihot-apiZH14:36 · 05·22

BitCPM-CANN开源发布，华为昇腾NPU原生训练1.58比特大模型

ModelBest、清华和OpenBMB搞了个BitCPM-CANN，从0.5B到8B都有，全程用华为昇腾910B NPU训练，没走英伟达路线。1.58比特三元量化意味着每个权重只取三种值，内存比BF16省了约6倍，能塞进手机、电脑和车载设备里跑。基准测试成绩保住了全精度模型的95-97%，这点挺实在。我会先打个折：正文没披露具体推理延迟和功耗数据，也...

#Inference-opt#Benchmarking#ModelBest#Tsinghua University

精选理由

HKR三项都站得住：昇腾910B全栈训练1.58比特开源模型这个角度够新，数据也扎实。没给P1是因为目前只有发布事实，缺少独立复现或实际落地效果的佐证，所以先放在featured。

一句话点评

面壁智能在华为昇腾 NPU 上原生训练并开源了 1.58-bit 大模型，显存省了约 6 倍，能力保留率 90% 以上，但正文没给具体评测基准和延迟数据。

锐评

这条消息最值得看的是“全栈国产算力跑通了极低比特训练”。BitCPM-CANN 从量化算子到训练框架全在昇腾 910B 上完成，意味着以后在华为卡上做 1.58-bit 模型有了公共基础设施，不用每家从头搭一遍。四个尺寸（0.5B 到 8B）都开源了，官方说推理显存比 BF16 省约 6 倍，能力保留率在 90% 到 97.2% 之间，8B 模型能塞进旗舰手机跑。但先别太激动。文章没交代这个“能力保留率”是在哪些基准上测的，也没提推理延迟和吞吐。极低比特模型最怕的是生成质量在长文本或复杂任务上掉得厉害，光看一个百分比不够。另外，训练成本、与同尺寸全精度模型在真实业务场景下的对比也都没给。如果后续能补上这些，才能判断它是不是真能当端侧主力模型用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:00

22d ago

AI HOT 精选· aihot-apiZH12:00 · 05·22

Cursor 被 Gartner 评为 2026 年企业级 AI 编码代理魔力象限领导者

Gartner 把 Cursor 放到了 2026 年企业级 AI 编码代理魔力象限的领导者象限，而且它在“愿景完整性”这个维度上得分最高。超过 70% 的财富 500 强公司已经在用 Cursor 来部署和管理编码代理（就是让 AI 帮忙写代码、修 Bug 的自动化工具）。Cursor 接下来打算自己训练更强的模型（已经和 SpaceXAI 合作了）...

#Agent#Code#Tools#Cursor

精选理由

Cursor 自己发稿说被 Gartner 评为 2026 年企业级 AI 编码代理领导者，还提到超过 70% 的财富 500 强在用。这个渗透率数字挺实在，说明企业市场确实在批量上编码代理。但来源是 Cursor 自家的分析师奖项通稿，权威性打点折扣，而且领导者标签本身不意外——更像市场验证而非技术突破。对关注企业级开发工具采购和编码代理竞争格局的从业者来说，这条值得扫一眼，但不用太激动。

一句话点评

Gartner 把 Cursor 评为企业级 AI 编码代理的领导者，愿景完整性得分最高。超过 70% 的财富 500 强在用，这个渗透率挺高。但 Gartner 报告本身是付费内容，正文没披露具体评估细节，比如对比了哪些竞品、评分标准是什么。Cursor 说自己要自研模型，还找了 SpaceXAI 合作，这点先别太激动——合作细节和模型进展都没说。短评：Gartner 背书+大客户覆盖率是...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

11:50

22d ago

FEATUREDAI HOT 精选· aihot-apiZH11:50 · 05·22

Karpathy 用 65 行规则文件把 AI 编程准确率从 65% 拉到 94%

Karpathy 在 GitHub 上发了一个叫 CLAUDE.md 的规则文件，65 行、4 条规则，让 AI 编程准确率从 65% 跳到 94%。核心思路是逼开发者先想清楚再动手：深度思考、代码越短越好、只改该改的地方、每一步都盯着目标走。文件已经拿了超 22 万星标，但正文没披露 94% 这个数字是在什么任务、什么模型上测出来的，也没说对比基线是...

#Code#Tools#Andrej Karpathy#GitHub

精选理由

这篇我会先打个折，因为正文只给了总结性的数字，没披露具体是哪 4 条规则、在什么任务集上测的、评测方法是什么。但 Karpathy 这个名字加上 94% 这个数字，对用 Claude Code 干活的人来说，诱惑力足够大。22 万星标也说明社区在追这个方向。所以虽然信息有缺口，还是值得推给读者看一眼，只是别把 94% 当成普适结论。

一句话点评

Karpathy 用 65 行规则把 AI 编程准确率从 65% 拉到 94%，但正文没说是测什么任务、用什么模型，这个数字先打七折看。

锐评

Karpathy 在 GitHub 发了一个叫 CLAUDE.md 的规则文件，65 行、4 条规则，让 AI 编程准确率从 65% 跳到 94%，已经拿了超 22 万星标。四条规则说白了就是：先想清楚再写、代码能短就短、只改该改的地方、每一步都盯着目标走。这其实是在逼开发者改掉“先写再说”的习惯，把思考过程变成硬性步骤塞进 AI 的指令里。但 94% 这个数字要小心看。正文没披露是在什么任务上测的——是写单函数还是搭完整项目？用的是什么模型？对比的 65% 基线又是怎么来的？这些信息全缺，就没法判断这个提升是普适的，还是只在特定场景下成立。另外，规则文件本身是给 Claude 用的，换到其他模型上效果会不会打折扣，也没提。还缺一个关键信息：遵守这四条规则对开发者自己的时间成本有多大。如果每次写代码前都要花大量精力把需求拆到足够细，那省下来的调试时间能不能覆盖前期的投入，正文完全没说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:17

22d ago

● P1AI HOT 精选· aihot-apiZH11:17 · 05·22

阿里千问 App、PC 及网页端上线 Qwen3.7-Max，免费可用

千问 App 更新到 6.9.7 版就能在对话框里切到 Qwen3.7-Max，PC 和网页端也一样，目前免费。官方说这个模型主打“让模型进业务流程干活”，能写代码、自动跑办公流程，还能扛住长任务——他们自己测了一次 35 小时、调用工具超过 1000 次的内核优化实验，全程没断思路。不过这些数据来自官方测试，实际体验会不会打折还得自己试。另外，API...

#Agent#Code#Tools#Alibaba

精选理由

阿里把 Qwen3.7-Max 铺到千问全线产品，门槛降到免费，还特意强调 35 小时连续工具调用没崩，摆明了在打 agent 可靠性和零成本体验这两张牌。我会先打个折：正文没给基准测试、上下文窗口和 API 定价，所以实际能力上限和商用成本还看不清。但就凭多端同步上线和这个压测结果，对正在选模型做工具链集成的人来说，是个值得立刻上手试的信号。

一句话点评

千问 App 更新后能免费用 Qwen3.7-Max，官方说它能跑 35 小时不断思路，但这是自家测试，实际稳不稳还得自己上手试。

锐评

阿里把最新的 Qwen3.7-Max 直接塞进了千问 App、PC 和网页端，更新到 6.9.7 版就能免费用。这个模型的核心卖点是“让模型进业务流程干活”，也就是所谓的智能体能力。官方给了一个很具体的数字：在一次内核优化实验里，它自主跑了 35 个小时，调用了超过 1000 次工具，全程没断思路。这个数字如果真实，说明它在处理长链条、多步骤任务时的稳定性确实不错，至少比动不动就忘掉上下文的模型强。但这里有个关键信息缺口：这个 35 小时的测试是官方自己跑的，任务场景、失败重试次数、人工干预比例都没披露。所以这个数字更像一个上限参考，实际用起来，比如让它自动处理几十封邮件或写一个复杂项目，效果可能会打折。另外，文章提到它能跨框架部署，在 Claude Code 等工具里也能用，这对开发者是个好消息，不用被绑在单一工具上。目前 API 还没上线，只能通过官方客户端体验。想评估它到底能不能扛住真实业务，最好等 API 开放后，用自己的任务跑一遍，重点关注它在第 20 步、第 50 步时的逻辑连贯性和错误恢复能力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:57

22d ago

AI HOT 精选· aihot-apiZH10:57 · 05·22

PixVerse App 上线图像生成，手机端也能文生图

PixVerse 在自家 App 里加了图像生成功能，输入提示词或传参考图就能在手机上出图。5月24日到31日每人免费3次，之后要花钱。转发关注还能抽300积分，限72小时。功能本身不新鲜，但说明视频生成工具开始往多模态走。

#Multimodal#Vision#PixVerse#Product update

精选理由

PixVerse App 新增图像生成功能，支持文生图和参考图生图，5月24-31日每人免费3次。属于小版本更新，有具体使用细节，所以 K 通过、归入 all。H 和 R 不通过，因为没提生成质量、定价、分发规模或竞争对比。

一句话点评

PixVerse 在自家 App 里塞了个文生图/图生图功能，手机端直接出图。5月24-31日每人免费3次，之后收费。功能本身不新鲜，但说明视频生成工具开始往多模态走，先抢个入口。短评：视频工具加个图生图，功能不新但补模态，免费3次算尝鲜，后续收费看留存。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

09:46

22d ago

FEATUREDAI HOT 精选· aihot-apiZH09:46 · 05·22

国家发改委：建训练基础设施，让机器人从跑马拉松到进工厂商场家庭

国家发改委在5月22日的发布会上，用北京亦庄人形机器人半马的成绩来说明具身智能的进步：参赛队伍从20多支涨到100多支，完赛队伍从6支涨到40多支，机器人跑得更快、过弯更灵活、导航更自主。下一步会重点建两样东西：一是训练基础设施，用来采集数据和训练机器人的“大脑”和“小脑”模型，让它在不同场景都能干活；二是应用中试基地，把软硬件生态和训练设施打通，加速...

#Robotics#NDRC#Policy

精选理由

这条政策指向很明确，就是要让机器人走出比赛场景，进到真实环境里干活。队伍和完赛数量的增长是实打实的进步，但正文没披露训练基础设施和中试基地的具体预算、时间表和规模，所以实际推进速度还得看后续落地细节。

一句话点评

发改委用机器人半马成绩说话，参赛队从20多支涨到百余支，完赛从6支涨到40多支，进步肉眼可见。但“进工厂、进商场、进家庭”还只是目标，正文没给出训练基础设施的具体投资规模和时间表，这点先别太激动。

锐评

国家发改委这次发布会拿北京亦庄人形机器人半马的成绩当论据，比单纯喊口号实在。参赛队伍从20多支涨到百余支，完赛队伍从6支涨到40多支，说明能跑完全程的机器人确实多了，背后是高爆发力电机、动态平衡“小脑”模型和自主导航能力的提升。这些进步让机器人从“能跑完”升级到“能高速、灵活、自主地跑完”，但赛道环境和工厂、商场、家庭完全是两码事，赛道上的表现不能直接等于干活能力。下一步重点是两样东西：一是训练基础设施，用来采集数据和训练机器人的“大脑”和“小脑”模型，让它在不同场景都能干活；二是应用中试基地，把软硬件生态和训练设施打通，加速落地。思路是对的，但正文没披露具体投多少钱、建多大规模、什么时候能用上。没有这些数字，很难判断这是真金白银的推进还是方向性表态。另外，机器人进家庭意味着要在完全非结构化的环境里安全、稳定地工作，目前的技术成熟度离这个目标还有不小距离，正文也没提安全标准和责任划分这些落地必须解决的问题。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:45

22d ago

FEATUREDAI HOT 精选· aihot-apiZH09:45 · 05·22

网易有道把“子曰4”的多模态模型和语音合成模型都开源了

这次开源的是一个270亿参数的多模态模型和一个语音合成模型。多模态模型主要针对教育场景，能看懂带图表的数学题，在纯中文数理难题上准确率81.4%。团队用精简过的推理样本做训练，把模型思考过程的输出长度压缩了43.2%，所以回答同样的问题，吐出的token更少、推理更快，直接效果就是推理成本会降下来。语音合成模型支持用3秒中文音频克隆音色，能跨14种语言...

#Multimodal#Vision#Audio#NetEase Youdao

精选理由

我会先打个折：有道不是前沿大模型实验室，所以这条消息的份量到不了顶流，但信息本身够具体。27B 参数的多模态模型，中文数理题做到 81.4% 准确率，说明在中文理科场景有一定可用性，不过正文没披露评测集和对比基线，这点先别太激动。语音模型覆盖 14 种语言，对做多语言 TTS 产品的人是个直接可用的资源。全量开源意味着可以直接拿来微调或部署，省去从头训的成本，但实际推理开销和显存需求正文没提，动手前得自己测一下。整体看，这是一次信息完整、可验证的发布，对关注中文多模态和语音落地的从业者有实操参考价值。

一句话点评

有道把270亿参数的多模态模型和语音克隆模型都开源了，做教育应用和语音合成的开发者可以直接拿来用。

锐评

网易有道这次把“子曰4”的两个核心模型全量开源，对做教育场景和语音应用的开发者来说，是个可以直接上手试试的东西。多模态模型有270亿参数，主打能看懂带图表的数学题，在纯中文数理难题上准确率81.4%。这个数字看着不错，但正文没说明是在哪个基准测试集上跑的，也没提对比的是哪些同等规模的模型，所以这个“行业顶尖”的说法得先打个折。比较实在的一个点是，团队用精简过的推理样本做训练，把模型思考过程的输出长度压缩了43.2%。这意味着回答同一个问题，吐出的token更少，推理成本会直接降下来，对实际部署来说比跑分更有意义。语音合成模型支持用3秒中文音频克隆音色，能跨14种语言合成，克隆准确度号称超97%，但相似度是85%以上，这个差距说明在情感和跨语言迁移上，实际听感可能还有提升空间。整体看，这次开源诚意挺足，模型权重和代码都给了。但缺的是更多第三方评测和实际业务场景里的延迟、并发数据，光看官方给出的几个数字，还判断不了在真实高并发教育场景下到底省不省钱、好不好用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:10

22d ago

AI HOT 精选· aihot-apiZH08:10 · 05·22

18年老粉与微软GitHub决裂：平台天天崩，代码还被偷，我走了

GitHub 18年老用户、Ghostty终端作者Mitchell Hashimoto公开宣布弃用GitHub，原因是平台频繁宕机，每天把他锁在外面好几个小时，没法正经写代码。他打包所有项目资产走人。这只是一个缩影：GitHub最近被黑客攻破3800多个内部仓库，源代码被挂网叫卖5万美元，起因是一名工程师装了带毒的VS Code插件，凭证被偷。更早前还...

#Code#GitHub#Microsoft#Mitchell Hashimoto

精选理由

H/K/R三项都成立，但这是开发者平台可靠性和安全事件，不是AI模型、智能体、Copilot或AI产品更新。AI RADAR匹配度弱，所以分数压在40以下。

一句话点评

GitHub 18年老用户、Ghostty作者Mitchell Hashimoto因平台频繁宕机（每天被锁几小时）公开弃用，并打包项目走人。更严重的是，黑客攻破3800+内部仓库，源代码被挂网叫卖5万美元，起因是一名工程师装了带毒VS Code插件。微软收购后GitHub并入CoreAI团队、取消CEO职位，管理层动荡。正文未披露GitHub后续修复计划及用户迁移数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:34

22d ago

AI HOT 精选· aihot-apiZH07:34 · 05·22

X平台发帖体验太差，开发者用ChatGPT做了个插件救场

一条推文吐槽X平台的产品经理不行，发文章体验很烂。有开发者直接用ChatGPT（通过codex/goal）写了个Markdown转换插件，拖拽文件就能生成X文章格式，开源且提供了谷歌插件版本。正文没披露插件具体安装量或用户反馈，但至少说明原生体验确实有痛点，逼得用户自己动手。

#Code#Tools#X#ChatGPT

精选理由

痛点具体、产物明确、能引起同类开发者共鸣，HKR三项都过。但这是个轻量工具，正文没披露下载量、GitHub星数或实际使用反馈，信息缺口明显，所以分数压在60–71区间。

一句话点评

短评：X发文章体验差到逼用户自己写插件，ChatGPT顺手就搓了一个。点评：X平台发文章体验烂到用户自己动手写插件，这本身就是个产品事故。开发者用ChatGPT（通过codex/goal）搞了个Markdown转X文章格式的插件，拖拽文件就能用，开源还上了谷歌插件商店。这事说明两点：一是原生编辑器确实拉胯，二是现在用AI搓工具的门槛低到离谱，一个人半天就能补上大厂产品缺口。不过正文没披露...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:00

22d ago

AI HOT 精选· aihot-apiZH06:00 · 05·22

DeepSeek V4 Flash 冲上周榜第一

OpenRouter 发帖说 DeepSeek V4 Flash 登顶周排行榜，但没说是哪个榜、评测指标是什么、对比了哪些模型、样本量多大。目前只能确认排名结果，其他细节一概缺失，建议等官方或第三方详细报告再下结论。

#Benchmarking#DeepSeek#OpenRouter#Benchmark

精选理由

HKR-H 和 HKR-R 通过，但 HKR-K 不通过：正文只说了登顶周榜，没有方法论、指标或可复现的对比，信息不足以支撑判断。

一句话点评

OpenRouter 发帖说 DeepSeek V4 Flash 登顶周榜，但没说是哪个榜、评测指标、样本量、对比了哪些模型。目前只能确认排名结果，其他细节一概缺失，建议等官方或第三方详细报告再下结论。短评：榜名、指标、样本量全没提，先别急着信。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:30

22d ago

● P1AI HOT 精选· aihot-apiZH04:30 · 05·22

DeepSeek推进七百亿元融资，承诺坚持开源而非商业化

DeepSeek 正在敲定一笔约 700 亿元人民币的首轮外部融资，投前估值约 450 亿美元。腾讯、IDG 资本和砺思资本接近参投，梁文锋个人也可能注资约 200 亿元。他在投资者会议上明确表示，公司会继续做开源模型，目标是通用人工智能，而不是急着商业化。如果这笔钱到位，将创下中国科技初创公司首轮融资的最高纪录。不过文章也提到，具体金额和最终参投方仍...

#DeepSeek#Liang Wenfeng#Tencent#Funding

精选理由

HKR 三项都踩中了。700 亿融资规模本身就够炸，加上梁文锋个人可能跟投 200 亿，这种资金体量在开源模型公司里不常见，所以 H 给了。K 这边，450 亿美元估值、腾讯和 IDG 接近入局，以及梁文锋明确说坚持开源不急着商业化，都是能帮人判断行业水温的关键事实。R 更直接，这笔钱怎么花、开源路线能不能扛住商业化压力，会直接影响国内 AI 创业的资本逻辑和开源生态。分数没给到 95 以上，是因为交易还在推进，最终条款和交割都没披露，先打个折。

一句话点评

700亿融资、450亿美元估值，梁文锋自己还要再掏200亿，但承诺继续开源不急着变现——这个组合挺少见，先别太激动，钱到账再说。

锐评

DeepSeek这轮融资如果落地，700亿元人民币的规模会是中国科技初创公司首轮融资的最高纪录。投资前估值约450亿美元，腾讯、IDG和砺思资本接近确定参投，国家队也在里面。梁文锋个人可能注资约200亿，同时明确表示继续开发开源模型，目标是通用人工智能而不是短期变现。这些数字很大，但正文没披露资金的具体用途——是买算力、养团队还是做生态？也没说开源会开到什么程度，是只放权重还是连训练方法、数据配比都公开。另外，报道来源是彭博社援引知情人士，最终参与者和金额都可能变，现在下结论还早。如果梁文锋真的用个人资金跟投200亿，那他对控制权和长期路线的坚持会比口头承诺更有说服力。但反过来，这么大一笔钱进来，投资方对回报的耐心能有多久，正文完全没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:25

22d ago

AI HOT 精选· aihot-apiZH04:25 · 05·22

Antigravity付费版Gemini周配额再翻三倍

Antigravity把付费用户的Gemini每周调用额度又提了三倍，而且已经重置了。之前翻倍过，这次再翻，对高频用户来说能省不少钱，不用频繁买包了。正文没披露具体数字，但连续翻倍说明用量增长快，或者他们在压成本。

#Google#Antigravity#Gemini#Product update

精选理由

HKR三项都过，但事实只是Antigravity付费用户的Gemini配额增加。没有新模型、新能力或定价细节，属于小产品更新，分数卡在66。

一句话点评

Antigravity 把付费用户的 Gemini 每周调用额度又提了三倍，而且已经重置了。之前翻倍过，这次再翻，对高频用户来说能省不少钱，不用频繁买包了。正文没披露具体数字，但连续翻倍说明用量增长快，或者他们在压成本。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:58

22d ago

FEATUREDAI HOT 精选· aihot-apiZH03:58 · 05·22

OpenAI Codex 的 /goal 模式转正了，现在可以给 AI 派跨小时甚至跨天的长任务

OpenAI 把 Codex 里的 /goal 模式从实验功能升级成了稳定版。你可以在 Codex 应用、IDE 插件或命令行里用，设定好里程碑后，AI 会自己跑任务，持续几小时甚至几天。中间能随时查看进度、改方向或暂停。用之前要升级应用并打开这个功能（命令行或手动改配置文件都行），开启后在输入框就能管理任务，侧边对话可以看进度，不会打断主任务。正文没...

#Agent#Code#Tools#OpenAI

精选理由

我会先打个折：文章只说了功能转正和多端支持，但没披露任务失败怎么恢复、资源消耗上限、以及哪些套餐能用。对想试的人，知道它能跑长任务就够了；对想上线用的人，信息缺口还很大。所以放在 featured 低段，等后续补上安全和成本细节再往上调。

一句话点评

Codex 的 /goal 模式结束实验正式上线，AI 能自己跑几小时甚至几天的任务，中间可以随时看进度、改方向或暂停。但正文没给出任何稳定性数据或实际跑通案例，这点先别太激动。

锐评

OpenAI 把 Codex 里的 /goal 模式从实验功能升级成稳定版，核心变化是让 AI 能长时间自主执行任务，不再需要人一直盯着。你设定好里程碑，它就能在应用、IDE 插件或命令行里持续跑，几小时到几天都行，中间可以随时查看进度、调整方向或暂停。这相当于把 agent 的工作周期拉长了，从单次问答变成了持续交付。但正文完全是功能描述，没给任何量化数据。稳定性到什么程度？任务跑几天会不会中途崩掉？成功率多少？资源消耗多大？这些全都没提。也没看到实际案例，比如跑了个什么复杂任务、花了多长时间、中间改了几次方向。对从业者来说，这种长时间自主运行的 agent 最怕的就是不可控，正文恰恰没回答这个问题。另外，开启方式提到要升级应用并手动改配置或敲命令行，说明还不是一键开启的体验，门槛还在。想评估这个功能到底能不能用，得等有人跑出真实任务数据再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:37

22d ago

FEATUREDAI HOT 精选· aihot-apiZH01:37 · 05·22

特朗普临阵叫停AI监管令，马斯克和扎克伯格在背后做了什么

特朗普在签字仪式前几小时突然取消了一份AI行政令。这份命令原本打算让政府在AI模型公开发布前先做安全评估。据Axios报道，直接原因是特朗普的AI顾问大卫·萨克斯、Meta的扎克伯格和xAI的马斯克都强烈反对，并在签字前夜到当天上午分别游说了特朗普。特朗普本人也一直不喜欢监管，他事后对记者说，监管会拖慢美国AI的领先速度。另外，草案里让财政部在安全漏洞...

#Safety#Donald Trump#David Sacks#Mark Zuckerberg

精选理由

我会先打个折：正文没披露草案全文、适用范围和交叉信源，所以事实颗粒度有限。但这条消息把白宫内讧、科技大佬游说和一个具体的发布前审查机制串在一起，冲突感和信息增量都够，放在 featured 没问题。

一句话点评

特朗普在签字前几小时叫停了AI安全评估行政令，马斯克、扎克伯格和AI顾问萨克斯连夜游说是直接原因。

锐评

这条新闻最值得看的是决策过程本身：一份已经排上签字仪式的行政令，被三位科技圈大佬在签字前夜到当天上午的几通电话直接打没了。特朗普事后对记者的解释也很直白——“我讨厌监管”，担心这会拖慢美国AI的领先速度。报道来自Axios，引用了多位知情人士，但Meta和xAI都没回应置评请求。草案里还有一个争议点：财政部被赋予了协调安全漏洞的主导角色，而以往这是网络安全局和标准技术研究院的活儿。正文没解释为什么财政部要插一脚，也没说这个“自愿测试计划”到底覆盖哪些模型。另外，白宫国家网络主任办公室私下透露还在制定其他AI安全举措，但具体是什么、什么时候出，正文完全没提。所以这份行政令告吹不等于美国AI监管就此停摆，只是“加速派”暂时占了上风。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:02

22d ago

FEATUREDAI HOT 精选· aihot-apiZH01:02 · 05·22

Luma推出Agents工作流自动将用户好评转化为配图

Luma Labs 上线了一个叫 Luma Agents 的自动化流程：你只需要把客户的好评贴进去，选个风格，AI 就会自动生成推荐语配图。正文没披露定价、用了什么模型、以及开放范围，所以暂时没法判断它比人工做图便宜多少或快多少。

#Agent#Vision#Tools#Luma Labs

精选理由

这是 Luma Agents 的一个小更新，给出了一个具体的生成机制——用户贴好评、选风格、出图。但正文没披露价格、模型参数或上线范围，信息缺口明显。HKR-K 通过，HKR-H 和 HKR-R 不通过，所以归入 all 层级。

一句话点评

Luma Labs 上线了 Luma Agents，把用户好评贴进去、选个风格，AI 自动生成推荐语配图。这活儿以前得设计师或运营手动排版，现在一条链接搞定。但正文没披露定价、用了什么模型、开放范围，所以没法判断它比人工做图便宜多少或快多少。短评：省了设计人力，但成本未知，先别急着替换团队。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

00:00

22d ago

持续报道 · 24dFEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·22

Grok集成开源个人助手OpenClaw向订阅用户开放

xAI 在 5 月 22 日宣布，Grok 模型已集成到开源个人助手 OpenClaw 中。OpenClaw 是一个本地优先的智能体，可以在 Mac Mini、笔记本、服务器甚至树莓派上运行，并且能跨会话记住上下文。它支持连接 WhatsApp、Telegram、Slack 等聊天工具，用户可以在这些平台上直接与 Grok 交互。只要你有 SuperG...

#Agent#Tools#Memory#xAI

精选理由

HKR-H 和 HKR-K 都过了，因为 OpenClaw 的消息集成和订阅条件算新信息。但影响停留在常规产品更新级别——没发新模型、没跑分、没改价、也没公开开发者 API 细节。

一句话点评

Grok 的付费账号现在能直接用在 OpenClaw 这个开源个人助理里了，等于你的 AI 订阅多了一个能跑在自己设备上的管家。

锐评

xAI 把 Grok 接入了 OpenClaw，一个开源、本地优先的个人助理平台。简单说，如果你有 SuperGrok 或 X Premium 订阅，现在就能在自家电脑、树莓派甚至 VPS 上跑一个 Grok 驱动的助手，还能让它接入 WhatsApp、Telegram、Slack 等聊天软件，在你常用的对话框里直接使唤它。这件事的实用点在于：模型还是 Grok，但运行环境和交互渠道交给了用户自己掌控。OpenClaw 强调本地运行和跨会话记忆，这对在意数据留在本机的人来说是个加分项。不过正文没提这种接入方式下 Grok 的响应延迟、功能阉割情况，也没说和官方 App 比体验打几折。另外，OpenClaw 本身是个社区项目，稳定性、后续维护力度都还是未知数。如果是真的省钱又方便，那对已有订阅的用户算白捡一个本地助手；但别急着把它当生产级工具，先拿台闲置设备跑跑看再说。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:00

22d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·22

可塑界面：AI 让软件界面按需变形，不再只有一种固定样子

Salesforce 已经“砍掉”了传统界面，销售不用登录网站就能通过 AI 更新交易记录。作者把这种趋势叫做“可塑界面”——AI 能根据你当下在干嘛，动态生成最适合的交互形式，比如开车时给你念邮件摘要、审文案时弹出网页应用、做预算时直接给个带图表的表格。文章引用了 Airbnb CEO 和 Anthropic 工程师的观点，认为纯文本对话不够用，电商...

#Agent#Tools#Multimodal#Salesforce

精选理由

我会先打个折：这篇是软件形态的展望，没有上线时间、用户数据或可复现的测试，所以放在评论类里刚好。正文说 Salesforce 已经用无头架构让销售靠 AI 直接改数据，界面不再写死，而是按场景动态生成 HTML、音频甚至网页。这点先别太激动——正文没披露这套动态生成在 Salesforce 里的实际覆盖范围、延迟和出错率，也没说 MCP 具体怎么接。但思路本身对做 B 端产品的人有用，因为它把“界面”从设计稿变成了模型输出，省不省开发成本另说，至少交互逻辑要重想。

一句话点评

Salesforce 把界面“砍了”，销售不用登录网站就能让 AI 更新交易记录，但文章没给实际落地数据和用户反馈。

锐评

这篇文章提出了一个挺有意思的判断：软件界面不会消失，而是会变成“可塑的”——AI 根据你当下的场景，动态生成最适合的交互形式。比如开车时给你念邮件摘要，审文案时弹出网页应用，做预算时直接给个带图表的表格。作者引用了 Airbnb CEO 和 Anthropic 工程师的观点，认为纯文本对话不够用，电商需要更丰富的界面，工程师也开始用 HTML 替代 Markdown 做输出。但文章本质上是一篇趋势评论，不是产品报告。它没披露 Salesforce 这套“无头”架构到底有多少客户在用、响应延迟多高、错误率如何，也没说动态生成界面在复杂业务场景下会不会失控。这些数字和验证的缺失，让“可塑界面”目前更像一个方向性判断，而不是马上能搬进产品的方案。还缺什么：一是实际案例的规模数据，二是动态 UI 的可靠性和一致性怎么保证，三是企业怎么管理这些随时生成又可能消失的界面——总不能每个临时表格都变成新的技术债。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

AX 严选 · 2026-05-22

更多

频道

后台