AX 严选 · 2026-05-28

▸ 34 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-28 · 星期四2026年5月28日

23:54

15d ago

AI HOT 精选· aihot-apiZH23:54 · 05·28

llm-anthropic 0.25.1 发布：支持 Claude Opus 4.8，默认输出长度不再卡 8192

Simon Willison 的 LLM 命令行工具更新了 Anthropic 插件，主要三件事：新增 Claude Opus 4.8 模型；给开通了 fast mode 的企业用户加了个 `-o fast 1` 参数，能更快出结果；默认 max_tokens 从固定的 8192 改成每个模型自己的最大输出长度——之前 8192 会截断长回复，现在不用...

#Tools#Inference-opt#Anthropic#Claude

精选理由

HKR-K 和 HKR-R 通过：具体选项和默认值改动会影响 Claude 工具链的实际使用。HKR-H 偏弱，这只是一个 llm-anthropic 的小版本更新，不是 Anthropic 的能力发布。

一句话点评

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

23:33

15d ago

AI HOT 精选· aihot-apiZH23:33 · 05·28

OpenRouter 上线模型对比页，可视化 GPT-5.5 和 Claude Opus 4.7/4.8 表现

OpenRouter 推出了一个模型对比页面，能直接可视化 GPT-5.5、Claude Opus 4.7 和 Claude Opus 4.8 的性能差异。正文没披露具体用了哪些指标维度、怎么打分的，所以这个页面更像一个快速看板，帮你直观感受模型间的相对强弱，而不是严谨的评测报告。

#Benchmarking#OpenRouter#OpenAI#Anthropic

精选理由

OpenRouter 上线了一个模型对比页面，把 GPT-5.5、Claude Opus 4.7 和 4.8 放在一起可视化。但正文没交代用了什么指标、权重怎么设、分数怎么算，等于只给了个空壳。对从业者来说，知道有这个页面就够了，但别急着拿它做选型依据——信息不全，验证不了。

一句话点评

OpenRouter 搞了个模型对比页面，把 GPT-5.5、Claude Opus 4.7 和 4.8 放一起可视化。好处是直观，不用自己翻基准分。但正文没交代用了哪些指标、怎么打分的，所以更像快速看板而非严谨评测。短评：直观对比 GPT-5.5 和 Claude Opus 4.7/4.8，但评分方法未公开，当看板用就好。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:55

15d ago

AI HOT 精选· aihot-apiZH20:55 · 05·28

Grok Build 0.2.7 上线：新增用量查询、登录、子智能体共享终端，图像理解也升级了

Grok Build 0.2.7 主要加了四个功能：/usage 可以查用量，/login 支持登录，跨子智能体共享终端（多个子任务能共用同一个终端环境），以及图像理解能力改进。正文没披露具体改进幅度、定价或灰度范围，想了解细节得自己去翻 changelog。

#Agent#Vision#Tools#xAI

精选理由

Grok Build 0.2.7 是小版本更新，功能具体：加了用量查询、登录、跨子智能体共享终端，图像理解也升级了。但正文没披露价格、上线范围或性能指标，信息缺口明显。HKR-K 和 HKR-R 过关，分数落在 60–71 区间合理。

一句话点评

Grok Build 0.2.7 更新了四个功能：用量查询、登录、跨子智能体共享终端（多个子任务共用同一个终端环境），以及图像理解改进。正文没披露改进幅度、定价或灰度范围，想了解细节得自己去翻 changelog。短评：四个功能里共享终端最实用，但没给性能数据，先别太激动。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

20:35

15d ago

AI HOT 精选· aihot-apiZH20:35 · 05·28

Replit Canvas：一个让你边画边改的AI建站工具

Replit 发布了 Canvas，一个智能体设计工具，用来建网站、做应用和营销素材。它不像传统聊天框那样只能打字，而是给你一块画布，可以自由探索想法、创建不同版本并反复修改。正文没披露定价、开放范围或背后的模型机制，所以具体怎么收费、什么时候能用、效果多好，目前还不清楚。

#Agent#Tools#Replit#Product update

精选理由

HKR-H 和 HKR-R 通过，因为 Canvas 有明确的开发者工作流钩子；HKR-K 不通过：正文缺少价格、上线范围和模型细节。这是一个常规产品更新，不是重点推荐。

一句话点评

Replit 出了个叫 Canvas 的智能体设计工具，主打画布式交互，不是传统聊天框。能建网站、做应用和营销素材。但正文没披露定价、开放范围或背后的模型机制，所以具体怎么收费、什么时候能用、效果多好，目前还不清楚。短评：画布交互比聊天框更直观，适合反复迭代。但没定价和开放范围，先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:03

15d ago

AI HOT 精选· aihot-apiZH19:03 · 05·28

Gemini Omni 在印度开放视频编辑功能

印度用户现在能用 Gemini Omni 直接编辑和转换手机里的视频了，支持从相册或已存文件上传。目前只限印度地区，其他地区还没消息。

#Multimodal#Vision#Gemini#Product update

精选理由

这是 Gemini Omni 在印度的小范围功能更新，只说了开放地区和支持上传来源，没披露定价、模型能力、质量指标或全球上线计划，所以分数压在 60-71 区间。

一句话点评

Gemini Omni 向印度用户开放了视频编辑功能，支持从相册上传视频直接剪辑和转换。目前仅限印度，其他地区未开放。正文没披露具体编辑能力（如裁剪、滤镜、转格式）和延迟表现，实用性待验证。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

18:52

15d ago

AI HOT 精选· aihot-apiZH18:52 · 05·28

MiniMax M2.7 免费智能体编程限时开放

MiniMax 宣布 M2.7 模型可在 OpenHandsDev 上免费用于智能体编程（让模型自动写代码、调代码），但限时开放。正文没说明活动持续多久、有无使用次数限制、模型参数大小以及是否需要申请资格。想尝鲜得抓紧，但具体门槛和时长都不清楚。

#Agent#Code#MiniMax#OpenHandsDev

精选理由

这是一条很小的产品可用性更新：HKR-K 和 HKR-R 通过免费智能体编程访问通过，但正文没写限时周期、额度、模型参数和使用条件，所以分数在 60–71 之间。

一句话点评

短评：免费白嫖 M2.7 写代码，但限时且门槛未知，别太激动。 MiniMax 把 M2.7 模型塞进 OpenHandsDev 平台，让开发者免费体验智能体编程——也就是模型自己写代码、调代码，省去手动改 bug 的功夫。限时开放，但正文没披露活动持续多久、有无使用次数限制、是否需要申请资格。M2.7 是 MiniMax 的旗舰模型，编程能力在内部测试中表现不错，但这次免费是推广手段还是...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

18:41

15d ago

AI HOT 精选· aihot-apiZH18:41 · 05·28

Google 发布 Pay & Wallet MCP 服务器，AI 助手可以直接查文档、验钱包卡、管商户

Google 推出了一个 MCP 服务器，专门给 Google Pay 和 Google Wallet 的开发者用。核心思路是让 AI 编程助手（比如 Cursor、VS Code 里的 agent）能直接调用四个工具：搜官方文档（用了 RAG，也就是外挂资料库，回答更准）、验证 Wallet 卡券的 JWT 或 JSON 定义、查你的集成状态和商户 ...

#Agent#Tools#Google#Product update

精选理由

HKR-K 成立，因为 IDE 内嵌实时 API 和账户上下文这个机制是新的；HKR-R 只对 MCP 工具实践者有参考价值，但 Google Pay/Wallet 的垂直场景限制了传播面；HKR-H 弱，标题没有制造悬念或紧张感。整体属于小范围产品更新，所以维持 64 分和 all 层级。

一句话点评

Google 给 Pay 和 Wallet 开发者出了个 MCP 服务器，让 AI 编程助手能直接搜文档（RAG 外挂资料库）、验证卡券 JWT、查集成状态和商户信息。好处是少切页面，但正文没披露延迟和成本，也没说支持哪些 IDE 以外的 agent。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

18:30

15d ago

FEATUREDAI HOT 精选· aihot-apiZH18:30 · 05·28

苹果想把谷歌数万亿参数的 Gemini 模型压缩进 iPhone，给新 Siri 当大脑

苹果正在尝试用模型蒸馏技术，把谷歌那个参数规模大到数万亿的 Gemini 模型缩小，塞进 iPhone 里本地运行，用来驱动新版 Siri。但 Ars Technica 的报道也泼了盆冷水：因为原始模型实在太大，完全在手机本地跑通的可能性很低，大概率还是得搭配云端处理。正文没披露具体的蒸馏方案、参数目标、延迟要求，也没给出发布时间表。

#Inference-opt#Apple#Google#Product update

精选理由

我会先打个折，因为这只是个爆料，不是已发布的产品。文章给了蒸馏方案和“云端大概率必需”的判断，但没披露模型压缩后的具体尺寸、延迟数据或上线时间，所以信息量够上 featured，但别当实锤看。

一句话点评

苹果想用蒸馏把谷歌万亿参数 Gemini 塞进 iPhone 跑新 Siri，但原文也承认纯本地跑通概率很低，大概率还得靠云端。

锐评

这条消息的核心矛盾点很直白：苹果想把一个参数规模大到数万亿的模型，通过蒸馏技术缩小到能塞进 iPhone 本地运行。蒸馏通俗讲就是让一个“大老师”模型教一个“小学生”模型，学它的回答风格和知识，从而把体积和算力需求压下来。但 Ars Technica 的报道自己先泼了冷水，因为原始模型实在太大，完全在手机本地跑通的可能性很低，大概率还是得搭配云端处理。这里缺的关键信息太多了。正文没披露具体的蒸馏方案、目标参数规模、对延迟的要求，也没给出任何发布时间表。没有这些数字，就没法判断这件事离落地有多远。比如，如果目标是 30 亿参数以下、首字延迟低于 100 毫秒，那还算有工程上的讨论价值；如果只是“正在尝试”，那更像早期技术验证。另外，用谷歌的模型来驱动 Siri，后续的授权、隐私和定制化空间也都是未知数。这条新闻值得关注，但现阶段只能当个方向性信号看，别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:35

15d ago

AI HOT 精选· aihot-apiZH17:35 · 05·28

Replit 说有四步能防 AI 生成应用留后门，但没公开具体步骤

Replit 发帖称有一套四步流程，用来保障 vibecode（AI 写代码）应用的安全，避免发布时留下后门。但帖子只提了目标，没披露四步具体是什么、做了哪些技术检查、以及可复现的安全条件。信息缺口明显，目前只能当个预告看。

#Code#Safety#Replit#Product update

精选理由

触发硬排除规则 6：除了一个后门警告，没有数据、步骤细节、机制或示例。HKR 中的 H 和 R 都存在，但信息缺口把分数压在 40 以下。

一句话点评

Replit 说有一套四步流程保 AI 写代码的应用安全，但帖子只画了饼，没披露四步具体是啥、做了哪些技术检查。目前就是个预告，信息缺口太大，没法判断靠不靠谱。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:25

15d ago

● P1AI HOT 精选· aihot-apiZH17:25 · 05·28

Google 发布图像模型 Nano Banana Pro 和 Nano Banana 2 接入 Gemini API

Google AI 开发者账号官宣了两个图像模型：Nano Banana Pro（代号 gemini-3-pro-image）和 Nano Banana 2（代号 gemini-3.1-flash-image），现在就能通过 Gemini API 调用，直接上生产环境。帖子贴了一些社区示例展示效果，但正文没披露定价、跑分、并发限制这些关键信息，想评估成...

#Vision#Multimodal#Google AI Developers#Gemini

精选理由

Google 这次一口气发了两个图像模型，Nano Banana Pro 和 Nano Banana 2，都走 Gemini API，直接面向生产环境。标题和摘要只给了名字和可用性，没提性能对比、价格、安全机制，所以没法判断实际强不强。我会先打个折，不往 p1 放，但作为产品动态值得让关注图像生成和多模态的人知道。

一句话点评

Google 把两款新图像模型 Nano Banana Pro 和 Nano Banana 2 接入了 Gemini API，但正文没披露具体性能数据和对比基准。

锐评

Google 这次发布的是两个图像模型，名字叫 Nano Banana Pro 和 Nano Banana 2，已经可以通过 Gemini API 调用。从命名看，Pro 版大概率是性能更强的版本，2 代可能是迭代升级。但这条消息目前只有标题，正文是空的，所以没法判断具体强在哪、快多少、成本怎么算。我会先打个折：接入 API 意味着开发者能直接用了，这是好事，但没看到任何 benchmark 或延迟数据之前，别急着下结论说它比现有方案好。如果你在选图像模型，建议等官方放出技术细节或第三方评测再对比。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:21

15d ago

● P1AI HOT 精选· aihot-apiZH17:21 · 05·28

Claude Code 现在能同时派几十上百个“子代理”分头干活

Claude Code 推出了动态工作流，一次会话里可以自动生成脚本、派出几十到几百个小代理（subagent）并行处理任务，做完还会先自己验证结果再交给你。目前是研究预览版，Max、Team 和开通了权限的企业用户能在命令行、桌面版、VS Code、API 以及 Amazon Bedrock 和 Vertex AI 上用到。正文没给出具体性能对比数据...

#Agent#Code#Tools#Anthropic

精选理由

HKR 三项全中。这是 Anthropic 对 Claude Code 的一次实质性更新，不是小修小补。核心卖点很具体：单个会话里并行跑几十上百个子智能体，对日常用 Claude Code 写代码的人意味着任务拆解和并发能力上了一个台阶。我会先打个折——目前还是研究预览，正文没披露并行任务的具体失败率和额外 token 开销，实际省不省钱得等用户自己跑完看账单。但就凭这个并发机制和明确的开放范围，值得当天跟进。

一句话点评

Claude Code 能自己写脚本、派几十上百个小代理并行干活，做完还先自查再交差。但正文没给性能对比，实际省多少时间、会不会并行翻车还不清楚。

锐评

Anthropic 给 Claude Code 加了个动态工作流，简单说就是让模型在一次对话里自动拆任务、写脚本、生成几十到几百个小代理（subagent）并行执行，最后把结果汇总验证再给你。这比之前手动一步步调要省事，尤其适合批量改代码、跑测试、跨文件重构这类重复性工作。目前是研究预览版，Max、Team 和开了权限的企业用户能在命令行、桌面版、VS Code、API 甚至 Amazon Bedrock 和 Vertex AI 上用到。覆盖面挺广，但正文没给出任何性能对比数据——比如同样一个重构任务，用动态工作流比不用快多少、token 消耗涨了多少、并行代理多了会不会互相踩脚。这些才是决定要不要切过去的关键。另外，代理数量提到“几十到几百”，这个范围太宽了。上限几百个代理同时跑，调度和一致性怎么保证，正文也没展开。建议等有实际跑分或者社区反馈再判断，现在只能当个方向性更新看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:05

15d ago

● P1AI HOT 精选· aihot-apiZH17:05 · 05·28

Claude Opus 4.8 发布：编码和操控浏览器更强，快速模式降价三分之二

Anthropic 把 Opus 升级到了 4.8，价格和 4.7 一样。主要提升在写代码和让模型自己操作网页完成任务上：在 Online-Mind2Web 这个测浏览器操控能力的基准上拿了 84%，漏掉的代码错误比之前少了大约 75%。新加了一个 2.5 倍速的快速模式，费用降到了之前的三分之一。早期用户反馈它更诚实，不会在证据不足时硬说搞定了，做复...

#Agent#Reasoning#Code#Anthropic

精选理由

HKR 三项全过。这是 Anthropic 旗舰模型更新，有明确的价格和基准数据：84% 的 Online-Mind2Web 得分说明在网页操作智能体任务上表现不错，代码错误漏检率降了约 75% 对日常写代码的人是个实在提升，价格没涨也降低了试用门槛。这些事实让这条更新在同日新闻里能排到 85–94 分区间。

一句话点评

Opus 4.8 在浏览器操控基准上拿了 84%，漏代码错误少了约 75%，还出了个 2.5 倍速模式，费用降到之前的三分之一。

锐评

Anthropic 把 Opus 4.8 定位成一次加量不加价的升级，价格和 4.7 持平。最实在的改进在写代码和让模型自己操作网页干活这两块：Online-Mind2Web 这个测浏览器操控能力的基准上拿了 84%，漏掉的代码错误比之前少了大约 75%。新加的快速模式把速度拉到 2.5 倍，费用降到之前的三分之一，对高频调用场景挺省钱。早期用户反馈它更诚实，不会在证据不足时硬说搞定了，做复杂任务时会先确认再动手，这点对放进业务流程里跑很重要。不过这篇公告是 Anthropic 自己发的，引用的用户评价都来自合作方，没有独立第三方的对照测试。系统卡里应该有更完整的评估，但正文没给出快速模式下能力会不会打折、延迟具体是多少。另外，跟 GPT-5.5 的对比只出现在个别用户引语里，缺少系统性的横向数据。如果你主要用它写代码或做网页自动化，漏错误少了 75% 是个值得试的信号；但如果是其他场景，等独立评测出来再判断会更稳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:02

15d ago

AI HOT 精选· aihot-apiZH16:02 · 05·28

微软开源 Data Formulator：用 AI 智能体帮你拖拽分析企业数据

微软研究院开源了 Data Formulator，一个面向企业数据工作流的 AI 分析工具。它把原始数据导入一个 AI 就绪的工作空间，用户可以用 AI 智能体（相当于一个会干活的助手）来探索、分析和可视化数据，把表格变成可操作的洞察。正文没披露定价、部署方式以及数据如何连接到系统，所以实际落地成本和安全验证还不清楚。

#Agent#Tools#Data Formulator#Product update

精选理由

HKR-K通过，因为智能体进入了企业数据探索、分析和可视化场景。HKR-H和R都偏弱，定价、部署、连接器均未披露，所以落在低产品更新区间。

一句话点评

微软开源了 Data Formulator，把原始数据导入一个 AI 工作空间，用智能体帮你分析、画图。相当于给 Excel 配了个会干活的助手。但正文没提定价、部署方式、数据怎么连进去，所以实际落地成本和安全验证还不清楚。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

15:41

15d ago

AI HOT 精选· aihot-apiZH15:41 · 05·28

Google 用 Kaggle 黑客松教小模型“先想再说”，冠军方案用评分表当奖励信号

Google 办了一场 Kaggle 黑客松，让社区用有限的 TPU 算力（Kaggle TPU v5e-8，限 9 小时）把 Gemma-2-2B 和 Gemma-3-1B 这种小模型训练出推理能力。冠军方案叫 G-RaR，核心是用一个大模型（Gemma-3-12B）当裁判，按评分表给模型的推理步骤打分，而不是只看答案对不对。这样即使答案不唯一，模型...

#Reasoning#Fine-tuning#Alignment#Google

精选理由

这是一篇 Google 开发者黑客马拉松的复盘，不是新模型发布。有用信号是后训练配方（SFT + GRPO + SimPO），在有限 TPU 下跑通，对社区做推理后训练有参考价值。但整体偏活动总结，信息密度有限，所以分数压在 60–71 区间。

一句话点评

Google 用 Kaggle 黑客松证明，小模型（Gemma-2-2B/3-1B）在有限算力（TPU v5e-8，限 9 小时）下也能训练出推理能力。冠军方案 G-RaR 的核心是用一个大模型当裁判，按评分表给推理步骤打分，而不是只看答案对不对。这样即使答案不唯一，模型也能收到细颗粒度的反馈。参赛者超过 11000 人，提交 300+ 方案。不过正文没披露最终模型在标准推理基准（如 GSM...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:10

15d ago

FEATUREDAI HOT 精选· aihot-apiZH15:10 · 05·28

商汤升级信息图生成模型支持学术内容渲染

商汤发布了升级版信息图生成模型 SenseNova-U1-8B-MoT-Infographic，参数规模8B。官方称在四个方向做了优化：文字准确性和可读性提升，减少重复和不当放大；布局更一致、背景更稳定；图表和示意图质量提高；新增学术内容渲染支持。推文附了 Hugging Face 模型页和演示链接。正文没披露训练数据量或推理速度，实际效果得跑过才知道。

#Multimodal#Vision#SenseTime#Hugging Face

精选理由

HKR-K 通过，因为提供了模型名、参数量和渲染目标。HKR-H 和 HKR-R 偏弱：正文没有披露任何基准测试、许可证或可复现的评测，所以这只是一次常规的产品更新。

一句话点评

商汤升级了信息图生成模型，这次重点补上了学术图表和复杂排版的短板，但正文没给具体效果数据，先观望。

锐评

商汤这次把信息图生成模型做了升级，主要强化了三块：文本渲染更准、版面布局更灵活、图表质量更高，特别提到能处理学术内容里的复杂图表。这对需要把论文或数据报告快速转成可视化长图的场景挺实用。不过目前能看到的信息都来自标题和简短摘要，正文是空的，没法判断升级后的实际表现。比如学术图表渲染的准确率有没有量化指标、复杂版面会不会崩、生成速度有没有变慢，这些关键点都没披露。另外也没说这个模型是开源还是只走商汤自己的 SenseNova 平台，接入成本高不高。如果是真的把学术图表生成做扎实了，对科研传播和知识类内容创作会省不少事。但没看到对比数据和案例之前，这点先别太激动。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

15:00

15d ago

FEATUREDAI HOT 精选· aihot-apiZH15:00 · 05·28

Perplexity 的 Computer 功能现在能直接嵌进 Word、Excel、PPT 和 Outlook 的侧边栏用了

Perplexity 把它的 Computer 助手塞进了微软 Office 套件里。你在 Excel、Word、PowerPoint 和 Outlook 的侧边栏就能直接使唤它，让它帮你起草文档、处理数据模型、做演示文稿或者打理邮件。正文没披露具体是哪个版本的 Office 支持，也没提需不需要额外付费。

#Agent#Tools#Perplexity#Microsoft

精选理由

Perplexity Computer 进了 Excel、Word、PPT 和 Outlook，能在侧边栏帮你起草文档、搭模型、做演示、处理邮件。这事本身有信息量，也戳中了办公 agent 入口的竞争点。但正文没提定价、权限控制、企业部署方案和实际效果数据，所以我会先打个折，不往更高层级推。

一句话点评

Perplexity 把它的 Computer 助手塞进了 Office 侧边栏，能帮你写文档、做表格和回邮件。但正文没说是哪个版本、要不要加钱，先别急着卸掉 Copilot。

锐评

Perplexity 的 Computer 助手直接嵌进了 Word、Excel、PPT 和 Outlook 的侧边栏，你可以在不跳出办公软件的情况下让它起草文档、处理数据模型、做幻灯片或打理邮件。这相当于给 Office 加了一个第三方 AI 面板，和微软自家的 Copilot 正面抢入口。不过这条消息信息缺口很大。正文没披露支持的是桌面版还是网页版 Office，也没说是否需要额外订阅 Perplexity Pro 或企业版。如果只是网页版侧边栏插件，实际体验会打折扣；如果是原生集成，那对 Copilot 的替代性就强不少。另外，Computer 在 Excel 里“建模”能做到什么程度、能不能跨文档调用数据，这些都没提。我会先打个折：这更像是一个侧边栏快捷入口，而不是深度改造 Office 底层。对已经买了 Copilot 的用户吸引力有限，但对用 Perplexity 做研究、顺手要写文档的人，省了来回切换的麻烦。等官方补上版本和定价信息再判断值不值得切过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

15d ago

AI HOT 精选· aihot-apiZH15:00 · 05·28

Google I/O 2026 速览：12 个重点，但只提了 Gemini Omni 和 3.5 Flash 两个模型名

Google 发了 I/O 2026 的 12 个高光时刻视频合集，正文只点名了 Gemini Omni 和 Gemini 3.5 Flash 两个模型，没披露参数、定价、上线时间或产品细节。Omni 应该是多模态统一模型，3.5 Flash 是轻量版，但具体快多少、便宜多少、能不能跑在端侧，一概没说。其他 10 个 moment 只给了标题和视频链接...

#Multimodal#Inference-opt#Google#Gemini Omni

精选理由

H 和 R 都成立：官方 I/O 回顾有浏览价值，模型竞赛也是持续热点。但 K 扣分严重——正文几乎没给干货，参数、价格、上线时间全缺，导致信息密度低，只能卡在 60-71 这个区间。

一句话点评

Google I/O 2026 的 12 个高光时刻，正文只点名了 Gemini Omni（多模态统一模型）和 Gemini 3.5 Flash（轻量版），没披露参数、定价、上线时间或产品细节。其他 10 个 moment 只有标题和视频链接，信息量极低。短评：标题党，正文几乎没干货，等后续技术博客再判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

14:38

15d ago

AI HOT 精选· aihot-apiZH14:38 · 05·28

OpenRouter 新增 Flex 和 Priority 两种服务层级

OpenRouter 给 OpenAI、Google Vertex 等模型加了两个服务选项：Flex（灵活）和 Priority（优先）。正文没披露具体定价，只说去各模型页面看。推测 Flex 可能更便宜但延迟高或排队，Priority 反之。

#Inference-opt#OpenRouter#OpenAI#Google Vertex

精选理由

HKR-K 和 HKR-R 通过：Flex/Priority 给推理运维加了一个控制点，直接关系到成本和延迟。HKR-H 不通过，加上定价缺失，分数落在 60–71 区间。

一句话点评

OpenRouter 给 OpenAI、Google Vertex 等模型加了 Flex（灵活）和 Priority（优先）两个服务层级。正文没披露具体定价，只说去各模型页面看。推测 Flex 可能更便宜但延迟高或排队，Priority 反之。短评：API 路由商开始分层卖服务，省钱还是省时间，得等价格出来再算。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

14:02

16d ago

AI HOT 精选· aihot-apiZH14:02 · 05·28

Runway 一人一天做出 AI 短片《昨夜》，讲东京一夜的记忆碎片

Runway 发布了一部完全由 AI 生成的短片《昨夜》，一个人用 Runway 在一天内完成，属于 Project Luxo 项目，目的是测试 AI 视频能否跨过“恐怖谷”（即画面逼真到让人不觉得诡异）。短片通过破碎记忆的视角，讲在东京改变人生的一个夜晚。正文没披露模型设置、片长、工作流程步骤或评估标准，所以不清楚具体用了多少算力、生成质量如何验证。

#Multimodal#Vision#Runway#Project Luxo

精选理由

H/K/R三个钩子都在，但都很弱：文章展示了一支有吸引力的Runway短片demo和一人一天的制作条件，没有模型更新、工作流拆解、指标或可复现的测试。

一句话点评

Runway 用一部完全由 AI 生成的短片《昨夜》来测试 AI 视频能否跨过“恐怖谷”，一个人一天内完成，成本和时间门槛确实低。但正文没披露片长、模型设置和生成质量验证方式，所以“跨过恐怖谷”这个结论得打个问号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:12

16d ago

AI HOT 精选· aihot-apiZH13:12 · 05·28

Anthropic 在米兰开第六个欧洲办公室，顺带晒了几个意大利客户用 Claude 的硬数据

Anthropic 在米兰开了新办公室，这是它在欧洲的第六个点（之前已有伦敦、都柏林、巴黎、苏黎世、慕尼黑）。正文主要晒了几个意大利客户案例：JAKALA 把 Claude 铺到了 3000 多个工位，说释放了 senior 团队约 70% 的时间；金融超级 App Satispay 把 18 个月的计划压缩到 7 个月，核心支付系统更新比原计划快 1...

#Code#Safety#Anthropic#JAKALA

精选理由

触发硬排除-纯营销：故事主体是 Anthropic 的区域办公室和客户部署通报。HKR-K 有具体数字，但无产品或能力更新，因此分数封顶。

一句话点评

Anthropic 在米兰开了欧洲第六个办公室，主要晒意大利客户案例。JAKALA 把 Claude 铺到 3000 多个工位，说 senior 团队释放了约 70% 的时间；Satispay 把 18 个月计划压缩到 7 个月，核心支付系统更新比原计划快 10 倍。数字挺好看，但都是客户自报，没有第三方验证，也没有披露具体成本或 ROI。Bending Spoons 说大部分代码改动用 C...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

13:10

16d ago

AI HOT 精选· aihot-apiZH13:10 · 05·28

OpenClaw 新版本上线：安全边界更严、网关更快、内存更稳

OpenClaw 发布了 2026.5.27 版本，主要改进包括更严格的运行时安全边界（防止越权或逃逸）、更快的网关和回复路径（降低请求延迟）、以及 Codex 和应用服务器的内存稳定性（减少 OOM 或抖动）。此外还优化了频道和提供商支持，新增 Pixverse 视频能力。正文未披露具体性能提升幅度或安全漏洞细节，但整体属于一次常规迭代，适合正在用 ...

#Code#Safety#Memory#OpenClaw

精选理由

HKR-K 通过，因为文章列出了具体更新：运行时安全边界、网关回复路径、内存和 Pixverse 视频。HKR-H 和 HKR-R 较弱；这只是一个小型开源工具的版本发布。

一句话点评

OpenClaw 发了个常规更新，主要修运行时安全边界（防越权逃逸）、降网关延迟、稳内存防 OOM。没给具体提升数字，也没说修了啥漏洞，算一次小迭代。Pixverse 视频是新能力，但正文没披露效果。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

12:47

16d ago

FEATUREDAI HOT 精选· aihot-apiZH12:47 · 05·28

Mistral 开源了一套搜索工具包，把数据灌入、检索和评测拆成可替换的模块

Mistral 发布了 Search Toolkit 的公开预览版，一个开源框架，把搜索系统拆成数据接入、检索和效果评估三层，每层都定义了统一接口。你可以把它部署在云上、本地机房或者边缘设备上，按需替换里面的组件。官方说这样能省掉重复造轮子的时间，但正文没给出具体的性能基准或延迟数据，实际效果还得自己测。

#RAG#Tools#Mistral AI#Product update

精选理由

Mistral AI 把数据喂入、检索和效果评估打包成一个开源框架，叫 Search Toolkit，现在开放公共预览。我会先打个折：这不算大新闻，但信息量够。它支持云端、本地和边缘部署，意味着你可以在自己机器上跑，不用被绑在某个云上。正文没披露具体性能对比和延迟数据，所以别太激动，但开源加评估环节这点对想自己搭资料库的团队挺实用。

一句话点评

Mistral 把搜索系统拆成三层开源框架，接口统一、组件可换，但正文没给性能基准和延迟数据，实际省不省事还得自己测。

锐评

Mistral 这次发的是一个开源框架，不是成品搜索服务。它把搜索系统拆成数据接入、检索和效果评估三层，每层都定义了统一接口，你可以把不同组件像乐高一样换着用，部署位置也不挑——云上、本地机房、边缘设备都行。官方说这样能省掉重复造轮子的时间，但正文没披露任何性能基准或延迟数据，也没给出跟现有方案（比如 LangChain、LlamaIndex 的检索模块）的对比。这点先别太激动：框架好不好用，关键看接口设计是否真的够抽象、社区能不能跟上。目前只是公开预览版，文档和生态都还在早期。如果你已经在用 Mistral 的模型和工具链，这个框架能帮你把搜索部分也统一进来；但如果你需要的是开箱即用的高性能搜索，正文提供的信息还不足以判断它能不能打。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

10:47

16d ago

FEATUREDAI HOT 精选· aihot-apiZH10:47 · 05·28

Mistral 推出物理 AI 模型，用一张 GPU 几秒钟预测完整物理场

Mistral 整合了 Emmi AI 团队，发布了一个面向工业工程的物理 AI 基础模型。它能根据几何结构、边界条件或测量数据，在单张 GPU 上用几秒钟预测出完整的物理场（比如温度、应力分布）。正文没披露具体架构、参数量、训练数据规模和实测误差范围，也没给出跟传统数值仿真在精度和速度上的量化对比，所以实际工程可用性还得看后续验证。

#Robotics#Inference-opt#Tools#Mistral AI

精选理由

Mistral 这次没发新聊天模型，而是直接拿下一个物理 AI 团队，做工业仿真。我会先打个折：正文没披露具体模型名、基准测试、定价和开放方式，所以没法判断它比现有求解器到底准不准、省多少。但方向本身值得关注——如果单 GPU 秒级出完整物理场是真的，对西门子能源这类重工业客户来说，仿真迭代速度会快很多，成本也可能降一截。这点先别太激动，等他们放出可复现的结果再说。

一句话点评

Mistral 开始做物理 AI 了，单卡几秒出温度、应力场，听着很省钱，但正文没给精度对比，先当 demo 看。

锐评

Mistral 收购 Emmi AI 后发了第一个物理 AI 模型，定位是给工业工程师用的基础模型。它能根据几何结构、边界条件或实测数据，在单张 GPU 上几秒钟预测出完整的物理场，比如温度分布和应力分布。这个速度对需要快速迭代的设计阶段确实有吸引力，相当于把传统仿真软件几小时甚至几天的活压缩到秒级。但正文没披露最关键的东西：跟传统数值仿真比，误差到底多少。也没说模型参数量、训练数据规模和覆盖的物理场景范围。只提了跟西门子能源有合作，没给任何量化验证结果。工业场景对精度要求极高，差 5% 可能整个设计方案就废了，所以“快”不能替代“准”。另外，模型是直接从几何和边界条件预测物理场，跳过了传统求解偏微分方程的过程。这种端到端思路在学术界有不少探索，但工程落地最大的坑是泛化能力——换个没见过的几何形状，预测会不会崩，正文完全没提。建议等他们放出 benchmark 或第三方评测再判断实际可用性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:47

16d ago

FEATUREDAI HOT 精选· aihot-apiZH10:47 · 05·28

Mistral 在 AI Now 峰会上公布工业 AI 路线图，Vibe 升级，并在巴黎郊区建推理数据中心

Mistral 在自家峰会上主要说了三件事。第一，他们和空客、宝马、ASML 合作搞工业 AI，让模型进到设计、制造这类业务流程里干活，但具体怎么落地、效果如何正文没细讲。第二，Vibe 这个能处理长周期任务的 AI 助手迎来升级，具体能力变化也没展开。第三，他们要在巴黎南边的 Les Ulis 建一个 10 兆瓦的推理数据中心，计划 2026 年第三...

#Agent#Reasoning#Inference-opt#Mistral AI

精选理由

我会先打个折：这次没发新模型能力，也没给定价细节，所以重要性卡在 featured 门槛上。但 Mistral 把数据中心规格（10 MW）和时间表（2026 Q3）都摊出来了，还绑定了空客、宝马、ASML 这些实打实的工业客户，比纯概念发布实在。正文没披露推理成本的具体数字，这点先别太激动。整体看，对做工业 AI 和关注欧洲算力布局的人值得扫一眼。

一句话点评

Mistral 宣布跟空客、宝马、ASML 合作搞工业 AI，但没给落地案例和效果数据，先当意向书看。

锐评

Mistral 这次峰会主要画了三张饼。第一张是工业 AI，拉上空客、宝马、ASML 这些大厂，说要让模型进到设计、制造流程里干活。听着阵仗很大，但正文没给出任何具体的应用场景、效率提升数字或者客户证言，目前更像品牌合作站台，实际落地深度存疑。第二张饼是 Vibe 助手升级，说能处理更长的任务链，但具体能力边界、任务完成率这些关键指标一概没提。第三张饼是巴黎南边那个 10 兆瓦的推理数据中心，计划 2026 年第三季度投运。10 兆瓦规模不算大，主要服务推理而非训练，说明 Mistral 在算力基建上还是走轻资产路线，跟 OpenAI、Google 那种自建超大规模训练集群的策略完全不同。整体看下来，这次发布战略意图大于产品实质。工业落地、助手能力、基础设施三条线都只给了方向，缺实测数据和客户案例。想判断这些合作是不是真能跑通，至少得等一个季度的实际交付结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:40

16d ago

● P1AI HOT 精选· aihot-apiZH10:40 · 05·28

DeepSeek 被曝融完 500 亿美元就冲科创板 IPO

一位参与本轮融资的大型基金经理说，DeepSeek 打算在完成约 500 亿美元（折合 3500 亿人民币）的融资后，立刻申请科创板上市。帖子没提估值、时间表、招股书，公司自己也没出来确认，我会先打个折看这件事。

#DeepSeek#Funding

精选理由

HKR 三项全中：DeepSeek 拿完约 500 亿美元融资就申请科创板 IPO，等于把中国大模型公司的身价直接摆到二级市场。消息来自参与本轮的一位基金经理，不是空穴来风，但正文没披露正式申请文件或更多交叉验证，所以可信度先打个折。这件事对行业的意义在于，它可能给国内 AI 公司的估值和退出路径提供一个真实参照，也会让中美 AI 竞争的讨论更具体。

一句话点评

消息来自一位参投基金经理，公司没确认，先打五折看。

锐评

这条消息只有一个信源：一位参与本轮融资的大型基金经理。帖子说 DeepSeek 打算在拿完约 500 亿美元（折合 3500 亿人民币）融资后立刻申请科创板上市，但没给出估值、时间表，也没看到招股书或公司官方表态。500 亿美元这个融资规模本身就很大，如果属实，说明资方对 DeepSeek 的商业化预期拉得很高。但“融完立刻申请”这种说法更像意向而非既定动作，科创板审核周期和监管态度都是变量。正文没披露这轮融资是否已 close、有哪些领投方、资金用途是什么，也没提公司营收或盈利情况。这些缺口让整件事还停在传闻阶段，别急着当定局看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:42

16d ago

AI HOT 精选· aihot-apiZH08:42 · 05·28

Qwen3.7-Max 在 OpenRouter 上用量冲到第一

阿里云宣布 Qwen3.7-Max 在 OpenRouter 热门大模型榜登顶，使用量达 77.3B tokens。这个数字说明调用量很大，但正文没披露统计周期、排名算法和定价，所以含金量不好判断。

#Alibaba Cloud#Qwen#OpenRouter#Benchmark

精选理由

HKR 三项都过：H 靠中国模型登顶 OpenRouter 这个具体 hook，K 有 773 亿 token 的用量数据但缺统计周期和价格，R 踩中模型竞争和开发者选型神经。来源是厂商自宣，信息不完整，分数压在 60–71 合理。

一句话点评

Qwen3.7-Max 在 OpenRouter 上以 773 亿 token 调用量登顶，说明用的人确实多。但正文没披露统计周期和排名算法，也没提定价，这个“热门榜”含金量要打折。如果是按绝对 token 数排，大厂免费或低价冲量很容易刷上去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:07

16d ago

AI HOT 精选· aihot-apiZH08:07 · 05·28

手把手教你用 pgvector 搭一套混合搜索：稠密+稀疏+量化，Colab 就能跑

这篇教程在 Google Colab 里搭了一个 pgvector 测试环境，覆盖 PostgreSQL 安装、pgvector 编译、Psycopg 连接、向量类型注册，以及用 SentenceTransformers 生成和存向量。正文没披露搜索效果对比或延迟数据，所以暂时只能当环境搭建指南看，不能直接判断这套混合搜索比纯稠密好多少。

#RAG#Embedding#Tools#Google

精选理由

这是一份可复现的 pgvector/RAG 工程指南，没有产品发布、基准数字或行业事件，因此停留在 60-71 的教程区间。

一句话点评

这篇教程手把手教你在 Colab 里搭 pgvector 环境，从装 PostgreSQL、编译 pgvector 到用 SentenceTransformers 生成向量存进去。但正文没披露搜索效果对比或延迟数据，所以暂时只能当环境搭建指南看，不能直接判断这套混合搜索比纯稠密好多少。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

08:02

16d ago

AI HOT 精选· aihot-apiZH08:02 · 05·28

可灵AI要在AI电影节放20部原生4K短片

可灵AI将在5月29日加州卡尔弗剧院举办的AI on the Lot社区日上，展示20部由Prompt Club创作者制作的原创AI短片，全部是原生4K分辨率。这算是AI视频生成领域少见的“真4K”展示——之前很多AI短片都是后期拉伸或超分上去的，原生4K意味着生成模型本身就能输出高分辨率画面，对算力和模型细节要求更高。不过正文没披露这些短片是纯AI生...

#Multimodal#Vision#Kling AI#AI on the Lot

精选理由

20部4K原生AI短片在电影节展映，说明可灵AI在视频生成质量上敢拿大屏幕检验，对从业者是个信号。但正文就是个活动预告，没提用了什么新模型、工作流机制、成本数据或评测基准，所以信息量有限，不值得过度兴奋。

一句话点评

可灵AI要在AI电影节放20部原生4K短片，不是后期拉伸那种，对算力和模型细节要求高。但正文没提这些短片是纯AI生成还是人工辅助，也没说时长和帧率，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:33

16d ago

AI HOT 精选· aihot-apiZH03:33 · 05·28

阿里云DataWorks上线AI数据智能体

阿里云DataWorks推出一个叫Data Agent的AI数据智能体，号称能简化数据工作流、加速洞察。但这条推文只给了产品名和一句宣传语，没提用了什么模型、怎么收费、哪些区域能用、技术原理是什么。说白了就是个预告，具体能力得等后续披露。

#Agent#Alibaba Cloud#DataWorks#Product update

精选理由

硬排除-云厂商促销：这是阿里云产品推广，只有一句泛泛的简化工作流。HKR三项全不满足，所以分数低于40且排除tier。

一句话点评

阿里云DataWorks出了个叫Data Agent的AI数据智能体，号称简化数据工作流、加速洞察。但这条推文只给了产品名和一句宣传语，没提用了什么模型、怎么收费、哪些区域能用、技术原理是什么。说白了就是个预告，具体能力得等后续披露。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

02:19

16d ago

AI HOT 精选· aihot-apiZH02:19 · 05·28

阿里云市场上架 MuleRun：每月20美元买一个“AI打工人”，能写代码做设计

MuleRun 把自己包装成一个“全天候 AI 劳动力”，挂在阿里云市场上卖，个人版每月20美元起。能干的事包括研究、写报告、写代码、做设计。企业版加了 SSO 单点登录、RBAC 权限控制、私有网络、团队知识管理和集成。正文没披露模型基座、任务成功率或延迟数据，所以“劳动力”这个说法先打个折——更像是一个封装好的 AI 代理服务，适合小团队快速试用，...

#Agent#Code#Tools#MuleRun

精选理由

硬规则排除云厂商促销：这是阿里云市场的一个上架公告，列出了价格和功能清单，但没有性能数据、采用规模或可验证案例。HKR-K通过，但分数上限40。

一句话点评

MuleRun 在阿里云市场上架了一个“全天候 AI 劳动力”，个人版每月 20 美元起，号称能干研究、写报告、写代码、设计。企业版加了 SSO、RBAC、私有网络和团队知识管理。但正文没披露模型基座、任务成功率或延迟数据，所以“劳动力”这个说法先打个折——更像是一个封装好的 AI 代理服务，适合小团队快速试用，但离替代真人还差不少验证。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

02:14

16d ago

FEATUREDAI HOT 精选· aihot-apiZH02:14 · 05·28

英伟达开源 Polar 框架，不改代码就能让 Codex 跑分涨近 6 倍

英伟达搞了个叫 Polar 的开源框架，专门解决一个实际问题：怎么在不重写 Codex、Claude Code 这些现成代码工具的前提下，用强化学习（GRPO，一种让模型在多步任务里根据奖励信号自己学会更优操作的训练方法）去训练它们。Polar 的做法很取巧，它不碰工具本身的执行逻辑，而是在模型和工具之间的 API 接口上做文章，把对话记录、采样结果这...

#Agent#Code#Fine-tuning#NVIDIA

精选理由

英伟达开源 Polar，用 GRPO 训练小模型 Qwen3.5-4B，Codex 在 SWE-Bench Verified 上从 3.8% 冲到 26.4%，这个提升幅度在代码 agent 圈子里很能打。技术细节和基准分都给得清楚，属于扎实的研究开源项，不是大模型或产品发布，所以放在 featured 档、82 分合理。

一句话点评

英伟达开源 Polar，不重写代码工具本身，只在 API 层加强化学习训练，让 Codex 跑分从 3.8% 拉到 26.4%。但这是 4B 小模型的实验，换大模型效果未知。

锐评

Polar 解决了一个很实际的工程问题：怎么给现成的代码工具（比如 Codex、Claude Code）加上强化学习训练，又不用把它们的内部逻辑拆了重写。做法是在模型和工具之间的 API 接口上做文章，把对话记录、采样结果这些信息截获下来，重建成训练数据。这比传统方法省事很多，不用去改那些复杂的执行外壳。效果上，基于 Qwen3.5-4B 这个小模型，Codex 在 SWE-Bench Verified 上的 pass@1 从 3.8% 提到了 26.4%，确实涨了不少。但要注意，起点很低，3.8% 基本等于不会做，26.4% 也还远没到能用的程度。其他几个框架的提升幅度就小多了，Claude Code 只从 29.8% 提到 34.6%。效率方面，用了 prefix_merging 后训练步骤从 1185 次降到 218 次，时间快了 5 倍多，GPU 利用率也从 20% 拉到 87%，这部分工程优化挺扎实。文章没提在大模型上的表现，也没说训练成本和最终模型的实际编程能力到底怎么样。4B 模型上的实验只能说明方法可行，离生产环境还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:24

16d ago

AI HOT 精选· aihot-apiZH01:24 · 05·28

华为何庭波：今年秋季新麒麟芯片性能“跳跃性”提升，首发完整“韬芯片”

华为半导体业务总裁何庭波接受人民日报专访，确认今年秋季将发布首款完整“韬芯片”麒麟手机芯片，性能、集成度、晶体管密度相比去年是“跳跃性”提升。她提出“韬定律”用“时间缩微”替代摩尔定律的“几何缩微”，核心是逻辑折叠技术——类似把城市区域叠起来装电梯，缩短信号传输时延。过去6年华为已自研381款芯片，覆盖光通信、5G、自动驾驶、AI计算等。正文未披露新芯...

#Huawei#He Tingbo#People's Daily#Product update

精选理由

这篇是人民日报专访华为何庭波，核心信息是华为6年自研381款芯片、秋季发新麒麟芯片且性能“跳跃性提升”。但正文没披露任何可验证的性能指标、AI算力或制程数据，对AI从业者来说，既没有模型更新、也没有智能体或算力产品信息，H/K/R三项全不满足。

一句话点评

何庭波官宣秋季麒麟芯片性能“跳跃性”提升，但没给任何跑分、制程或功耗数据。她提出的“韬定律”用逻辑折叠（类似把电路叠起来缩短信号延迟）替代摩尔定律的几何缩微，过去6年自研381款芯片覆盖通信、AI、自动驾驶。亮点是华为首次从理论层面讲自己的芯片演进逻辑，但正文没披露新芯片的代工厂、良率或能效比，跳跃性提升到底跳了多少也不清楚。短评：官宣跳跃但没给标尺，韬定律是理论包装还是真能落地，等秋季真机。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:00

16d ago

● P1AI HOT 精选· aihot-apiZH00:00 · 05·28

xAI 发布编程模型 Grok Build 0.1 公测版

xAI 发布了专门干编程活的模型 grok-build-0.1，现在通过 API 公测。这个模型主要用来做网页开发、修 bug 这类需要模型自己调用工具、跑流程的任务，跟 Grok Build 命令行工具背后是同一个模型。速度标称每秒 100 个 token 以上，价格是输入每百万 token 1 美元、输出每百万 token 2 美元。除了写代码，官...

#Agent#Code#Tools#xAI

精选理由

我会先打个折：这是 0.1 公测版，正文没披露基准测试成绩、上下文窗口大小和具体任务成功率，所以别急着把它当成成熟产品。但亮点很实在——速度标到 100+ tokens/秒，定价也直接亮出来，输入 $1/M、输出 $2/M，对想试编码智能体的团队来说，成本门槛不高。xAI 明显在抢 Cursor/Claude 的开发者心智，这点从定位就能看出来。综合看，信息量够、有价格锚点，但缺验证数据，给 78 分、featured 不 p1 是合理的。

一句话点评

xAI 发了专做编程的模型 Grok Build 0.1，速度标称每秒 100+ token，输入每百万 token 1 美元、输出 2 美元，主打 agent 式写码和工具调用。

锐评

xAI 这次放出的 Grok Build 0.1 是个专门干编程活的模型，现在通过 API 公测。它明确说自己是为“agentic coding”训练的，也就是让模型在开发流程里自己规划、调用工具、改代码，不是只补全一行。支持的场景包括网页开发、调试和 MCP（模型上下文协议，让模型能接外部工具）。速度标称每秒 100 多个 token，在编程模型里算快的，价格是输入每百万 token 1 美元、输出 2 美元，比自家通用模型便宜一截，对高频调用比较友好。官方说这个模型就是 Grok Build CLI 背后的引擎，也接入了 Cursor、OpenRouter、Vercel AI Gateway 等第三方工具。不过目前没给任何跑分数据，SWE-bench、HumanEval 之类的基准都没提，所以实际编程水平没法判断。另外“公测”意味着接口和稳定性可能还有变动，生产环境接入前最好先压测一下。还缺的东西很关键：一是没有和其他编程模型（比如 Claude、GPT-4o、DeepSeek Coder）的对比，二是没说明上下文窗口多大、支持哪些语言和框架的深度优化。如果只是快和便宜但生成质量跟不上，那省下来的钱可能不够修 bug。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

16d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·28

AI 智能体时代的安全：一个终端可能跑着上万个智能体，每个都得有自己的身份

Lemonade 的安全负责人 Jonathan Jaffe 聊了聊当攻防双方都用上 AI 后，安全团队该怎么变。他提到一个终端上可能同时跑着 200 到 10000 个智能体，现在的身份和权限管理系统根本管不过来，必须给每个智能体一个独立身份，并在它执行动作时直接卡控策略。另外，AI 写的代码漏洞虽多，但修得也快，软件反而可能更皮实。安全团队本身也在...

#Agent#Code#Safety#Lemonade

精选理由

这篇是活动评论，不是产品发布或研究论文，但终端智能体数量和身份管控模型这两个信息点很实在，对正在头疼智能体安全的团队有参考价值，放在 featured 里合适。

一句话点评

Lemonade 安全负责人说，一个终端上可能同时跑着 200 到 10000 个 AI 智能体，现在的权限系统根本管不过来，得给每个智能体发独立身份证并在它动手时直接卡策略。

锐评

Jonathan Jaffe 的核心判断很直接：攻防双方都用上 AI 后，防守方反而可能占优，因为所有安全厂商都在同时给产品打补丁、做加固，漏洞窗口期在缩短。他举了个反直觉的例子——AI 写的代码漏洞多，但修得也快，软件整体反而可能更皮实。这个逻辑成立的前提是“修得比攻得快”，但正文没给出任何修复速度对比数据，这点先别太激动。真正值得关注的是他对身份系统的警告。一个终端跑 200 到 10000 个智能体，每个都要独立身份并在执行动作时实时卡控策略，现在的 IAM 系统确实做不到。Lemonade 的做法是把安全团队全转成工程师，自建平台用智能体管智能体，比如一个智能体读威胁情报，另一个去查生产代码里是否真调用了漏洞方法。这思路务实，但正文没披露这套自研平台的误报率、延迟和覆盖范围，也没说清策略冲突时怎么仲裁。还缺一块：攻击方用 AI 自动化后，攻击成本降到多低、频率提到多高，文章完全没提。没有攻方的数字，就很难判断防守方的“自动化”到底够不够用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

AX 严选 · 2026-05-28

更多

频道

后台