AX 严选 · 2026-05-29

▸ 36 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-29 · 星期五2026年5月29日

23:58

14d ago

AI HOT 精选· aihot-apiZH23:58 · 05·29

ComfyUI 现在能直接调 OpenRouter 的 20 多个模型了

ComfyUI 新版本接入了 OpenRouter，你可以在同一个工作流里直接选 20 多个模型，不用再单独配置每个模型的 API。对做图生图、视频生成这类需要反复试模型的人来说，省了来回切换的麻烦。不过正文没提具体支持了哪些模型、有没有请求次数限制，也没说 ComfyUI 版本号，想用的话得自己去试。

#Tools#ComfyUI#OpenRouter#Product update

精选理由

HKR-K 和 HKR-R 通过：ComfyUI 工作流里能直接调 20 多个 OpenRouter 模型，省去来回切换工具。正文没披露版本号、费用和调用限制，只能算小产品更新。

一句话点评

ComfyUI 直接调 OpenRouter，工作流里能选 20 多个模型，省去挨个配 API 的麻烦。对反复试模型做图、做视频的人挺方便。但正文没提具体支持哪些模型、有没有调用次数限制，也没说 ComfyUI 版本号，想用还得自己试。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

22:31

14d ago

AI HOT 精选· aihot-apiZH22:31 · 05·29

DynoSim：用模拟跑一遍部署配置，省下大把GPU时间

NVIDIA 发了一个叫 DynoSim 的模拟器，专门用来调大模型推理服务的部署参数。调过的人都知道，模型后端、张量并行、调度策略、路由、KV 缓存这些变量互相影响，改一个可能把瓶颈挪到别处，而且跑一次真实实验就要占一堆 GPU。DynoSim 的思路是用离散事件模拟把整个 Dynamo 推理栈跑一遍，在虚拟时钟上模拟请求到达、调度、前向传播、KV ...

#Inference-opt#NVIDIA#Commentary

精选理由

HKR-K和HKR-R是弱正面：推理优化相关，但正文只给出了变量类别，省略了DynoSim机制、可复现结果和发布状态。

一句话点评

NVIDIA 发了个叫 DynoSim 的模拟器，专门用来调大模型推理服务的部署参数。调过的人都知道，模型后端、张量并行、调度策略、路由、KV 缓存这些变量互相影响，改一个可能把瓶颈挪到别处，而且跑一次真实实验就要占一堆 GPU。DynoSim 的思路是用离散事件模拟把整个 Dynamo 推理栈跑一遍，在虚拟时钟上模拟请求到达、调度、前向传播、KV 缓存等行为，而不是真的去跑 GPU。它用 ...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

22:23

14d ago

AI HOT 精选· aihot-apiZH22:23 · 05·29

Claude Design Card：把文字一键转成公众号首图和小红书卡片，支持28种布局

这是一个专为中文内容创作者设计的开源工具，能把文字、链接或文章直接生成视觉卡片，比如公众号首图、小红书图文卡、教程步骤卡。它自动提炼重点、选版式、生成HTML再截图成PNG，省掉手动用Figma或Canva的步骤。支持28种布局和10种主题，核心价值是自动化“写完文章后最繁琐的排版流程”。开源，适合经常发内容的创作者试试。

#Tools#claude-design-card#Figma#Canva

精选理由

HKR-H 和 HKR-K 通过：它把文字/链接/文章一键转成公众号首图、小红书卡片，对做内容运营的人是个实在的钩子，而且明确写了 28 种布局、10 种主题。HKR-R 弱：这是个 Claude 周边的小工具，不是模型能力或市场级别的发布，对多数从业者参考价值有限。

一句话点评

这个开源工具能把文字/链接一键转成公众号首图、小红书卡片，支持28种布局和10种主题，省掉手动开Figma的步骤。核心是自动提炼重点→选版式→生成HTML→截图PNG。开源免费，适合高频发内容的创作者。不过正文没披露生成一张图要多久、截图质量是否稳定，实际体验可能打折扣。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

22:19

14d ago

FEATUREDAI HOT 精选· aihot-apiZH22:19 · 05·29

Codex 现在能自己管自己的聊天线程和并行任务了

OpenAI 的 Codex 界面新增了对话线程管理能力，可以自己创建、搜索、整理和固定聊天线程，还能为并行任务启动工作树。这条信息来自 X 上的用户分享，正文没披露具体实现方式、准确率或延迟数据，我会先打个折——目前看起来更像一个便利功能，而不是底层模型能力的升级。

#Agent#Code#Tools#Product update

精选理由

HKR 三项都过：Codex 拿到了具体的线程管理和并行工作树机制，对编码 Agent 用户有实际价值。正文没披露适用范围、定价和性能数据，所以我会先打个折，放在 featured 偏低的位置。

一句话点评

Codex 能自己管聊天线程了，还能开并行工作树。但正文没给准确率或延迟，先当便利功能看。

锐评

这条更新让 Codex 能自己创建、搜索、整理和固定对话线程，还能为并行任务启动工作树——相当于给 AI 助手加了个自动整理聊天记录和任务面板的功能。来源是 X 上的用户分享，OpenAI 官方没发技术细节，所以准确率、延迟、能同时处理多少线程这些关键指标全是空白。从实用角度看，这解决了一个真实痛点：用 Codex 干活时对话一多就乱，手动管理线程很烦。但别把它当成模型推理能力的升级，更像界面层的自动化脚本。如果线程搜索是靠语义匹配而不是简单关键词，那还有点意思；如果只是按标题排序，价值就有限。还缺什么：正文没披露这个功能是本地运行还是依赖云端、会不会在复杂任务树里自己搞混、以及用户能不能纠正它的整理结果。这些缺口决定了它到底是真省事还是多一个需要盯着的半成品。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:03

14d ago

AI HOT 精选· aihot-apiZH21:03 · 05·29

ChatGPT 对话目录功能上线

ChatGPT 现在给超过5条回复的对话加了个目录，方便你快速跳转到聊到哪了。正文没说是全平台推送还是灰度测试，也没提用户能不能手动开关。

#Tools#ChatGPT#OpenAI#Product update

精选理由

HKR-K和HKR-R通过：5条回复触发条件具体，长对话导航痛点真实。HKR-H不通过：这只是一个小功能更新，平台范围和开关条件正文都没披露。

一句话点评

ChatGPT 给长对话加了目录，超过5条回复自动生成，方便跳转。官方没说是不是全量推送，也没提能否关闭。小改进，但长聊场景挺实用。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

20:40

14d ago

AI HOT 精选· aihot-apiZH20:40 · 05·29

Luma Agents 上线：输入内容自动生成宣传图

Luma Labs 宣布 Luma Agents 可以根据用户输入的内容和定义的“钩子”自动生成宣传图，省去手动设计。但正文只给了 App 链接，没提模型细节、定价、输出数量限制或上线范围，实际效果和成本还不清楚。

#Agent#Tools#Multimodal#Luma Labs

精选理由

HKR-H 靠“输入内容生成宣传图”这个自动化钩子过关，但 K 和 R 都很弱。没有硬性排除理由，所以留在低优先级的产品更新档位。

一句话点评

Luma 出了个“宣传图自动生成”工具，你给内容和一句钩子，它就能出图。正文只扔了个 App 链接，没提用了什么模型、怎么收费、一次能出几张、哪些地区能用。效果和成本全是问号，先别激动。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

20:10

14d ago

AI HOT 精选· aihot-apiZH20:10 · 05·29

Runway API 上新了五个模型，包括视频生成和图像放大

Runway API 新增了五个模型：Seedance 2.0（视频生成）、GPT Image 2（图像生成）、HappyHorse 1.0（未知用途）、Nano Banana Pro（可能是轻量模型）和 Magnific Precision Upscaler V2（图像放大）。官方说可以在一个接口里调用这些模型，但正文没披露价格、响应速度、调用次数限...

#Multimodal#Vision#Tools#Runway

精选理由

Runway API 例行端点扩展：HKR-K 有具体的模型列表，HKR-R 适合多模态集成决策，但 HKR-H 较弱，且正文没有给出定价、限制、延迟或新能力。

一句话点评

Runway API 一口气加了五个模型，包括视频生成 Seedance 2.0、图像生成 GPT Image 2、放大工具 Magnific Precision Upscaler V2，还有两个用途不明的 HappyHorse 1.0 和 Nano Banana Pro。官方说一个接口就能调，但没披露价格、响应速度、调用次数限制和地区可用性。如果价格合理，对想快速集成多种生成能力的开发者挺...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

20:03

14d ago

FEATUREDAI HOT 精选· aihot-apiZH20:03 · 05·29

OpenAI 放出一个实时翻译语音模型，70 多种语言输入，13 种语言输出

OpenAI 发了 gpt-realtime-translate，一个专门做语音翻译的模型。你对着它说 70 多种语言里的任意一种，它能直接用 13 种目标语言把语音播出来。OpenAI 说大模型虽然强，但特定任务还是得上专用模型。目前这个功能已经在智能眼镜上跑起来了，不过正文没披露延迟、准确率和具体硬件细节。

#Audio#Multimodal#Inference-opt#OpenAI

精选理由

我会先打个折：正文没提延迟、定价和 API 开放时间，所以实际能不能用、贵不贵还不知道。但 OpenAI 把实时翻译塞进智能眼镜，70多种语言进、13种语言出，这个组合本身是个挺实在的进展，值得从业者看一眼。

一句话点评

OpenAI 出了个专做语音翻译的模型，说 70 多种语言进、13 种出，已经在智能眼镜上跑了。但延迟、准确率、具体哪款眼镜全没提，先当 demo 看。

锐评

OpenAI 这次没拿通用大模型硬套翻译，而是专门训了个 gpt-realtime-translate，思路是对的：实时语音翻译对延迟和稳定性要求极高，通用模型往往顾不过来。它支持 70 多种输入语言，但输出只覆盖 13 种，说明目前重点在主流语种上，小语种输出还没跟上。官方说已经在智能眼镜上跑起来了，这是个关键场景——眼镜是离嘴和耳朵最近的设备，翻译做好了确实顺手。但正文完全没披露端到端延迟、字错率、不同口音下的表现，也没说是哪款眼镜、本地跑还是云端跑。这些数据直接决定它能不能真用，而不是又一个酷炫 demo。另外，专用模型意味着它可能比通用模型更省算力，但 OpenAI 没给任何成本或推理速度的对比。如果延迟能压在 300 毫秒以内，准确率接近人工同传的 90% 左右，那才算有杀伤力。现在只能说方向对了，落地程度还得等实测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:15

14d ago

AI HOT 精选· aihot-apiZH19:15 · 05·29

LlamaIndex 给 Google 新出的 Agents API 搭了个文档解析模板

LlamaIndex 团队基于 Google 刚发布的 Agents API 做了一个模板，让智能体能直接调用 LlamaParse 和 LiteParse 来解析非结构化文档。流程分四步：先配好 Git 仓库地址，把仓库克隆到智能体沙箱里，装上 LiteParse 命令行工具和 LlamaParse 的 SDK，最后用提示词驱动智能体干活。说白了就是...

#Agent#Tools#LlamaIndex#Google

精选理由

这是个小众开发者工具的模板更新：HKR-K靠具体的配置步骤和解析流程通过；HKR-H没有悬念或惊喜，不成立；HKR-R范围窄，没有行业争议点，所以定级为all而非featured。

一句话点评

LlamaIndex 给 Google Agents API 套了个模板，让智能体能直接调 LlamaParse 和 LiteParse 解析非结构化文档。流程四步：配 Git 仓库、克隆到沙箱、装 CLI 和 SDK、用提示词驱动。说白了就是把文档解析能力打包成智能体技能。亮点是省去自己写工具调用的麻烦，适合快速搭文档处理流水线。但正文没披露解析速度、成本、支持的文件类型上限，也没说沙...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

19:00

14d ago

AI HOT 精选· aihot-apiZH19:00 · 05·29

Google 用 AI Studio 搞了个 I/O 2026 测验，全程“氛围编程”

Google 拿自家 AI Studio 工具，用“氛围编程”（就是靠自然语言描述需求让模型写代码，不手敲）做了个 I/O 2026 的在线测验。正文只说了工具和主题，没透露用了哪个模型、具体提示词怎么写、工作流怎么搭，也没说什么时候上线。想抄作业的从业者得自己试了。

#Code#Tools#Google#Product update

精选理由

官方测验推广；正文只说Google AI Studio用氛围编程生成，没有可复现的工作流、模型细节或产品变化。HKR三项全挂，所以排除。

一句话点评

Google 用自家 AI Studio 搞了个 I/O 2026 在线测验，全程靠“氛围编程”——也就是用自然语言描述需求让模型写代码，不用手敲。正文只说了工具和主题，没透露用了哪个模型、具体提示词怎么写、工作流怎么搭，也没说什么时候上线。想抄作业的从业者得自己试了。短评：氛围编程做测验，噱头大于细节，缺模型和提示词，抄不了。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

18:59

14d ago

AI HOT 精选· aihot-apiZH18:59 · 05·29

Gemini Omni 演示：画个圆就能变视频

Gemini App 发了个演示：你上传一段画圆的视频，输入提示词“当我画完这个圆时，它变成了___”，模型就能把草图变成视频。效果看着挺酷，但正文没披露用了什么参数、什么时候开放、怎么收费。目前只是个 demo，离真正上手用还有距离。

#Multimodal#Vision#Gemini App#Gemini Omni

精选理由

官方 X 账号演示了一个具体的草图转视频流程，满足 H/K/R 的钩子、新知和相关性判断。但正文没披露模型参数、上线范围或价格，只是一个功能演示，不是正式发布，所以评分落在 60–71 区间。

一句话点评

Gemini App 演示了 Omni 的草图转视频功能：上传画圆视频，输入提示词“当我画完这个圆时，它变成了___”，模型就能生成视频。效果酷，但正文没披露用了什么参数、何时开放、怎么收费。目前只是个 demo，离上手还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:30

14d ago

FEATUREDAI HOT 精选· aihot-apiZH18:30 · 05·29

Codex 现在能远程操控你的 Windows 电脑了，目前还是早期体验

OpenAI 给 Codex 加上了 Windows 支持，你可以在手机上用 ChatGPT 应用启动、查看和指挥 Codex 在你 Windows 电脑上干活。官方说这是早期体验，正文没披露收费方式和具体开放范围，我会先打个折——稳定性、权限控制和延迟都还没经过大规模验证，别急着把重要任务全交给它。

#Agent#Tools#OpenAI#Codex

精选理由

OpenAI 给 Codex 加了 Windows 计算机使用功能，通过 ChatGPT 手机 App 来操控。正文交代了工作流程和早期体验状态，但没提权限、定价和推送范围，所以先放在 featured 这一档。

一句话点评

OpenAI 给 Codex 加了 Windows 支持，手机能遥控电脑干活了。但官方说是早期体验，没提收费和开放范围，稳定性、延迟都还没谱，先别急着把重要任务交给它。

锐评

OpenAI 宣布 Codex 的“计算机使用”功能现在支持 Windows 了。简单说，就是你可以在手机上的 ChatGPT 应用里启动、查看和指挥 Codex，让它在你 Windows 电脑上执行操作。官方举的场景是：工作还在电脑上跑着，你人走开了也能随时接管。这条更新目前只有一条推文，正文没披露收费方式、具体开放范围，也没给出任何性能或延迟数据。它被标为“早期体验”，意味着大规模验证还没做，权限控制、任务稳定性、跨设备同步这些关键点都是未知数。对从业者来说，这更像一个信号：OpenAI 在把 agent 能力往桌面操作系统里推，但离生产环境可用还有距离。还缺的信息包括：它支持哪些 Windows 版本、是否需要后台常驻程序、任务失败时怎么回滚，以及和 macOS 版的功能对齐程度。这些没补上之前，建议只拿非关键任务试试水。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:14

14d ago

AI HOT 精选· aihot-apiZH17:14 · 05·29

Kog 把推理速度拉到 3000 token/s，是常规的 10-30 倍

Kog 团队在 8 块 AMD MI300X 上跑出单用户 3000 token/s，8 块 NVIDIA H200 上 2100 token/s，而常规推理只有 100-300 token/s。他们把 LLM 解码当成内存流问题来解，用 monokernel 设计、重建同步机制、针对性内存映射，以及一个叫 Laneformer 的模型架构（延迟张量并...

#Inference-opt#Kog#AMD#NVIDIA

精选理由

Kog 团队在 8×AMD MI300X 上跑出单用户 3,000 tokens/s，比 8×NVIDIA H200 的 2,100 还快 43%，这个速度差距对推理成本影响很大——如果 MI300X 价格更低，那 AMD 在推理场景里就很有竞争力。不过正文没披露用了什么模型、什么精度、上下文多长，也没给复现细节，所以这个数字目前只能当个参考上限，不能直接拿来算实际部署成本。

一句话点评

Kog 在 8 块 AMD MI300X 上跑出单用户 3000 token/s，比常规推理快 10-30 倍。核心是把解码当内存流问题，用 monokernel 和 Laneformer 架构消除阻塞。但这是单用户场景，多用户并发下性能未知，且 Laneformer 是否通用、能否适配现有模型都没说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:17

14d ago

FEATUREDAI HOT 精选· aihot-apiZH16:17 · 05·29

OpenRouter 加了个服务器端工具，让模型直接生成文件补丁

OpenRouter 在 Responses API 里上线了 apply_patch 工具，模型可以生成 V4A 格式的 diff 来创建、修改或删除文件。服务器端会先校验 diff 语法，不用客户端自己折腾。正文没披露这个校验具体能拦住哪些错误，也没说支持哪些模型。

#Tools#Code#OpenRouter#Product update

精选理由

HKR 三项都过了：OpenRouter 这次更新给 coding agent 搭了条跨模型的补丁通道，用 V4A diff 加服务端校验，实用性很强。但它属于基础设施层面的改进，不是模型能力本身的突破，所以分数压在 72–77 这个区间。

一句话点评

OpenRouter 让模型能直接生成文件补丁了，服务器端会先验一下 diff 格式对不对，省得你自己折腾。但正文没提能拦住哪些错误，也没说支持哪些模型。

锐评

OpenRouter 在 Responses API 里加了个 apply_patch 工具，模型可以生成 V4A 格式的 diff 来创建、修改或删除文件。服务器端会先校验 diff 语法，不用客户端自己处理格式问题，这点对开发者来说省了一步脏活。但正文没披露两个关键信息：一是这个校验到底能拦住什么级别的错误——是只检查格式，还是能发现语义冲突？如果只是格式校验，那模型生成一个语法正确但逻辑错误的补丁照样会炸。二是没提支持哪些模型，是只有特定模型能用，还是所有接入 OpenRouter 的模型都能调这个工具。另外，V4A diff 格式本身对非代码文件（比如文档、配置）的适用性也没说明。如果模型改的是 YAML 缩进或者 JSON 结构，diff 校验能不能发现破坏性修改，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:05

14d ago

AI HOT 精选· aihot-apiZH16:05 · 05·29

Gemini架构师聊幕后：Jeff Dean等四人出镜，但没提参数、架构或发布时间

Google AI的播客节目请来四位Gemini架构师，包括Jeff Dean。他们聊了团队如何推动AI前沿，但正文没披露模型参数、架构变化或发布时间线。想听八卦可以看，想找技术细节的可以跳过。

#Google AI#Jeff Dean#Gemini#Commentary

精选理由

HKR 中只有 H 靠嘉宾名字过关，K 和 R 都挂。正文本质是节目预告：嘉宾名单给了，但没有任何可验证的技术事实——参数、架构、发布时间全没提，也没有成本或竞争信息。

一句话点评

Google AI 播客请来四位 Gemini 架构师（包括 Jeff Dean）聊幕后故事，但正文没披露任何模型参数、架构变化或发布时间线。想听八卦可以看，想找技术细节的可以跳过。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:00

14d ago

AI HOT 精选· aihot-apiZH16:00 · 05·29

NVIDIA 开源 MCG 工具包：一分钟自动生成模型说明书，应对加州和欧盟 AI 法规

NVIDIA 发布了一个叫 MCG 的工具包，能自动给 AI 模型写说明书（Model Card）。你给它一个 GitHub 链接或上传文件，它就能在不到一分钟内生成一份包含模型用途、训练数据、性能、偏见、隐私等字段的文档。背后用了 RAG（外挂资料库）和 GPT-OSS-120B 模型来提取代码和文档里的信息。测试下来，91% 的字段能填上，准确率 ...

#Safety#Tools#NVIDIA#Product update

精选理由

HKR-K 和 HKR-R 通过：它有具体的文档生成机制和监管背景。这仍然是一篇 NVIDIA 开发者教程，没有模型发布、定价、基准测试或跨来源信号。

一句话点评

NVIDIA 出了个自动写模型说明书的工具 MCG，给个 GitHub 链接就能在 1 分钟内生成 Model Card，91% 字段能填上，准确率 76%。背后用了 RAG（外挂资料库）和自家 GPT-OSS-120B 模型。主要为了应付加州 AB-2013 和欧盟 AI 法案的合规要求。Oracle 已经在用了。短评：填表自动化，合规省力，但准确率 76% 意味着近四分之一的字段可能...

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

15:58

14d ago

AI HOT 精选· aihot-apiZH15:58 · 05·29

Replit 直播预告：Canvas 新功能 + Clerk 自定义登录

Replit 发了一条推文，预告一场直播，主题是 Canvas 新功能和用 Clerk 做自定义登录。但正文只给了一个直播链接，没透露任何具体信息：新功能是什么、登录流程怎么改、价格或上线时间，一概没提。想了解细节只能自己去看直播回放。

#Tools#Clerk#Product update

精选理由

标题看起来像产品更新，但正文只有一条直播链接，没有功能清单、登录机制或发布时间。信息缺口太大，无法判断价值，直接跳过。

一句话点评

Replit 预告直播讲 Canvas 新功能和 Clerk 自定义登录，但正文只甩了个直播链接，没提任何具体改动、价格或上线时间。想了解细节只能自己看回放，信息量约等于零。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

15:55

14d ago

AI HOT 精选· aihot-apiZH15:55 · 05·29

Gemini 本月更新：新界面 + 全天候智能体助手

Gemini 官方宣布了本月更新，核心是重新设计的界面和 Gemini Spark 的 24 小时智能体辅助。正文没披露具体功能细节、上线范围、支持平台、定价或性能变化，所以目前只能确认产品层面的标题信息。

#Agent#Gemini#Gemini Spark#Product update

精选理由

HKR-H 和 HKR-R 通过：Gemini Spark 作为全天候智能体是这次月更的钩子，也踩中了 Google 的竞争节奏。HKR-K 不通过：正文没披露功能细节、上线范围或价格，信息量只够当一条小产品更新看。

一句话点评

Gemini 本月更新主要提了两个点：界面重设计，以及 Gemini Spark 的 24 小时智能体辅助。但正文没披露任何具体功能、上线范围、平台或定价，所以目前只能当产品预告看。短评：界面和全天候助手是亮点，但没细节前先别激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:00

14d ago

AI HOT 精选· aihot-apiZH15:00 · 05·29

Kling AI 在戛纳展示全 AI 电影《RAPHAEL》制作流程

Kling AI 在戛纳放出了一部叫《RAPHAEL》的短片，全程用自家模型做，从创意到成片都走 AI 工作流。正文没披露用了多少算力、花了多少钱、做了多久，也没给可复现的步骤，所以目前只能当个概念展示看。

#Multimodal#Vision#Tools#Kling AI

精选理由

硬排除规则适用：这是纯营销案例。Kling AI 帮 RAPHAEL 做了电影，但正文既没有可复现的工作流，也没有硬指标。H/K/R 三项都不达标，所以分数低于 40。

一句话点评

Kling AI 在戛纳放了一部叫《RAPHAEL》的短片，全程用自家模型做，从创意到成片都走 AI 工作流。正文没披露用了多少算力、花了多少钱、做了多久，也没给可复现的步骤，所以目前只能当个概念展示看。短评：概念片，没成本没步骤，先别当标杆。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

13:00

15d ago

AI HOT 精选· aihot-apiZH13:00 · 05·29

阶跃星辰 Step 3.7 Flash 开放权重，可在 Kilo Code 直接跑

阶跃星辰把 Step 3.7 Flash 的开放权重模型放到了 Kilo Code 上，开发者可以直接下载运行。正文没披露参数量、许可证条款、定价或部署要求，所以实际能跑多大、商用是否受限还不清楚。开放权重意味着你可以本地或自建服务器部署，不用每次都调 API，对需要离线或定制推理的场景比较友好。

#StepFun#Kilo Code#Product update#Open source

精选理由

HKR-K 通过，因为 Kilo Code 可用性对开发者是可操作的信息。HKR-H/R 偏弱：正文没提模型参数量、许可证、定价和基准对比，属于小产品/开放权重更新，不值得特别关注。

一句话点评

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

12:57

15d ago

AI HOT 精选· aihot-apiZH12:57 · 05·29

阶跃星辰发布 Step 3.7 Flash，专为智能体工作流设计

阶跃星辰在 X 上宣布 Step 3.7 Flash 模型，主打让模型进业务流程干活（agent workflow）。他们提到 NousResearch 用户已经在 Hermes Agent 上基于该模型做开发。正文没披露模型参数量、定价、跑分或开放方式，目前信息有限，先别太激动。

#Agent#StepFun#NousResearch#Hermes Agent

精选理由

StepFun 发了 Step 3.7 Flash 的定位帖，说它专为智能体工作流打造，还提了 NousResearch 和 Hermes Agent 的用户。但正文没披露参数、价格或上线条件，也没有测试结果。信息缺口太大，只能当低信号的产品营销看。

一句话点评

阶跃星辰发了 Step 3.7 Flash，说是专为“让模型进业务流程干活”设计的。目前只有一条 X 帖子，没提参数量、定价、跑分，也没说怎么用。有 NousResearch 用户拿它做 Hermes Agent，算个信号，但信息缺口太大，先别激动。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

12:00

15d ago

AI HOT 精选· aihot-apiZH12:00 · 05·29

OpenRouter 推出 Guardrails：给智能体套上预算、隐私和安全的笼头

OpenRouter 上线了 Guardrails 功能，一套可配置的安全和治理工具，专门管那些跑在 API 上的智能体。核心功能有五项：预算控制（按日/周/月设限额，每人每 Key 独立计算，一个脚本跑冒了不会烧掉整月预算）、零数据留存（一键关掉所有会存你数据的接口）、模型/供应商限制（只允许用你审核过的模型或供应商）、提示注入防御（用 30 多条正...

#Agent#Safety#Tools#OpenRouter

精选理由

HKR-K和HKR-R通过：5类Guardrails功能给从业者提供了具体信号，对应成本和安全的痛点。但这仍是OpenRouter的常规产品更新，没有披露定价、效果数据或采用规模，所以分数维持在60–71区间。

一句话点评

OpenRouter 给 API 智能体上了五道安全锁：预算控制（每人每 Key 独立算，脚本跑冒了不会烧整月）、零数据留存、模型/供应商白名单、提示注入防御（30 多条正则，延迟可忽略）、数据防泄漏。亮点是预算按实体独立计算，比共享额度更精细。但正文没披露定价、上线时间和技术实现细节，目前只说是可配置规则层，不涉及模型内部安全。对跑生产 agent 的团队有用，但别指望它能防住高级越狱。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

10:37

15d ago

AI HOT 精选· aihot-apiZH10:37 · 05·29

Claude Code 源码里挖出的隐藏配置：钩子能改写命令、自动批准、注入上下文

一篇博客翻了一遍 Claude Code 的源码（npm 包 @anthropic-ai/claude-code@2.1.87），发现官方文档没写的几个可配置能力。核心是 hook 脚本的返回值：PreToolUse 钩子可以返回 updatedInput 字段，在命令执行前偷偷改掉它——比如把 git push 自动加上 --dry-run；Perm...

#Code#Tools#Claude Code#Commentary

精选理由

这篇文章本质上是一个指向页——标题画了饼，但正文没给任何可验证的配置项名称或机制。HKR 的 H 和 R 都成立，但 K 不成立，因为信息量不足以支撑实操价值。所以它只能留在低价值区间，重要性 48 合理。

一句话点评

Claude Code 源码里藏了一堆官方文档没写的配置，最实用的是 hook 脚本能返回 JSON 实时改命令——比如在 git push 前自动加 --dry-run。还有 YOLO Classifier 允许用大白话描述环境（比如“这是测试服务器，可以删东西”）来决定自动放行。这些功能来自 npm 包 v2.1.87，但作者没提模型版本、性能或定价，也没说这些隐藏字段会不会在下次更新里消失。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

10:21

15d ago

AI HOT 精选· aihot-apiZH10:21 · 05·29

四部门发文：全民AI素养要提升，人才要加快培养

中央网信办等四部门联合印发了《2026年提升全民数字素养与技能工作要点》，把“提升全民人工智能素养”单列为一项重点任务，具体包括用AI赋能教育、加快AI人才培育、深化AI普及应用。文件还提到要促进AI安全规范发展。不过正文没披露具体预算、落地时间表或考核指标，所以目前更像一个方向性信号，离实际执行还有距离。

#CAC#Policy

精选理由

K通过，因为2026年工作计划、四部门联合发文、6项任务都是具体新信息。H不通过，标题措辞平淡，没有让人想点开的意外点。R不通过，只说了要提升素养和培育人才，但没披露谁来执行、花多少钱、涉及哪些岗位，从业者没法判断对自己业务的实际影响。

一句话点评

四部门把“提升全民AI素养”单列为2026年重点任务，方向明确但正文没披露预算、时间表或考核指标，目前更像一个政策信号，离落地还有距离。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

09:13

15d ago

FEATUREDAI HOT 精选· aihot-apiZH09:13 · 05·29

小米开源 ControlFoley：给视频配音效，可以按你写的提示词或给的参考音频来

小米大模型应用团队放出了一个叫 ControlFoley 的视频音效生成模型，权重和代码都开源了。它主要解决一个问题：以前模型只能看画面自动猜配什么声音，创作者没法干预。ControlFoley 支持三种用法——用文字描述想要的音效、用文字强行覆盖画面里原有的声音、或者上传一段参考音频让它模仿音色和风格，同时还能保证声音和画面动作对得上。团队自己训了一...

#Audio#Multimodal#Tools#Xiaomi

精选理由

ControlFoley 把视频拟音做成可控生成，还直接开源了全套，对创作者和开发者都挺友好。它不是那种刷榜的基础模型发布，但胜在任务明确、工具属性强，放在 featured 门槛附近是合理的。

一句话点评

小米开源了一个视频配音模型，能按文字或参考音频来生成音效，不再只是看画面瞎猜。代码和权重都给了，这点好评。

锐评

ControlFoley 解决了一个实际痛点：以前的视频配音模型是“看画面自动配”，创作者没法插手。现在它支持三种控制方式——用文字描述想要的音效、用文字强行覆盖画面里原有的声音、或者上传一段参考音频模仿其音色风格，同时还能保证声音和画面动作对得上。技术上，团队自己训了一个时空音视频编码器 CAV-MAE-ST，专门抓动作节奏和时间同步线索，避免视觉信息太强势把文本控制压死。参考音频那边做了时间-音色解耦，只取音色特征，扔掉节奏信息，防止参考音频的节奏打乱视频本身的同步。训练时用了随机模态 dropout，让一个模型能处理视频、视频+文字、视频+参考音频等多种输入组合。在多个公开测试集上拿了开源 SOTA，跟闭源的 Kling-Foley 比，在语义对齐、时间同步和声音质量上也有优势。不过正文没披露训练数据规模和具体算力消耗，也没说在长视频或复杂场景下的表现边界。Demo 已经上线，建议自己传段视频试试，看它在你关心的场景里到底灵不灵。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

15d ago

AI HOT 精选· aihot-apiZH09:00 · 05·29

Qwen-VLA：让模型不光能看能想，还能动手干活

阿里 Qwen 团队发布 Qwen-VLA，一个通用视觉-语言-动作模型。它把机器人操作、视觉导航等任务统一到一个框架里：给模型看画面、听指令，它直接输出下一步动作或轨迹。训练分四阶段，先纯文本学动作结构，再加视觉数据，最后用强化学习在仿真环境里优化闭环成功率。数据量不小：公开机器人数据超 1 万小时，内部真机数据超 1000 小时，合成仿真轨迹超 8...

#Multimodal#Vision#Tools#Qwen

精选理由

HKR 中 H/K 通过，因为 Qwen VLA 的定位和 Qwen Studio 的功能列表是实打实的信息。但正文没给参数、发布时间、评测或可跑 demo，所以只能算低优先级的产品更新，不构成行业震动。

一句话点评

阿里 Qwen 团队发布 Qwen-VLA，一个视觉-语言-动作模型，能直接看画面、听指令输出机器人动作。训练分四阶段，先纯文本学动作结构，再加视觉数据，最后用强化学习优化闭环成功率。数据量不小：公开机器人数据超 1 万小时，内部真机数据超 1000 小时，合成仿真轨迹超 800 万条。但正文没披露模型参数量、推理延迟和真机实测成功率，这些才是落地关键。短评：统一框架思路对，但数据堆砌不等于...

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

07:18

15d ago

FEATUREDAI HOT 精选· aihot-apiZH07:18 · 05·29

谷歌 DeepMind 老大说 AGI 可能三年内到，但社会还没准备好

哈萨比斯判断，通用人工智能（AGI）最快 2029 到 2030 年就会出现，比之前想的快很多。他说的 AGI 不是只会干一件活的专用 AI，而是能像人一样跨领域学习、推理和创造的系统。现在那些能独立干活的 AI 智能体，在他看来就是 AGI 的预演。不过他也把话说得很清楚：AGI 不会突然蹦出来，而是一段持续加速的升级过程。他更担心的是，各国政府和社...

#Agent#Multimodal#Safety#Google DeepMind

精选理由

哈萨比斯这次把 AGI 时间线压到 2029-2030，比很多人的预期要快。他点出多模态和自主决策是硬指标，但正文没展开讲现在卡在哪、验证标准是什么，所以这个预测更像个人判断而非有数据支撑的路线图。我会先打个折：方向值得关注，但别当倒计时看。

一句话点评

哈萨比斯把 AGI 时间表拉到 2029-2030 年，但别急着激动——他定义的 AGI 是“持续加速的升级过程”，不是突然蹦出来的全能神，更像在给自家路线图定调。

锐评

哈萨比斯这次给出的时间判断很激进：AGI 最快三年内到来。他说的 AGI 不是只会干一件活的专用 AI，而是能跨领域学习、推理和创造的系统。他把现在那些能独立干活的 AI 智能体看作 AGI 的预演，这个类比挺实在——相当于说，你今天看到的自动执行任务的模型，就是未来通用智能的雏形。不过这篇报道缺了几个关键信息。第一，他没给出判断的具体依据，是看到了内部模型的什么能力跃升，还是单纯基于研发投入增速做的外推，正文没披露。第二，“三年”这个数字需要打折：他自己也澄清这不是一个奇点时刻，而是一段持续加速的过程，所以 2029 年更可能是“开始看到苗头”而不是“全面落地”。第三，他警告各国政府和社会准备严重不足，但没说具体缺什么——是算力监管框架、就业缓冲政策，还是安全对齐标准，这些都没展开。整体看，这话从哈萨比斯嘴里说出来有分量，毕竟他主导过 AlphaGo 和 AlphaFold。但作为一线从业者，我会把这条当作战术信号而非倒计时：大厂在加速推 agent 和多模态能力，方向上值得跟，时间表先别太当真。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:15

15d ago

AI HOT 精选· aihot-apiZH07:15 · 05·29

阿里云把百炼能力打包成命令行工具，一行代码让 Agent 调用 150 多个模型

阿里云开源了百炼 CLI，一个专为 Agent 设计的命令行工具。开发者只需一行命令，就能让 Claude Code、Qoder 等主流 Agent 框架调用阿里云百炼平台上的 150 多款模型、十多款应用，以及知识库、记忆、联网搜索等全套能力。说白了，就是不用再手动写一堆 API 调用代码，Agent 可以直接通过命令行“插拔”阿里云的模型和服务。目...

#Agent#Tools#Alibaba Cloud#Open source

精选理由

触发硬排除-云厂商推广：阿里云百炼 CLI 平台公告，正文为空，未披露许可证、安装路径、版本或支持矩阵。HKR-K 保留，但 tier 被排除上限。

一句话点评

阿里云把百炼平台的能力打包成一个命令行工具（CLI）并开源，Agent 框架（如 Claude Code）一行命令就能调 150 多款模型、知识库、联网搜索等。好处是省去手动拼 API 的麻烦，但正文没披露性能基准、延迟或成本对比，也没说 CLI 是否支持离线或本地模型。对做 Agent 编排的团队是个便利，但实际效果得看跑起来才知道。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

04:11

15d ago

FEATUREDAI HOT 精选· aihot-apiZH04:11 · 05·29

Adam's Law：用模型训练时见过的高频词写提示，效果更好

FaceMind 团队在 100 种语言和四类核心任务上做了实验，结论很简单：保持意思不变，把提示词或微调文本换成预训练语料里出现频率更高的说法，大模型的表现会明显提升。他们把这个规律叫 Adam's Law（文本频率定律），相当于给数据工程补上了“频率”这个维度。原理不复杂——高频表达让模型在自己最熟悉的概率空间里干活，输出质量自然更稳。不过正文没披...

#Fine-tuning#Benchmarking#FaceMind#Research release

精选理由

我会先打个折：正文没披露具体用了哪些模型、数据集和效果提升的幅度，所以没法判断这个“更好”到底好多少、在什么规模的模型上成立。但选题本身很聪明，用 100 种语言和四类任务把“高频词有效”这个反直觉结论撑起来了，对天天调提示词的人来说是个值得自己复现一下的线索。

一句话点评

FaceMind 发现用模型预训练时见过的常见词写提示词，效果更好，他们管这叫 Adam's Law。

锐评

这条研究给了一个很直白的工程建议：写提示词或准备微调数据时，别追求生僻或“专业”的表达，尽量用模型在预训练语料里见得多的词。FaceMind 在 100 种语言和四类任务上验证了这个规律，结论是高频表达能让模型在它最熟悉的概率空间里干活，输出更稳。不过正文没披露具体提升幅度有多大，也没说“高频”的阈值怎么定。这点先别太激动，因为不同基座模型的预训练语料分布不一样，一个模型里的高频词换到另一个模型可能就不是了。另外，实验覆盖的四类核心任务具体是什么也没说清楚，没法判断这个规律在推理、代码等复杂场景下是否依然成立。还缺一个关键信息：强行把专业术语替换成高频日常词，会不会导致语义精度下降。如果为了迁就频率而牺牲准确性，那这个 trade-off 就需要量化。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:18

15d ago

AI HOT 精选· aihot-apiZH02:18 · 05·29

PixVerse 分享15秒动画IP预告片制作流程

PixVerse 发了一个15秒动画IP预告片的案例，角色叫MILO和BUMBLE，设定是地下邮政骑手。但正文没披露具体用了什么工具链、模型设置或生成步骤，只说要转发关注才能私信拿到工作流和提示词。信息缺口明显，没法判断效果好坏或成本高低。

#Multimodal#Vision#Tools#PixVerse

精选理由

HKR-H靠短预告片工作流这个钩子勉强过关，但HKR-K因为没给任何可复现的工具或参数直接挂掉，HKR-R也缺成本、工作流或竞争层面的价值。整篇就是PixVerse的产品展示，归入低价值浏览档。

一句话点评

PixVerse 发了个15秒动画IP预告片，角色MILO和BUMBLE是地下邮政骑手。但正文没披露工具链、模型设置或生成步骤，只说转发关注才能私信拿工作流和提示词。信息缺口明显，没法判断效果好坏或成本高低。短评：转发才给工作流，信息缺口大，没法判断效果。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

01:11

15d ago

FEATUREDAI HOT 精选· aihot-apiZH01:11 · 05·29

Cursor 团队发了份开发者习惯报告，代码产出翻倍但别急着归功 AI

报告给了几个数：开发者每周写的代码从 3.6K 行涨到 8.6K 行，千行以上的大 PR 占比也高了。AI 智能体单次会话里调工具的次数多了约 30%，说明它在接更复杂的活。被采纳的 AI 代码 60 分钟后还在代码库里的比例从 76% 提到 81%，留存确实在变好。不过正文没披露样本量、统计口径和是否排除自动生成代码，我会先打个折看这些数字。

#Agent#Code#Tools#Cursor

精选理由

我会先打个折，这是 Cursor 自家的报告，不是第三方审计，数字可能有美化。但 3.6K 到 8.6K 的翻倍和工具调用涨 30% 这两个点，对开发者判断 AI 编程工具的实际提效幅度有参考价值。正文没披露统计口径和样本量，这点先别太激动。整体不是产品发布或跨源事件，放在 featured 档、81 分比较合适。

一句话点评

Cursor 说开发者周代码量从 3.6K 行涨到 8.6K 行，AI 代码留存率也高了。但正文没给样本量和统计口径，这些数先打个折看。

锐评

这份报告最值得看的是两个变化方向：一是开发者每周写的代码量翻了一倍多，从约 3.6K 行跳到 8.6K 行，千行以上的大 PR 占比也在涨，说明 AI 不只是补补小函数，而是开始撑起更大块的开发任务。二是 AI 智能体单次会话里调工具的次数多了约 30%，这意味着它接的活变复杂了，不再是一问一答，而是多步骤、多工具协作。被采纳的 AI 代码 60 分钟后还在代码库里的比例从 76% 提到 81%，留存确实在变好，但 81% 这个数本身不算惊艳——还有近两成代码在一小时内就被删了。更关键的是，正文完全没披露样本量、统计口径，也没说是否排除了自动生成代码或模板代码。没有这些信息，代码量翻倍到底是真效率提升还是统计膨胀，没法判断。还缺一个维度：代码质量。行数涨了，bug 率、回滚率、代码审查通过率有没有跟着变？这些才是衡量 AI 是否在帮倒忙的核心指标，报告一个字没提。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:07

15d ago

FEATUREDAI HOT 精选· aihot-apiZH01:07 · 05·29

特斯拉说 FSD 比人安全十倍，但训练它的员工自己都不敢坐

路透社扒了特斯拉的安全报告，发现“比人类安全 10 倍”这个说法站不住脚。特斯拉拿自己车气囊弹出的数据，去跟全美所有车辆（包括老车）的普通事故率比，11 位交通安全研究员看了直摇头，说这是误导性营销。更扎心的是，9 名前数据标注员和 1 名前工程师爆料，FSD 连避让校车、紧急车辆这种基础操作都还搞不定。为了给投资人看的自动驾驶出租车演示，员工得提前加...

#Robotics#Safety#Benchmarking#Tesla

精选理由

这篇的核心冲突很清楚：特斯拉拿自己的 FSD 事故数据跟全美平均比，得出 10 倍安全的结论，但路透找的 11 位研究员认为这个比法不公平，因为联邦数据里包含大量老旧车型、非自动驾驶场景，统计口径不一样。我会先打个折——文章没给出特斯拉的具体计算方法和原始数据，所以没法验证 10 倍到底水不水，只能确认学界在公开质疑。对从业者来说，这提醒我们看厂商安全报告时要盯紧对比基准，别被单一倍数带着走。

一句话点评

路透社扒出特斯拉拿气囊弹出数据跟全美老车比事故率，11位安全专家直呼误导。前员工爆料FSD连避让校车都搞不定，演示还得靠人工提前跑图。

锐评

特斯拉“比人类安全10倍”的说法，核心问题出在对比基准上。它拿自己车辆气囊弹出的严重事故数据，去跟联邦统计里包含所有轻微事故的全美车辆平均数据比，相当于用自己最重的一拳去打别人轻轻一推。卡内基梅隆教授的话很直白：新车本来就比12年老车安全，这种比较说明不了FSD本身有多强。更让人打折扣的是内部员工的证词。9名前数据标注员和1名前工程师说，FSD至今连校车停车、避让紧急车辆这些基础场景都常出错。而为奥斯汀自动驾驶出租车演示做准备时，员工得提前对路线做地图标注、针对特定危险训练软件，这种靠人工堆出来的安全表现，根本没法大规模复制。文章没拿到特斯拉对统计方法的正式回应，也缺少FSD在真实开放道路上的第三方独立事故率数据。光靠公司自己选口径的报告，说服力有限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:45

15d ago

AI HOT 精选· aihot-apiZH00:45 · 05·29

三星抢先出样 HBM4E 内存，单堆栈 48GB、带宽 3.6 TB/s

三星宣布向主要客户交付业界首批 12 层 HBM4E 样品，单堆栈容量 48GB，引脚速度 14Gbps（可扩至 16Gbps），带宽 3.6 TB/s，比 HBM4 再提升 20%。能效和散热也分别改善了 16% 和 14%。不过正文没披露具体客户是谁、量产时间表，以及样品是否已通过验证——所以“业界首批”更多是抢发布节奏，离真正落地还有距离。

#Samsung Electronics#Product update

精选理由

三星HBM4E出样对AI算力链有影响，所以HKR-H/R通过。但文章只有标题，没有规格、客户、量产时间或性能数据，HKR-K不通过，评分维持58。

一句话点评

三星抢发HBM4E样品，单堆栈48GB、带宽3.6 TB/s，比HBM4再提20%，能效和散热也改善了。但正文没披露客户是谁、量产时间，样品是否通过验证也不清楚——所以“业界首批”更多是抢发布节奏，离落地还有距离。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:07

15d ago

AI HOT 精选· aihot-apiZH00:07 · 05·29

阶跃星辰发布 198B 多模态模型 Step 3.7 Flash，英伟达说能跑在企业级 GPU 上

阶跃星辰（StepFun）的 Step 3.7 Flash 是一个 1980 亿参数的 MoE 多模态模型，每次推理只激活约 110 亿参数，所以虽然模型很大但实际算力消耗不算离谱。它支持图片、视频和文字输入，上下文窗口 256K，还提供了低、中、高三档推理深度可选。英伟达官方博客说这个模型可以在他们的 GPU 上跑，也支持 SGLang、Tensor...

#Multimodal#Vision#StepFun#NVIDIA

精选理由

HKR-K 通过是因为 198B 参数的多模态细节是实打实的信息。HKR-H 和 HKR-R 不通过：标题和正文都是英伟达开发者博客的部署宣传口吻，没有基准测试、定价或可复现的性能数据，所以既没有意外钩子，也刺激不到成本或竞争神经。

一句话点评

阶跃星辰的 Step 3.7 Flash，1980 亿参数 MoE 模型，每次推理只激活约 110 亿参数，所以虽然模型大但实际算力消耗不算离谱。支持图片、视频和文字输入，上下文 256K，还提供低、中、高三档推理深度可选。英伟达官方博客说可以在他们的 GPU 上跑，也支持 SGLang、TensorRT-LLM 等框架。但正文没披露跑一次需要多少张卡、延迟多少，也没给任何基准测试分数。对于...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

00:00

15d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·29

阶跃星辰开源 Step 3.7 Flash，198B 参数 MoE 模型，活跃参数约 11B，专为智能体工作流做效率优化

阶跃星辰放出了一个开源模型 Step 3.7 Flash，架构是 198B 参数的 MoE（混合专家），实际干活时只激活大约 11B 参数，所以跑起来相对轻量。上下文窗口给到 256K，能读图、读文档，也能直接生成代码或调用工具。它在 ClawEval-1.1 上拿了 67.1 分，SimpleVQA Search 上 79.2 分，这两个榜目前排第一...

#Agent#Multimodal#Tools#StepFun

精选理由

这条发布的核心卖点是“大模型的身子，小模型的成本”，198B MoE 只激活 11B 参数，对想把模型塞进智能体流程的人吸引力很直接。256K 上下文和 ClawEval-1.1 的 67.1 分给了可查的硬数字，不是纯宣传。不过正文没提独立评测和实际延迟数据，这点先别太激动。整体信息量够、有记忆点，放在 featured 合适。

一句话点评

198B 参数只激活 11B，跑起来省资源，但两个榜第一的含金量得看对手是谁。

锐评

阶跃星辰这次放出的 Step 3.7 Flash，核心卖点是“大模型的身子，小模型的饭量”——198B 参数的 MoE 架构，实际干活只激活约 11B 参数，意味着推理成本比同体量模型低不少。256K 上下文窗口加上能看图、读文档、调工具，定位很明确：让模型直接进业务流程干活，而不是只聊天。 ClawEval-1.1 拿 67.1 分、SimpleVQA Search 拿 79.2 分，两个榜都排第一，但正文没披露对比了哪些模型、差距有多大。τ2-bench 工具调用可靠性超过 98% 这个数字看着漂亮，同样缺具体测试条件和对手数据。模型兼容 Claude Code 和 MCP 协议，对已有工具链的团队来说接入成本低，Mac Studio M4 Max 能本地跑也是个加分项。目前缺的信息：推理延迟、实际吞吐量、多模态任务的具体表现边界，以及除了这几个榜之外更通用的评测成绩。开源用 Apache 2.0 许可，商用友好，但能不能在生产环境稳定跑起来，还得看社区后续的实测反馈。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

15d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·29

技能提炼：让大模型写操作手册，小模型照着干活

作者 Tomasz Tunguz 分享了他用“技能提炼”让本地小模型跑个人工作流的做法。他会让 Opus 4.7、GPT-5.1 或 Gemini 3 Pro 这类顶尖模型，把处理邮件、管投资 pipeline、发博客等任务写成标准化的 SKILL.md 步骤文件，然后由本地运行的 Qwen 35B 或 Gemma 26B 一步步执行。这套系统基于 P...

#Agent#Reasoning#Tools#OpenAI

精选理由

这个技能提炼模式把大模型当教练、本地模型当执行者，思路清楚，对控制成本有实际意义。我会先打个折，因为文章没披露任何量化结果——不知道本地模型执行时会不会翻车，也不知道到底省了多少钱。这点先别太激动，等有数据再说。

一句话点评

Tunguz 把顶尖模型当老师写操作手册，让本地小模型照着做，思路挺省钱的，但效果全凭他自述，没给对比数据。

锐评

Tomasz Tunguz 分享了一套个人工作流自动化方案，核心是“技能提炼”：让 Opus 4.7、GPT-5.1 这类大模型把处理邮件、管投资 pipeline 等任务写成标准化的 SKILL.md 步骤文件，然后由本地运行的 Qwen 35B 或 Gemma 26B 一步步执行。这套系统基于 Pi 框架，底层用 QMD 知识库存放约 80 个工作流文件，中间层是技能文件，上层是模型调用 17 个 Rust API 的代理循环。这个做法的好处是省钱和可解释——小模型本地跑，不用反复调大模型 API，技能文件是纯文本，能直接看、能改、能版本管理。但正文没披露任何量化结果，比如任务成功率、执行延迟、大模型写技能文件的准确率，也没说这套系统在复杂或意外输入下表现如何。Tunguz 自己也承认，小模型不需要“懂”怎么评估一家公司，只要会跟步骤走，这意味着泛化能力可能很弱，换个场景就得重新写技能文件。目前这更像一个资深从业者的个人实验，思路有参考价值，但离可复用的产品还有距离。缺的是横向对比和失败案例分析，光靠自述很难判断这套流程的可靠性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

AX 严选 · 2026-05-29

更多

频道

后台