AX 严选 · 2026-05-09

▸ 21 条 · updated 3m ago

2026年5月

一二三四五六日

1 2 3 4 5 6 736 819 921 1010 1132 1228 1335 1438 1528 1617 179 1824 1947 2026 2132 2236 237 246 257 2625 2729 2834 2936 308 316

2026年6月

一二三四五六日

138 235 332 422 532 610 78 829 944 1029 1129 1215 1371415161718192021222324252627282930

2026-05-09 · 星期六2026年5月9日

23:31

34d ago

AI HOT 精选· aihot-apiZH23:31 · 05·09

Google 开放 Fitbit Air 健康 API，开发者可拿 31 种真实数据做个人健康自动化

Google 随新款 Fitbit Air 发布了 Health API，开放了运动、睡眠、心率、血氧等 31 种健康数据点。支持 Webhooks 实时推送、细粒度读写权限、按时间范围查询和汇总。开发者可以用这些真实个人数据搭 AI Agent、MCP Server、CLI 或实时监控系统，实现健康自动化工作流。官方已给出首次调用教程。注意：API ...

#Agent#Tools#Google#Fitbit

精选理由

硬排除：这篇讲的是 Google/Fitbit 健康 API 的数据和权限机制，没有模型、agent 或 AI 产品层面的含义。H/K/R 三项对目标读者都不相关。

一句话点评

Google 开放了 Fitbit Air 的 Health API，提供 31 种健康数据点（运动、睡眠、心率、血氧），支持 Webhooks 实时推送和细粒度权限控制。开发者可以用真实个人数据搭 AI Agent 或自动化工作流，官方已给出首次调用教程。注意：API 目前仅限 Fitbit Air 用户，且正文没披露调用配额和定价，如果是免费或低成本，对健康类 Agent 开发者是个实用入口。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

17:49

34d ago

AI HOT 精选· aihot-apiZH17:49 · 05·09

OpenRouter 上线免费编码路由工具：按分数自动选最便宜的模型

OpenRouter 推出了一款实验性工具 Pareto Code，免费使用。你可以在请求里加一个 min_coding_score 参数，工具会根据 Artificial Analysis 的排名，自动把编码任务路由到满足分数要求且成本最低的模型上。说白了就是帮你省钱的——不用手动比价，系统替你挑最便宜的。不过正文没披露这个 min_coding_s...

#Code#Tools#Inference-opt#OpenRouter

精选理由

Pareto Code 是一个小产品更新，核心卖点是成本-质量路由钩子和具体的 min_coding_score 机制，H/K/R 三项都通过。但正文没披露实际能省多少钱、覆盖哪些模型、路由稳定性如何，所以只能算一个面向所有读者的轻量更新。

一句话点评

OpenRouter 出了个免费工具 Pareto Code，加个参数就能自动把编程任务路由到最便宜的模型，省得自己比价。数据源是 Artificial Analysis 的排名，但正文没披露 min_coding_score 具体怎么算、覆盖哪些模型，实际效果得自己试。免费是亮点，但实验性意味着不稳定，别当主力用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:46

34d ago

AI HOT 精选· aihot-apiZH17:46 · 05·09

AI 让强者更强、弱者更弱：能动性差距正在拉大

François Chollet 指出，AI 正在放大用户之间的能动性差异：低能动性用户会进一步丧失主动权，高能动性用户则能借助 AI 获得更多控制力。正文没有披露具体数据、实验条件或效应量，所以这点先别太激动——但逻辑本身值得留意：AI 不是均匀地赋能所有人，而是像放大器一样，把原有的差距越拉越大。

#fchollet#Commentary

精选理由

硬排除规则6适用：这是一篇纯观点帖，没有数据、案例或信源支撑，因此分数上限为40。H和R通过，但K缺失。

一句话点评

短评：Chollet 提了个直觉上成立的观点：AI 像放大器，拉大用户间的能动性差距。但没给数据，先当假说看。点评：François Chollet 这条推文的核心判断是：AI 不是均匀地赋能所有人，而是像放大器一样，把用户原有的能动性差距越拉越大。低能动性用户（习惯被动接收信息、不主动提问或验证）会进一步丧失主动权，而高能动性用户（会拆解任务、迭代 prompt、交叉验证）则能借助 A...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:13

34d ago

AI HOT 精选· aihot-apiZH17:13 · 05·09

OpenAI 演示 GPT-Realtime-2 语音控制 CRM，但没提延迟和价格

OpenAI Devs 发了个演示，把 GPT-Realtime-2 接进 CRM 工作流，让用户用语音操作客户管理系统。正文只说了集成思路，没披露 API 参数、延迟、定价和上线条件。如果延迟高或成本贵，实际落地会打折扣，这点先别太激动。

#Audio#Tools#OpenAI#Product update

精选理由

HKR-H 和 HKR-R 靠具体的语音-CRM 工作流场景通过，但 HKR-K 不通过：没有延迟、定价、API 条件和上线细节。当作一个小产品/教程更新处理。

一句话点评

OpenAI Devs 演示了用 GPT-Realtime-2 语音控制 CRM，思路是把语音指令转成 API 调用。正文只说了集成思路，没披露 API 参数、延迟、定价和上线条件。如果延迟高或成本贵，实际落地会打折扣，这点先别太激动。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:53

34d ago

FEATUREDAI HOT 精选· aihot-apiZH15:53 · 05·09

特斯拉用视觉AI提前“看”到碰撞，让气囊和安全带更早启动

特斯拉把车上摄像头看到的画面和碰撞传感器结合起来，让安全系统能提前判断要撞车了，不等传感器确认就先把安全带收紧、气囊准备好。团队用真实事故数据和仿真回放，拿人体模型测受力，发现早一点启动保护能明显降低预估伤害。这次改进通过OTA推给车主，但正文没披露具体支持哪些车型，也没给出伤害风险降低了多少的量化数字。

#Vision#Robotics#Tesla#Elon Musk

精选理由

我会先打个折：信息来自马斯克的一条帖子，正文没披露 OTA 覆盖了哪些车型、伤亡率具体降了多少、验证方法是什么。所以它更像一个值得关注的产品更新，而不是一篇必须写的硬核发布。亮点在于把视觉预判和被动安全联动，思路清晰，但缺的数据让说服力打了折扣。

一句话点评

特斯拉用摄像头提前“看”到碰撞，不等撞实就先拉安全带、备气囊。但正文没给车型和具体降伤数字，这点先别太激动。

锐评

这条消息的核心是特斯拉把纯视觉判断塞进了被动安全链路里。传统做法是等碰撞传感器确认撞击了再动作，但传感器有确认延迟，调太灵敏又怕误爆。特斯拉的方案是用摄像头画面提前预判“这下车躲不掉了”，在撞上之前就把安全带预紧、气囊进入待命状态，等于把保护动作的起跑线往前挪了一小截。团队用真实事故数据和仿真回放，拿人体模型测了受力，结论是早一点启动确实能让伤害预估往下走。但这条推文本质上是产品更新预告，不是技术论文。它没给出任何量化数字——伤害风险到底降了多少百分比、在什么碰撞形态下有效、有没有误触发率的对比，全都没提。支持的车型也只说“通过OTA推送”，没列清单。所以现在能确认的是方向对、逻辑通，但实际效果多大、覆盖多广，还得等后续数据或者第三方拆解。如果这是你考虑购车或安全对比的依据，建议先打七折看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:46

34d ago

AI HOT 精选· aihot-apiZH15:46 · 05·09

手机扫一扫，房子变3D模型；AI Agent在算命比赛里赢了人类专家

一项叫“3D高斯泼溅”的技术，用手机扫一遍房子就能生成浏览器里能看的3D模型，文件小、成本低，房产中介可能先受益。另一边，AI在垂直领域靠Agent范式突破：Tianfu Agent在专业命理大赛里接近人类顶尖水平，做法是给模型配一套专用工具（比如查规则、算参数），而不是让它硬背所有知识。这套思路对法律、中医这类规则密集的行业有参考价值。不过正文没披露...

#Agent#Vision#Tools#Tianfu Agent

精选理由

HKR三项都过，但原文只是一条简短的社交帖子，没有公布扫描精度、样本量、排名细节或可用性条款。适合作为有趣的产品/实验线索，不值得上推荐位。

一句话点评

手机扫一圈房子就能生成浏览器可看的3D模型，文件小成本低，房产中介确实能用。但正文没披露扫描精度、建模耗时和手机型号限制，实际落地效果要打折。Tianfu Agent在命理大赛接近人类顶尖水平，做法是给模型配专用工具（查规则、算参数），而不是硬背知识。这套思路对法律、中医等规则密集行业有参考价值，但命理本身争议大，且比赛规模、对手水平未公开，验证强度有限。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:36

34d ago

FEATUREDAI HOT 精选· aihot-apiZH15:36 · 05·09

YC 老板 Garry Tan 开源了自己的 AI 系统 GBrain，五个月读了 20 多本书，管着 10 万页知识

Garry Tan 把 GBrain 放上了 GitHub，这是他给自己搭的一套个人 AI 操作系统，想做成能持续增值的“第二大脑”。系统按任务拆成几个模块：Book Mirror 负责深度处理书籍，Meeting Prep 自动做会前预习，五个月啃完 20 多本书，结构化知识库超过 10 万页，还在涨。架构上分三层——轻量路由层决定用哪个模型、可组合...

#Agent#Tools#Memory#Y Combinator

精选理由

Garry Tan 把自用的 GBrain 开源，这件事我会先打个折——正文没披露 repo 活跃度、具体架构和有没有测试，所以别当成熟产品看。但亮点在于他真用了 5 个月，啃了 20 多本书、攒了 10 万页以上的结构化知识，说明系统至少跑通了个人知识复利这条链路。对想用模型管自己资料的人来说，这是个有参考价值的开源起点，不是公关稿。

一句话点评

YC CEO 把自己用的个人 AI 系统开源了，五个月啃完 20 多本书、管着 10 万页知识库，但正文没给实际效果验证，先当个高级玩具看。

锐评

Garry Tan 把 GBrain 放上 GitHub，这事本身比代码更有信号：一个顶级投资人愿意把自己日常用的 AI 系统公开，说明个人知识管理这块确实缺好工具。系统拆成三层——路由层决定用哪个模型、技能层跑具体任务、数据层存结构化知识，思路不新但落地得挺实在。五个月处理 20 多本书、管理超 10 万页知识库，数字看着漂亮，但正文没披露这些书到底读出了什么、会议预习有没有真省时间。我会先打个折：这是一个人给自己定制的系统，换个人用能不能跑通、维护成本多高，全都没说。开源不等于可复用，别看到 YC 就激动。还缺两样东西：一是实际使用前后的效率对比，二是其他人部署后的反馈。如果只是 Tan 自己用着爽，那更像个人作品展，离产品还远。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:36

34d ago

FEATUREDAI HOT 精选· aihot-apiZH14:36 · 05·09

Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook，跑出 27 tok/s

Antirez 开源了一个叫 ds4 的推理引擎，专门给 DeepSeek V4 Flash 用。代码只有几千行 C，能在 128GB 内存的 MacBook Pro 上跑 100 万 token 上下文的模型。他用了三招：对 MoE 专家做不对称 2-bit 量化来压缩模型体积；把 KV Cache 搬到高速 SSD 上，绕开内存不够的问题；再给苹果...

#Inference-opt#Antirez#Redis#DeepSeek

精选理由

Antirez 开源了一个叫 ds4 的原生推理引擎，几千行 C 代码，在 128GB 内存的 MacBook Pro 上跑 DeepSeek V4 Flash，1M 上下文实测跑到 27 tok/s。我会先打个折，这个速度是在特定硬件和模型上跑出来的，换台机器不一定能复现，但至少证明了不用显卡也能把大模型跑起来。正文没披露量化精度和功耗，这点先别太激动。整体看，这是一个很强的开源推理信号，对关注本地部署和隐私的团队有参考价值。

一句话点评

Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook，27 token/秒，但量化压缩和 SSD 换内存的代价正文没提。

锐评

Antirez 开源的这个 ds4 推理引擎，核心是把大模型跑在个人电脑上这件事做成了。他用三招：对 MoE 专家做不对称 2-bit 量化，把模型体积压下来；KV Cache 不放在内存，而是搬到高速 SSD 上，绕开 128GB 内存不够用的问题；再针对苹果芯片做纯 Metal 优化。结果是在 MacBook Pro 上跑 100 万 token 上下文的 DeepSeek V4 Flash，实测每秒 27 个 token。这个速度能读，但离实时对话还有距离。正文没披露量化后模型效果掉了多少，也没说 SSD 读写延迟对长上下文推理的稳定性影响。27 tok/s 是在什么负载下测的、有没有批处理，这些关键信息都缺。我会先打个折：工程上很漂亮，但别急着把它当生产环境方案。还缺一个对比：同样硬件跑其他量化方案是什么速度？如果只是针对 DeepSeek V4 Flash 特化，通用性就有限。另外，几千行 C 代码维护成本不低，后续模型更新能不能跟上也是问题。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:08

35d ago

FEATUREDAI HOT 精选· aihot-apiZH14:08 · 05·09

Peekaboo 3.0 发布，主打“先动手”的 Mac 操作和界面识别

Peekaboo 3.0 上线了，作者说这是 2.0 以来最大的一次更新。核心变化是把“操作”放在第一位，不再是先看再点，而是直接让模型去执行 Mac 上的任务。它把截图和界面检测统一成一个功能，CLI 和 MCP 之间的 JSON 交互也整理得更干净，快照功能有改进。作者提到去年就想做，但当时模型能力不够，现在时机到了。正文没披露定价、用了哪个模型，...

#Agent#Vision#Tools#Peekaboo

精选理由

我会先打个折：正文没披露价格、模型细节和实际落地数据，所以判断只能停在工具更新本身。亮点是把截图和界面检测统一起来，再配上 CLI 和 MCP 的 JSON 交互，让 macOS 桌面 agent 的“看”和“动”更连贯。这点先别太激动，因为没有性能对比或用户反馈，但方向对做桌面自动化的团队有用。

一句话点评

Peekaboo 3.0 把操作放第一位，让模型直接动手干活而不是先看再点，但正文没披露用了哪个模型、定价多少。

锐评

Peekaboo 3.0 这次改版思路挺直接：以前是截图给模型看，模型告诉你点哪里，你再点；现在是模型直接上手操作 Mac，截图和界面检测合并成一个功能，省了一步。作者说去年就想做，但当时模型能力跟不上，现在才敢推。这个判断我信一半——模型确实强了，但让模型直接操作桌面环境，稳定性、误操作风险、权限控制都是坑，正文完全没提这些。 CLI 和 MCP 之间的 JSON 交互整理得更干净，快照功能也有改进，说明作者在工程上花了功夫。但关键信息全缺：没写定价，没写接的是哪个模型，也没写延迟和成功率。如果用的是云端大模型，延迟和隐私就是硬伤；如果是本地模型，那能力边界在哪也得说清楚。这些不补上，3.0 更像一次架构重构，离真正能放心交给它干活还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:25

35d ago

AI HOT 精选· aihot-apiZH11:25 · 05·09

腾讯混元 Hy3 预览版免费期结束，OpenRouter 上三项指标排第一

腾讯混元说 Hy3 预览版在 OpenRouter 上两周免费期内，总 token 用量、代码生成和工具调用三项指标都排第一，市场份额冲到 15.4%。现在免费期结束，但还能以有竞争力的价格继续用。正文没披露具体价格和性能对比，想省钱的话可以自己去 OpenRouter 看看报价。

#Code#Tools#Tencent Hunyuan#OpenRouter

精选理由

H/K/R都过，但来源是腾讯自宣，且排名发生在免费期，用量被价格扭曲。当一个小型产品/榜单更新处理，不推首页。正文没披露Hy3预览版与正式版的差异，也没说免费期结束后价格。

一句话点评

短评：OpenRouter两周免费期数据，Hy3预览版在token用量、代码和工具调用三项排第一，份额冲到15.4%。免费结束但价格未披露，别急着冲。点评：腾讯混元说Hy3预览版在OpenRouter上两周免费期内，总token用量、代码生成和工具调用三项指标都排第一，市场份额冲到15.4%。这个排名来自OpenRouter的公开数据，可信度还行，但注意这是免费期数据——用户冲着免费来，...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:56

35d ago

FEATUREDAI HOT 精选· aihot-apiZH08:56 · 05·09

工信部启动 AI 伦理审查先导计划，先在几个先导区省份跑通流程

工信部发了个通知，要在国家人工智能产业创新应用先导区所在的省份，先试着把 AI 伦理审查这件事落地跑起来。计划里安排了四件事：一是让各省把审查制度细则定清楚，把城市层面的协同治理机制建起来；二是让企业、研究机构这些创新主体自己建 AI 伦理委员会，有条件的还可以搞审查与服务中心；三是动真格做审查，高风险 AI 活动要组织专家复核，同时推动风险评估、委员...

#Safety#Alignment#MIIT#Policy

精选理由

工信部这个先导计划，我会先打个折——标题确实像例行通知，但里面塞了两个实打实的东西：一是4项具体任务，二是要建全国伦理风险监测服务网络。对做模型落地的人来说，这意味着以后上线前可能要多过一道伦理审查，而且风险监测会联网跑，不是自己关起门说了算。正文没披露时间表和具体审查标准，这点先别太激动，但合规风向已经摆出来了。

一句话点评

工信部要在AI先导区省份先跑通伦理审查，把制度、委员会、高风险复核和风险监测网搭起来。正文没提具体时间表和违规怎么罚，落地力度还得看后续细则。

锐评

这条通知的核心是把AI伦理审查从纸面推到实操。工信部选了四个方向：省级定细则、企业建伦理委员会、高风险活动要专家复核、再搭一个部省市三级联动的风险监测网络。听起来框架很全，但正文没披露几个关键信息——比如“高风险”怎么界定，审查不通过会有什么后果，以及企业自建委员会会不会变成自己审自己。对从业者来说，信号很明确：以后做AI产品，特别是涉及高风险场景的，伦理审查会像安全评估一样成为硬门槛。通知里提到要搞标准研制和验证，说明现在连审查标准本身都还在摸索阶段。这点先别太激动，等具体标准和案例出来，才能判断是动真格还是走流程。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

08:52

35d ago

AI HOT 精选· aihot-apiZH08:52 · 05·09

Qwen 3.5 和 3.6 全系列模型上线 SiliconFlow，从 9B 到 397B 都有

SiliconFlow 平台一口气上了阿里 Qwen 3.5 和 3.6 两个系列共 7 个模型，覆盖 9B 到 397B 参数，既有稠密（Dense）也有混合专家（MoE）架构，还带原生多模态能力。具体型号包括 Qwen3.6-35B-A3B（35B 总参数，每次推理只激活 3B，省显存）、Qwen3.6-27B、Qwen3.5-397B-A17B（...

#Multimodal#Inference-opt#SiliconFlow#Qwen

精选理由

这是一条 SiliconFlow 上架 Qwen 新模型的公告，属于云厂商常规产品更新。信息价值在于给出了模型规格（9B-397B、MoE/Dense、7个模型名），但缺少定价、速度或独家能力等关键指标，对从业者来说只能当个模型列表看，不值得高优先级推送。

一句话点评

SiliconFlow 一口气上了阿里 Qwen 3.5 和 3.6 共 7 个模型，从 9B 到 397B 都有，MoE 和稠密架构全包。最亮眼的是 Qwen3.6-35B-A3B，总参数 35B 但每次只激活 3B，显存省得离谱，推理成本能压到很低。Qwen3.5-397B-A17B 则是超大杯 MoE，适合不差钱的场景。原生多模态是加分项，但正文没披露具体跑分或延迟数据，实际效果得自己...

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

08:40

35d ago

FEATUREDAI HOT 精选· aihot-apiZH08:40 · 05·09

用 Codex 并行调试验证修复

作者查 bug 时会让 Codex 在临时沙盒里重建出问题现场，先确认 bug 能复现，再修，修完再验证一遍。本地环境不会被搞乱，因为所有操作都在隔离的临时环境里跑；速度也不掉，因为他同时开 10 个会话并行处理。正文没披露具体修复成功率或单次耗时。

#Agent#Code#Tools#Codex

精选理由

这是一篇第一人称的工作流笔记，不是产品发布或基准测试，但 10 个 Codex 会话并行修 bug 的实操信号很强。我会先打个折——正文没披露修复成功率、单会话耗时和资源消耗，所以实用性还缺几块拼图。不过它把“临时沙盒 + 并行验证”这套打法讲清楚了，对想用 AI agent 干活的开发者有直接参考价值，放在 featured 里偏低的位置合理。

一句话点评

用临时沙盒并行跑10个Codex会话查bug，修完还能自动验证，本地环境不脏。但正文没给成功率和耗时，效果先打七折。

锐评

这条分享了一个挺实用的调试思路：让 Codex 在隔离的临时沙盒里复现 bug、修、再验证，同时开 10 个会话并行跑，既不怕搞乱本地环境，速度也不掉。这相当于把“复现-修复-回归”这个最吃耐心的环节外包给模型，而且用并行换时间，思路直接。但正文只给了操作流程，没披露关键数据。修复成功率多少？单次任务平均耗时多久？10 个并行是稳定跑还是偶尔崩？这些都没说。另外，crabbox 这个沙盒工具本身的开销、能跑的语言和依赖限制也没提，实际能不能照搬要看自己的技术栈。还缺一个对比：跟直接在本机开多进程或者用 CI 跑测试修 bug 比，这套流程到底省了多少时间、少踩了多少坑。没有这些，就只能当个灵感参考，不能直接当方案用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:09

35d ago

● P1AI HOT 精选· aihot-apiZH07:09 · 05·09

百度发布ERNIE 5.1大语言模型，预训练成本仅为对标模型6%

百度在 ERNIE 5.0 的基础上做了 5.1，主要提升搜索、推理、知识问答、创意写作和智能体能力。最抓眼球的数字是预训练成本只有对标模型的 6%，但正文没披露对标的是谁、怎么算出来的，也没给具体金额或技术细节。我会先打个折——成本低到这个程度，要么是用了 5.0 的底子省了大笔算力，要么是统计口径有讲究。另外，模型在哪些基准上测了、效果提升多少，帖...

#Reasoning#Agent#Baidu#ERNIE

精选理由

百度发了ERNIE 5.1，最抓人的一句话是“预训练成本约为对标模型的6%”。这个数字让一条模型更新变成了成本效率的故事，从业者会立刻想知道对标模型是谁、成本口径怎么算的，正文没展开说，所以冲击力有，但信息缺口也大。搜索、推理、问答、写作和智能体能力都提了升级，但没给具体评测或对比数据，技术细节偏薄。我会先打个折：话题性够强，靠成本数字和国产旗舰身份撑到了p1，但缺细节让它进不了90分以上的档位。

一句话点评

百度说 ERNIE 5.1 预训练成本只有对标模型的 6%，但正文没给对标谁、怎么算的，先当个方向看。

锐评

这条消息的核心卖点是省钱——预训练成本压到对标模型的 6%。但正文是空的，我们只能从标题里抓信息，所以判断要打折扣。首先，没说是跟哪个模型比，如果是跟 GPT-4 级别的模型比，那确实是个工程突破；如果对标的是自家上一代，意义就小很多。其次，成本怎么算的也没交代，是只算算力，还是包括了数据清洗、人力、试错？这些都会影响 6% 这个数字的含金量。另外，参数规模、性能 benchmark、推理成本都没提，光训练便宜还不够，用起来贵不贵、效果好不好才是关键。我会先把这个消息当成一个技术方向的信号，说明百度在训练效率上做了压缩，但具体怎么做到的、能不能复现，还得等论文或技术报告出来再看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:24

35d ago

AI HOT 精选· aihot-apiZH05:24 · 05·09

YC创始人公开AI提示词：让模型学会重复干活，别每次都从头教

Garry Tan 公开了 OpenClaw 提示词，核心是让 AI 代理从一次性工具变成能积累技能的自动系统。规则包括：禁止只干一次活、用 MECE 原则拆任务、把重复问当作失败信号，以及用标准六步流程让模型自己学并攒技能库。有人试过，系统能自动处理日报、邮件这类重复工作。另外，文章还提了个观点：在 AI 时代，HTML 比 Markdown 更适合...

#Agent#Tools#Memory#Garry Tan

精选理由

HKR三项都达标，但事实仅限于一条X帖里的提示词工作流。没有模型发布、产品数据或可复现的实验，所以分数压在70档。

一句话点评

YC 创始人 Garry Tan 公开了 OpenClaw 提示词，核心是让 AI 代理从一次性工具变成能积累技能的自动系统。规则包括：禁止只干一次活、用 MECE 原则拆任务、把重复问当作失败信号，以及用标准六步流程让模型自己学并攒技能库。有人试过，系统能自动处理日报、邮件这类重复工作。另外，文章还提了个观点：在 AI 时代，HTML 比 Markdown 更适合做沟通语言，因为能生成交互...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:19

35d ago

FEATUREDAI HOT 精选· aihot-apiZH04:19 · 05·09

Hermes Agent登顶OpenRouter全球令牌排名

NousResearch 宣布 Hermes Agent 在 OpenRouter 全球 Token 排名中拿下第一。但正文没披露统计周期、具体 Token 量以及模型版本，所以这个“第一”含金量有多高还不好说。

#Agent#NousResearch#OpenRouter#Benchmark

精选理由

HKR-H和HKR-R通过：OpenRouter令牌排名第一确实有话题性和竞争感。HKR-K不通过：周期、令牌量、模型版本都没披露，信息不够硬，只能当普通动态处理。

一句话点评

Hermes Agent 在 OpenRouter 过去 24 小时的全球令牌用量冲到第一，压过 Claude Code 和 OpenClaw。但 Reddit 原文被屏蔽，看不到具体数字和讨论细节。

锐评

这条消息来自 Reddit r/LocalLLaMA 的一张截图，说 Hermes Agent 成了 OpenRouter 上过去 24 小时全球令牌消耗最多的模型，排在 Claude Code 和 OpenClaw 前面。OpenRouter 的令牌排名能反映实际调用量，不是下载量或 star 数，所以这个第一有一定参考价值——说明有人在真金白银地跑这个 agent。但信息缺口很大。Reddit 原文被网络屏蔽，我们拿不到原帖里的截图和讨论，不知道具体令牌量级是多少、领先幅度有多大、是短期冲高还是持续用量。Hermes Agent 本身是基于 Nous Research 的 Hermes 模型做的 agent 框架，主打本地部署和可控性，能在用量上压过 Claude Code 这种闭源选手，要么是成本优势明显，要么是有特定场景在批量跑。目前能确认的只有排名变化这一个事实。没有披露绝对用量、没有用户场景拆解、也没有持续性数据，所以别急着下“开源 agent 超越闭源”的结论。等原帖能访问了再看细节。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:05

35d ago

AI HOT 精选· aihot-apiZH04:05 · 05·09

阶跃星辰 StepAudio 2.5 TTS 在语音盲测中排全球第三，比 Eleven Labs 高 8 分

阶跃星辰的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测中拿到 Elo 1187 分，排全球第三，仅次于 Inworld TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。它比 Eleven Labs 的 v3 模型高了 8 分，语音自然度有明显提升。定价是每百万字符 ...

#Audio#StepFun#Artificial Analysis#Google

精选理由

HKR 三项都达标，但信息来源只是厂商的一条 X 帖子，只披露了排名、Elo 和价格，没有测试样本、对手差距或可复现性。这属于小产品/榜单更新，所以定 tier all。

一句话点评

阶跃星辰 StepAudio 2.5 TTS 在 Artificial Analysis 语音盲测中拿到 Elo 1187，全球第三，比 Eleven Labs v3 高 8 分。定价每百万字符 85 美元，生成速度 37.6 字符/秒，支持全局上下文和行内情感标签。盲测排名有参考价值，但没披露训练数据规模和中文效果，实际落地还得看场景。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:27

35d ago

AI HOT 精选· aihot-apiZH03:27 · 05·09

Codex Chrome插件能用，但安装有门槛

有人用Codex Chrome插件成功完成了一次购物，证明它确实能用。但安装有几个硬性条件：Codex必须升到最新版，登录得用官方订阅账号，不支持第三方API模式。网络节点也有讲究，比如香港就不行。装好后要在Codex对话里输入“@ Chrome”才能调出插件功能。建议把Chrome设成默认浏览器，遇到连接问题可以重启电脑试试。正文没披露具体购物场景和...

#Agent#Tools#Codex#Chrome

精选理由

这是一条用户实测笔记，不是官方发布，所以信息量有限：只做了 1 个任务，没提稳定性、定价、权限边界或正式上线时间。但胜在真实，对关注 agent 落地的从业者来说，能快速判断 Codex 在 Chrome 里的可用性和限制。66 分合理，放在 all 层让更多人看到。

一句话点评

短评：Codex 的 Chrome 插件真能下单了，但门槛不少——必须用官方订阅账号，不支持第三方 API，香港节点也不行。正文确认有人用 Codex Chrome 插件完成了一次购物，证明它不再是画饼。但安装限制很具体：Codex 必须最新版、登录得用官方订阅（第三方 API 模式不支持）、网络节点有讲究（香港不行）。装好后要在对话里输入“@ Chrome”才能调出插件，建议把 Chr...

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

35d ago

AI HOT 精选· aihot-apiZH03:06 · 05·09

GPT Image 2 提示词模板：水墨风格幻灯片

这篇帖子分享了一个生成水墨风幻灯片图片的提示词模板，包含标题、要点、视觉元素、布局、文字层级和延续说明六个部分。模板强调宣纸背景、水墨山水等东方元素，追求静谧、侘寂或当代东亚奢华的美学风格。正文没披露模型设置、价格或可复现的生成参数，所以想直接拿来用还得自己试。

#Multimodal#Vision#GPT Image 2#Codex

精选理由

H和K通过：水墨幻灯片这个钩子够具体，6类提示词结构也提供了可复用的脚手架。但R不达标：没有测试结果、模型细节或行业影响，所以分数落在60–71区间。

一句话点评

一个水墨风PPT提示词模板，结构挺清楚：标题、要点、视觉元素、布局、文字层级、延续说明。但正文没披露模型设置、价格或可复现参数，想直接拿来用还得自己试。短评：模板不错，但缺参数，得自己调。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

02:44

35d ago

AI HOT 精选· aihot-apiZH02:44 · 05·09

GPT Image 2 提示词框架：一键生成中文科技新闻爆款封面

这是一个提示词框架，让AI根据文章内容自动生成16:9的中文科技新闻封面图。框架要求AI扮演顶级视觉设计师，从文章里提取核心新闻、关键数字、产品信息和行业情绪，然后拼出一张高信息密度的封面。构图分五个区：顶部新闻区、中央超大标题、主视觉产品图、数据卡片和底部总结。配色、字体、背景会根据行业、品牌和情绪动态调整。目标是3秒内让读者抓住重点，风格参考中国科...

#Multimodal#Vision#GPT Image 2#Product update

精选理由

HKR-K 通过，因为帖子提供了一个可复用的 GPT Image 2 封面布局机制。HKR-H 和 HKR-R 偏弱，所以分数落在 60–71 区间，算一个小 workflow 技巧。

一句话点评

这个提示词框架让 GPT Image 2 自动生成中文科技新闻封面，把文章拆成新闻区、标题、产品图、数据卡和底部总结五个区块，配色字体随行业情绪变。目标是 3 秒抓眼球，模仿中国科技媒体和 B 站爆款风格。但正文没披露实测效果——生成一张图要多久、成本多少、跟人工设计比差多远。如果真能稳定输出高信息密度封面，对缺设计师的小团队挺省钱。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

01:32

35d ago

FEATUREDAI HOT 精选· aihot-apiZH01:32 · 05·09

Claude Mythos 预览版风险时间距评估：50% 任务完成时间至少 16 小时

METR 在 2026 年 3 月的一个短暂窗口里，对 Claude Mythos 的早期预览版做了风险评估。他们用一套任务测下来，模型有 50% 概率能独立完成的任务，所需时间至少是 16 小时，95% 置信区间在 8.5 到 55 小时之间。这个数字已经碰到了 METR 现有任务能测出的上限，也就是说，再长他们就测不准了。正文没披露具体是什么任务、...

#Benchmarking#Safety#METR#Claude Mythos

精选理由

METR 在 2026 年 3 月拿 Claude Mythos Preview 早期版做了有限窗口评估，测出一个 50% 时间范围至少 16 小时，95% 置信区间 8.5 到 55 小时。我会先打个折：这只是单次评估、早期版本，窗口也有限，别直接当最终结论。但“16 小时”这个数字本身够直接，说明模型在长时间自主任务上已经能跑一阵子了，安全团队得盯紧。正文没披露具体任务类型和失败模式，这点信息缺口让判断只能停在信号层面。

一句话点评

METR 测出 Claude Mythos 预览版能独立干 16 小时的活，但这是他们现有题目的天花板，再长就测不准了。

锐评

METR 在 3 月短暂窗口里测了 Claude Mythos 的早期预览版，结论是模型有 50% 概率独立完成的任务，时间跨度至少 16 小时，95% 置信区间在 8.5 到 55 小时之间。这个数字本身不算离谱，但关键信息是：这已经碰到 METR 现有测试套件的上限了。也就是说，不是模型只能干 16 小时的活，而是他们的题目最长就设计到这儿，再往上没法测。正文没披露具体测了什么任务、任务难度怎么定义、以及模型是在什么条件下跑的。16 小时这个数，如果任务本身是重复性操作或者低难度堆积，意义就打折；如果是需要持续推理和决策的复杂流程，那才值得关注。另外，这只是早期预览版，正式版的能力可能更强，也可能因为安全对齐被砍掉一些。现在还缺两样东西：一是 METR 需要设计更长周期的任务来突破天花板，二是需要知道模型在接近 16 小时边界时，失败模式是什么——是中间崩了、忘了目标，还是产出质量断崖式下跌。这些比一个孤零零的时间数字更有参考价值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

AX 严选 · 2026-05-09

更多

频道

后台