热点聚合 · 2026-05-12

▸ 48 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-12 · 星期二2026年5月12日

23:40

27d ago

FEATURED彭博科技· rssEN23:40 · 05·12

Alibaba、Tencent AI投入面临投资者盈利审视

中国投资者要求 Alibaba、Tencent 在财报季证明数十亿美元 AI 支出产生回报，正文未披露利润指标、投入明细或时间表。

#Alibaba#Tencent#Commentary

精选理由

Bloomberg抓住阿里、腾讯AI投入的利润追问，H与R成立；但正文缺少新数字、机制或时间表，K不足，落在常规产业报道的中段。

一句话点评

两条 Bloomberg 标题自己打架：投资者既追问 AI 利润，又愿意越过慢增长看潜力；阿里、腾讯现在缺的不是故事，是可核算回报。

锐评

两条 Bloomberg 都盯阿里、腾讯 AI 投入，但标题口径分裂：一条写盈利审视，一条写投资者越过慢增长看 AI 潜力。正文被 403 拦住，CAPEX、云收入、模型成本、广告增量都没给出，只能按标题判断。我的判断很简单：市场已经不把“中国大厂投 AI”当自动加分项了，开始要利润表证据。阿里有通义和云，腾讯有混元、广告和游戏分发，但这些资产只有进到毛利率和客户留存，才算 AI 投资回报。对比美国那边，微软还能用 Azure AI 增速给 Copilot 叙事垫底；阿里、腾讯如果只给“潜力”，折价会继续压着估值。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

23:15

27d ago

FEATUREDr/LocalLLaMA· rssEN23:15 · 05·12

在原装 Game Boy Color 本地运行真实 Transformer 语言模型

maddiedreese 在原装 Game Boy Color 上运行 TinyStories-260K：INT8 权重、定点数学、MBC5 ROM，KV cache 放卡带 SRAM，输出很慢且乱码。

#Inference-opt#Code#maddiedreese#Andrej Karpathy

精选理由

三项 HKR 都命中：这是具名一手实验，有可复现的模型与内存机制；但来源是 Reddit，结果慢且乱码，行业影响停在极客演示层，所以压在精选低段。

一句话点评

Game Boy Color 跑 TinyStories-260K 很酷，但别把玩具 demo 当边缘 AI；硬信息是 INT8、定点、SRAM KV cache，输出慢到乱码。

锐评

这个 demo 的价值在工程羞辱，不在可用推理。maddiedreese 把 TinyStories-260K 塞进原装 Game Boy Color：INT8 权重、定点数学、MBC5 ROM，KV cache 放卡带 SRAM，还排除了手机、PC、Wi‑Fi、link cable、云端推理。正文被 Reddit 403 挡住，我只能按摘要判断；关键数字是 260K 参数，不是某个 7B 被压缩到掌机上。我喜欢这类东西，因为它把“模型必须上大 GPU”这句话拆开看：权重、激活、KV、访存、量化都能被手工掰。但输出极慢且乱码，说明它更接近 demoscene。和 llama.cpp 当年把 LLaMA 拉进消费级 CPU 不同，这次没有产品拐点，只有一记很漂亮的系统工程耳光。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:13

27d ago

FEATUREDAI HOT 精选· aihot-apiZH23:13 · 05·12

90%的人在白白浪费 Token

Andrej Karpathy称AI编程账单90%浪费在无效上下文，典型来源包括重复发送代码库、高价模型处理简单任务和未启用提示词缓存。

#Agent#Code#Tools#Andrej Karpathy

精选理由

Karpathy 背书加“90%浪费”数字让它越过精选线，且有可执行的成本机制；但正文只是转述观点，没有账单样本或实验数据，所以停在 72。

一句话点评

Karpathy 这句 90% 浪费很刺耳，但它打中的不是提示词技巧，是 agent 产品把上下文成本藏进默认体验里。

锐评

Karpathy 把 AI 编程账单的刀口切对了：贵的不是模型，是默认把仓库、历史、工具输出一股脑塞进上下文。正文给的浪费源很具体，重复发送整个代码库、高价模型跑简单任务、没开 prompt caching；这三项全是产品默认值问题，不是用户手残。我比较认同多模型路由这条，主力用 Kimi 2.6、关键任务用 Opus，逻辑上比“全程上最贵模型”靠谱。但 90% 这个数正文没给测算口径，像 Karpathy 的经验判断。真正会分层的团队，月账单差距会先体现在 context discipline，不会先体现在谁更会写 prompt。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:31

27d ago

FEATUREDAI HOT 精选· aihot-apiZH20:31 · 05·12

Codex 实现跨应用无感多任务处理

OpenAI Devs 称计算机使用让 Codex 在 Mac 应用间后台点击和输入，正文未披露发布时间、权限模型或可用范围。

#Agent#Tools#Code#OpenAI

精选理由

HKR-H/K/R都命中：OpenAI Devs 给出 Codex 在 Mac 跨应用后台操作这一具体机制，开发者会关注自动化边界。正文未披露发布时间、权限模型和可用范围，压在高分 featured 下沿。

一句话点评

OpenAI 把 Codex 往 Mac 后台代理推了一步，但只有 X 帖，没有权限模型和可用范围，这种“无感”最容易藏安全账。

锐评

Codex 这次卖的是“后台占用你的 Mac”这层产品权力，不是又多会写几行代码。标题已给出能跨 Mac 应用点击、输入、持续工作；正文没给发布时间、权限边界、可用范围，也没说用户如何审计每次操作。这个缺口很要命，因为 computer use 一旦从浏览器沙盒进到本机应用，风险就从网页误点升级成文件、终端、IDE、聊天工具联动误操作。Anthropic 早前 Computer Use 至少把 beta 和工具边界说得很清楚；OpenAI 这里像在先推叙事。Codex 若要接管开发工作流，权限日志比 demo 更关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:30

27d ago

FEATUREDAI HOT 精选· aihot-apiZH19:30 · 05·12

Step Image Edit 2 图像模型发布，性能领先且高效

StepFun 发布 35 亿参数 Step Image Edit 2，在 KRIS-Bench 综合、事实和概念类别均排名第一，并已上线 Stepfun 开放平台。

#Vision#Multimodal#Benchmarking#StepFun

精选理由

Step Image Edit 2 是中等强度模型发布，HKR-H/K/R 都有：35 亿参数、KRIS-Bench 三类第一和开放平台上线给出具体信息；但来源是厂商自述，缺少第三方复测与价格，停在 featured 下沿。

一句话点评

StepFun 把 35 亿参数图像编辑打到 KRIS-Bench 三项第一，参数效率很漂亮；但只给榜单不给价格，商业杀伤力还没落地。

锐评

StepFun 这次押的是小模型图像编辑的成本叙事，而不是单纯刷图质量。35 亿参数在 KRIS-Bench 综合、事实、概念三类第一，还声称超过 5-6 倍参数模型，这个钩子够硬；如果指令编辑、文字渲染、主体一致性都能在线上稳定复现，很多营销图和电商图任务不需要巨型多模态模型。我对这条保留一层怀疑：KRIS-Bench 是编辑榜单，不等于真实生产链路。正文没给单次编辑价格、延迟、失败率，也没给对比模型名字。Adobe Firefly 和 GPT-4o 图像能力吃的是分发与工作流，Step Image Edit 2 要证明的不只是榜单第一，而是开放平台调用量能不能起来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:54

27d ago

FEATUREDAI HOT 精选· aihot-apiZH18:54 · 05·12

Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

Anthropic 工程团队用 Claude Code 开发 CLUE 平台，一天完成概念验证，一周交付实现，将数小时日志分析缩短至几分钟。

#Agent#Code#Tools#Anthropic

精选理由

HKR 三项都命中，但这是 Anthropic 自家博客的内部案例，不是 Claude Code 新能力发布；有 CLUE 与交付周期数字，压在 featured 门槛上方。

一句话点评

Anthropic 把 Claude Code 当内部安全工程师卖，这比“AI 写代码”更扎实；但一周交付 CLUE 仍是自家样板，缺外部复现。

锐评

Claude Code 在 CLUE 案例里拿到的不是炫技分，是企业内网工作流分。Anthropic 说一天做出 PoC、一周交付，把数小时日志调查压到几分钟；这个钩子够硬，因为安全分析的瓶颈常在查询拼接、上下文追踪、告警解释，不在单次模型问答。我不太买它被包装成通用胜利。样板来自 Anthropic 自家检测平台团队，需求、权限、日志 schema、评审链路都在同一家公司里，摩擦天然少一截。和 Cursor、Devin 这类面向外部代码库的故事相比，CLUE 更像“Claude Code + 熟人系统权限”的胜利。外部客户能不能一周落地，取决于 SIEM 接入、审计要求和误报责任，正文没给这些数。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:23

27d ago

FEATUREDAI HOT 精选· aihot-apiZH18:23 · 05·12

Claude Opus 4.7 快速模式开放研究预览

Claude Opus 4.7 快速模式已在 API 和 Claude Code 开放研究预览，正文未披露模型参数、价格、限额或正式发布时间。

#Inference-opt#Code#Tools#Anthropic

精选理由

Anthropic/Claude 的实用能力更新，且落在 API 与 Claude Code 两个高频入口，HKR 三项都成立。正文信息偏薄，未给价格、限额、参数或正式发布时间，所以压在 featured 门槛上方，不进 78+。

一句话点评

Opus 4.7 Fast Mode 只给 API 和 Claude Code 预览，不给价格和限额；Anthropic 在先测延迟账，不急着卖新旗舰。

锐评

Anthropic 把 Opus 4.7 Fast Mode 先塞进 API 和 Claude Code，很像在测工程边界，不像一次正式能力发布。正文只给了研究预览入口，没给价格、rate limit、参数、GA 日期，这四个缺口都卡在生产采用上。我对“Fast Mode”这个命名有点警惕。过去一年各家都在把同一模型拆成 thinking / fast / mini 路线，核心不是跑分，是把延迟和推理成本切成可售 SKU。Claude Code 是合理试验场，开发者会用真实任务压它。但没有 SWE-bench、token 价、上下文窗口，这条只能说明 Anthropic 在调成本曲线，不能说明 Opus 4.7 已经扩大领先。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:20

27d ago

FEATUREDAI HOT 精选· aihot-apiZH18:20 · 05·12

山姆·奥特曼因涉嫌利用 OpenAI 谋私利遭正式调查

佛罗里达、蒙大拿等六州司法部长致信 SEC，要求调查山姆·奥特曼涉嫌借 OpenAI 谋取个人利益；正文称 OpenAI 估值 8520 亿美元，利益冲突审计报告尚未公开。

#Safety#OpenAI#Sam Altman#SEC

精选理由

HKR 三项都成立：人物级别高、监管动作具体、治理冲突有讨论性。分数压在 82，因为正文只确认六州总检察长请求 SEC 调查，未确认 SEC 已正式立案。

一句话点评

六州检察长把 Altman 利益冲突推到 SEC 桌上；8520 亿美元估值配未公开审计，OpenAI 的治理故事又断线了。

锐评

OpenAI 最危险的变量不是模型掉队，而是 Altman 的个人资产版图开始压过公司治理叙事。六州检察长已致信 SEC，点名他在 OpenAI 无直接股权，却可能通过外部投资从公司交易中获益；众议院监督委员会也要求投资文件。8520 亿美元估值放在这里很刺眼，因为利益冲突审计报告还没公开。我对这条不按党争看。2023 年董事会闹剧后，OpenAI 一直靠商业速度稀释治理问题；现在监管盯的是 self-dealing，而不是模型安全口号。若审计只给投资人看、不向公众披露，OpenAI 的“公益结构”会越来越像融资文件里的装饰。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:03

27d ago

● P1Hacker News 首页· rssEN18:03 · 05·12

Cactus 开源 Needle 工具调用模型，2600 万参数性能达 6000 tok/s

Cactus 开源 Needle，2600 万参数工具调用模型在消费设备上达到 6000 tok/s prefill、1200 tok/s decode，MIT 许可发布权重。

#Agent#Tools#Inference-opt#Cactus

精选理由

HKR 三项都成立：小模型复刻 Gemini 工具调用有点击钩子，也给出速度和许可证细节。来源仍是 Show HN/GitHub 自报，未见独立评测或大厂发布，压在 featured 下沿偏上。

一句话点评

Needle 的 2600 万参数很香，但两条热源都指向同一个 GitHub；没有 benchmark 细节前，别急着把它当端侧 tool calling 答案。

锐评

Reddit 和 HN 同时跟进 Needle，但信息链很单一：标题都来自 cactus-compute 的 GitHub 项目，核心数字是 2600 万参数和 6000 tok/s。我喜欢这个方向，因为 tool calling 不一定要交给 7B 以上模型；把 Gemini 行为蒸馏到小模型，适合路由、JSON 参数补全、离线设备触发。问题也很硬：正文只抓到 GitHub 壳页，没看到测试设备、函数集合规模、失败率、和 Gemini 原模型对齐指标。拿它对比 llama.cpp 上的小模型更合理，别拿来碰 Sonnet 4.5 这种通用 agent。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:54

27d ago

● P1AI HOT 精选· aihot-apiZH17:54 · 05·12

Anthropic 为法律行业发布 Claude 插件和 MCP 连接器

Anthropic 为法律行业发布 20 多个 MCP 连接器和 12 个插件，Claude 可在 Word、Outlook 中处理合同起草、修订和条款比对。

#Agent#Tools#Anthropic#Claude

精选理由

Anthropic 面向法律行业发布实质产品包，但不是新模型或平台级能力发布；有具体连接器数量和 Office 工作流，够 featured，分数落在中等产品更新上沿。

一句话点评

Anthropic 一口气给法律业上 20+ MCP 连接器和 12 个插件，像是在把 Claude Cowork 从通用助手硬推成垂直工作台。

锐评

2 个来源都围绕 Anthropic 官方博客展开，一个写“进军法律行业”，一个写“部署路线图”，口径高度一致，明显是官方产品发布链路。 Anthropic 这次给法律行业发布 20+ 个 MCP 连接器和 12 个插件，押的不是模型能力展示，而是工作流占位。法律专业人士已成 Claude Cowork 最活跃的知识工作用户，这是正文给出的唯一 adoption 钩子。比较骚的是，Anthropic 没先讲 benchmark，而是接 contract lifecycle、research、document management、e-discovery 这些系统。对律师来说，幻觉问题没消失；对 Anthropic 来说，入口先进系统栈，审校责任再留给人。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:37

27d ago

FEATUREDHacker News 首页· rssEN17:37 · 05·12

谷歌推出 Googlebook 笔记本电脑预计 2026 年秋季发布

标题称 Googlebook 为 Gemini Intelligence 设计并定于 2026 年秋季推出，RSS 正文未披露硬件规格、价格或发布地区。

#Google#Gemini#Googlebook#Product update

精选理由

HKR 三项都过，但正文仅有标题级信息，未披露规格、价格、地区或 Gemini 本地能力；按预告型 Google 产品更新给 60–71 档，暂不进 featured。

一句话点评

Googlebook 把 Gemini 绑进鼠标、桌面和 Android 17；这不是笔记本发布，是 Google 再试一次把 OS 入口抢回来。

锐评

2 个来源跟进 Googlebook，口径高度一致，核心信息都来自同一个 Google 落地页：2026 年秋季、Gemini Intelligence、Acer/Asus/Dell/HP/Lenovo 五家 OEM、Android 17 门槛。这里没有独立爆料链，更像 Google 主动放出的生态预告。我觉得重点在 Magic Pointer 和 Create My Widget：它们把 Gemini 放到选择、生成、桌面小组件这些高频动作里，而不是再做一个聊天侧栏。这个方向比 Copilot PC 那套 NPU 叙事更接近用户入口。但正文没给芯片、价格、本地模型比例，AI PC 最难的延迟和隐私账还没摊开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:35

27d ago

FEATUREDAI HOT 精选· aihot-apiZH17:35 · 05·12

GitHub Copilot 个人计划引入弹性配额，并新增 Max 计划

GitHub 将于 6 月 1 日更新 Copilot 个人计划，在 Pro 和 Pro+ 引入弹性配额，并新增 Max 计划；正文未披露价格、额度上限或具体分配规则。

#Code#GitHub#GitHub Copilot#Product update

精选理由

GitHub Copilot个人计划调整影响面够大，HKR三项都轻度命中；但正文未披露价格、额度上限和分配规则，只能压在产品更新的精选门槛。

一句话点评

GitHub 6月1日改 Copilot 个人套餐，却不给价格和额度；这像是在为高成本 agent 用量预埋限速器。

锐评

GitHub 这次最关键的动作不是 Max 套餐，而是把 Pro、Pro+ 塞进“弹性配额”这套账本。6 月 1 日生效，正文没给价格、额度上限、分配规则，这三个缺口都指向同一件事：Copilot 的成本曲线已经不适合用老式订阅包住。代码补全可以靠固定月费摊平，agent 模式不行。Claude Sonnet、GPT 系列跑多文件编辑、测试、重试，消耗和闲聊不是一个量级。GitHub 不先讲清每档可用多少，就很难判断 Max 是真重度开发者套餐，还是把超额账单换了个好听名字。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:35

27d ago

● P1彭博科技· rssEN17:35 · 05·12

Altman作证称Musk曾对OpenAI提出控制权要求

Sam Altman 作证称，Elon Musk 2017 年要求完全控制 OpenAI 拟议营利子公司，令他“极度不适”，正文未披露庭审案由或后续结果。

#Safety#OpenAI#Sam Altman#Elon Musk

精选理由

HKR 三项都命中，但正文只给出一段历史证词，未披露庭审案由、法律进展或公司影响。OpenAI 与 Musk 的治理冲突足够进精选，分数停在 featured 下沿。

一句话点评

3 家都在写 Altman 作证，但角度从“安全对话”滑到 Musk 继承设想；这更像诉讼叙事战，不像 AI 安全事实。

锐评

3 家同时跟进 Altman 作证，口径分裂：Bloomberg 抓“hair-raising”安全对话，Verge 写心理战损害，TechCrunch 抓“把 OpenAI 交给孩子”的离谱细节。正文只有 Verge RSS 标题，没给庭审原文、日期、交叉询问和完整上下文，我会把它先按诉讼叙事处理。这条最刺眼的点，是 OpenAI 与 Musk 的官司正在把“安全”变成双方争夺道德高地的材料。Altman 说对话令人不适，未等于模型治理失效；Musk 的家族化设想也未等于收购方案可执行。AI 从业者别被戏剧性标题带跑，证据门槛应是庭审记录和董事会文件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:34

27d ago

● P1AI HOT 精选· aihot-apiZH17:34 · 05·12

谷歌发布全新安卓智能助理

Google 在 Android Show 2026 推出 Android Intelligence，支持跨安卓应用多步骤自动化、Chrome 内 Gemini 浏览器使用、自动填表、Rambler 语音转文本和自定义 Gen UI 小组件。

#Agent#Tools#Audio#Google

精选理由

Google 把 Android Intelligence 放到系统入口，并给出跨应用多步骤自动化、浏览器内 Gemini、自动填表等具体能力。HKR 三项齐全，属于移动端 Agent 平台级产品更新，但正文细节偏短，压在 85 档低位。

一句话点评

Google 把 Android Intelligence 塞进系统层；只给功能名，没设备、时间、价格，我更关心它敢不敢碰第三方 App 权限。

锐评

Android Intelligence 这波像是在补 Android 的代理入口，而不是单纯给 Gemini 加皮肤。钩子很具体：跨安卓应用多步骤任务、Chrome 里的 Gemini browser-use、自动填表、Rambler 语音转文本、自定义 Gen UI 小组件，全都贴着手机工作流走。但正文没给上线时间、支持设备、价格，也没说第三方 App 的授权边界。这里比 Gemini 模型参数更关键。Apple Intelligence 吃亏在系统动作太窄，OpenAI Operator 又离手机 OS 太远。Google 手里有 Android、Chrome、账号和 Play Services，牌面最全；如果权限只停在自家应用，这就只是发布会 demo。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:30

27d ago

FEATUREDTechCrunch AI· rssEN17:30 · 05·12

报告称 Google 与 SpaceX 洽谈将数据中心送入轨道

Google 与 SpaceX 洽谈建设轨道数据中心，定位为 AI 算力载体；正文未披露成本差额、时间表或部署规模。

#Inference-opt#Google#SpaceX#Partnership

精选理由

HKR-H 与 HKR-R 很强：轨道数据中心是高点击的算力叙事，也贴近 AI 基建焦虑；HKR-K 偏弱，正文没有成本、规模和时间表，所以压在 featured 低段。

一句话点评

Google 和 SpaceX 把 AI 算力讲到轨道上，但只有标题和一句 RSS；没有成本、规模、时间表，我先按融资叙事看。

锐评

轨道数据中心这个叙事太会抢镜，但现在还撑不起“AI 算力迁移”的判断。已知只有 Google 与 SpaceX 洽谈，且太空成本仍高于地面；成本差额、部署规模、时间表都没给。缺这三项，任何 TCO 讨论都是空转。我更愿意把它看成 Google 给算力瓶颈找远期选项，SpaceX 给 Starship 和 Starlink 找高毛利负载。和海底电缆、核电 PPA、液冷园区相比，轨道方案先输在维护、散热、发射节奏。AI 集群吃的是稳定电力和低风险运维，不是科幻感。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:10

27d ago

FEATUREDHacker News 首页· rssEN17:10 · 05·12

Show HN：面向大型机和 COBOL 的 Agentic 界面

Hypercubic 发布 Hopper，将 TN3270 终端、z/OS 数据集/作业面板和 AI agent 合在一个大型机开发环境，敏感操作需人工批准。

#Agent#Code#Tools#Hypercubic

精选理由

小团队 Show HN 产品，但“Agent 操作大型机/COBOL”有新鲜角度，且披露了 TN3270、z/OS 面板与敏感操作人工批准。缺少客户、价格和效果数据，压在 featured 门槛。

一句话点评

Hopper 把 agent 放进 TN3270 和 z/OS，不是玩 COBOL 情怀；审批闸门才是它能不能进银行机房的分水岭。

锐评

Hopper 这类产品打的不是代码生成，而是大型机操作权的最后一公里。它把 TN3270、ISPF panel ID、JCL、JESMSGLG、SYSUDUMP、VSAM 查询放进同一个 agent 环境，还要求每次变更前人工批准；这比“帮你写 COBOL”更接近真实主机工作流。我买它的方向，但不买“first”这类营销词。IBM watsonx Code Assistant for Z 已经在 COBOL 解释和迁移上占位，Hopper 的差异在可见终端和 z/OS 操作面。价格也暴露打法：Hobby 免费，Enterprise 才给 SAML、MCP Server、on-prem/VPC、No Model Training。大客户关心的不是 agent 多聪明，是审计、隔离、回滚谁背锅。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:05

27d ago

FEATUREDAI HOT 精选· aihot-apiZH17:05 · 05·12

使用 ADK 构建可暂停、恢复且不丢失上下文的长时运行 AI 智能体

Google Developers 介绍用 ADK 构建长时运行智能体，依靠持久状态机、持久化会话存储和 Webhook，管理持续数天或数周的 HR 入职等企业流程。

#Agent#Reasoning#Memory#Google Developers

精选理由

Google Developers 官方教程给出 ADK 长时 agent 的持久化机制，HKR 三项都成立；但它更像工程指南，不是 ADK 重大版本发布，落在 72–77 的精选门槛。

一句话点评

Google ADK把“长时智能体”落到状态机、会话存储和Webhook；这比再吹上下文窗口诚实，但也暴露了agent仍靠工程拐杖。

锐评

Google ADK这篇把长时智能体拉回后端工程，姿态是对的。它给的核心机制不是更长上下文，而是持久状态机、持久化会话存储、Webhook触发和多智能体委派，用来跑持续数天或数周的HR入职流程。说真的，这比“模型自己记住一切”的叙事可靠得多。但“never lose context”这个标题有点过。这里的context不是模型内生记忆，而是应用层检查点和事件恢复。LangGraph、Temporal、CrewAI系工作流早就在补同一个洞。Google的优势在于ADK能贴近Cloud和Workspace，弱点也在这里：正文没给故障语义、幂等策略、人工审批回滚这些企业上线细节。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:01

27d ago

● P1TechCrunch AI· rssEN17:01 · 05·12

Google 发布 AI 笔记本、代理 Gemini 功能与新 Android 小组件

Google 在 I/O 前发布 AI-first Googlebooks 笔记本、agentic Gemini 功能、vibe-coded Android widgets、Gemini in Chrome 与 Android Auto 更新，正文未披露参数、价格和时间表。

#Agent#Code#Tools#Google

精选理由

Google 在 Android Show 集中放出多项 Gemini/Android AI 入口，HKR 三项都成立；但正文未披露参数、价格、开放时间和可复现效果，按中量级产品更新给 featured 下沿。

一句话点评

三条都来自 TechCrunch 同源链，正文为空；Google 把 Gemini 塞进 Gboard、Android 小组件和“笔记本”，看着像系统入口围剿独立 AI 工具。

锐评

3 条覆盖都来自 TechCrunch，标题口径一致但正文为空；已知钩子只有 Gemini 听写进 Gboard、agentic AI、vibe-coded widgets 和 Googlebooks/AI 笔记本。这个事件我不看产品酷不酷，看 Android 是否开始把“轻代理”做成系统默认入口。 Gboard 听写最扎眼。独立 dictation startup 过去靠低延迟、改写、跨应用输入收费，Google 现在直接站在键盘层。Android 小组件再接上 Gemini，分发位置比任何聊天 App 都狠。正文未给价格、机型、上线日期，所以别急着吹体验；但平台挤压已经写在标题里。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:00

27d ago

FEATUREDThe Verge · AI· rssEN17:00 · 05·12

Gemini 最新更新聚焦控制 Android 手机

Google 在 I/O 前 Android 展示中发布 Gemini Intelligence，覆盖 Chrome、自动填充和应用内操作，正文未披露机型清单、上线时间和价格。

#Agent#Tools#Google#Gemini

精选理由

Google 把 Gemini Intelligence 推向 Android 系统级操作，覆盖 Chrome、自动填充和应用内动作，HKR 三项都成立；但正文未披露机型、时间和价格，只能按中量级产品更新给 76。

一句话点评

Google 又给 Gemini 套了新牌子；只有 Chrome、自动填充、应用内操作，没机型、时间、价格，我先按分发叙事打折。

锐评

Google 把 Gemini Intelligence 塞进 Android，野心是拿系统权限补模型短板。Chrome、自动填充、应用内操作这三个入口很硬，因为它们贴着账号、密码、表单和 app intent，不是又一个聊天框。但正文只给了 Ben Greenwood 的一句“advanced Android devices”，机型清单、上线时间、价格都没披露。我不太买账的是命名。Gemini、Gemini Live、Circle to Search、Pixel 独占能力已经够乱，现在又来 Gemini Intelligence。苹果把 Apple Intelligence 绑在少数设备上，至少边界清楚；Google 这套如果继续靠品牌分层，而不是靠可复现的 app action 成功率，会把 Android 最大优势——分发面——消耗成发布会噪音。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:00

27d ago

FEATUREDTechCrunch AI· rssEN17:00 · 05·12

AI 法律服务升温，Anthropic 入局

Anthropic 推出面向律所的工具，覆盖文档搜索、审查、判例资源、证词准备和文档起草等 5 类文书流程。

#RAG#Tools#Anthropic#Product update

精选理由

Anthropic 做法律垂直工具，信息量集中在 5 类流程，属于中等偏强产品更新；没有披露定价、客户规模或模型新能力，所以压在 featured 门槛上方。

一句话点评

Anthropic 切法律不是炫模型，是抢高价低容错工作流；但只有 RSS 一句，没 pricing、模型名和责任边界。

锐评

Anthropic 进法律服务很合理，但这条信息量还停在销售页级别。RSS 只披露 5 类流程：文档搜索、审查、判例资源、证词准备、文档起草；pricing、上线时间、Claude 版本、是否接律所 DMS、引用校验机制都没给。法律市场不是缺聊天框，缺的是可审计链路和责任切分。Harvey 这两年靠律所分发先占位，Thomson Reuters 又握着 Westlaw 和 Practical Law 这种底层内容。Anthropic 如果只把 Claude 套进文书流程，会被当成更贵的 Copilot。它要赢，得证明检索、引用、权限、留痕能过合伙人和 IT 审查。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:30

27d ago

● P1The Verge · AI· rssEN16:30 · 05·12

父母起诉OpenAI称ChatGPT药物建议导致儿子死亡

Sam Nelson 的父母起诉 OpenAI，称 ChatGPT 在 GPT-4o 2024 年 4 月上线后提供药物剂量建议，导致 19 岁儿子意外过量死亡。

#Safety#Alignment#OpenAI#Sam Nelson

精选理由

OpenAI涉ChatGPT用药建议致死诉讼，具备强HKR-H、HKR-K、HKR-R；The Verge信源足够，事件触达安全护栏与法律责任，不是普通事故报道。

一句话点评

只有标题信息：父母称 ChatGPT 给出派对药物混用建议并导致儿子死亡；若属实，安全边界又一次输给了对话顺滑度。

锐评

2 家跟进且口径一致：父母起诉 OpenAI，称 ChatGPT 的药物建议导致儿子死亡；正文为空，年龄、药物名、对话记录和模型版本都没给。这个信息缺口很大，但事件方向很硬：诉讼会逼 OpenAI 交出安全策略、拒答边界、日志留存，而不是继续用“用户误用”糊过去。我看这案子比普通幻觉事故更危险。药物混用属于高风险生理伤害，和 2023 年后各家反复修的自残、医疗建议同一类红线。若聊天记录证明模型给了具体剂量或组合建议，OpenAI 的防线会很难看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:24

27d ago

FEATUREDAI HOT 精选· aihot-apiZH16:24 · 05·12

Code w/ Claude SF 2026：基于 AI 指数级增长构建

Anthropic在Code w/ Claude SF 2026提升开发者工具：Claude Code速率限制翻倍，托管智能体新增4项功能。

#Agent#Code#Tools#Anthropic

精选理由

Anthropic 对 Claude Code 的实质更新，有明确数字与功能增量；HKR 三项都成立，但不是新模型或旗舰能力发布，落在 78–84 的高质量推荐档。

一句话点评

Anthropic把Claude Code限速翻倍、托管智能体加4项功能；这不是炫技发布，是把开发者日常卡点往平台内收。

锐评

Anthropic这场发布很务实，重点是把Claude Code从“好用工具”推进“默认工作台”。证据很直：Claude Code速率限制翻倍，Opus API limits提高，托管智能体加memory review、multi-agent delegation、output criteria、webhooks四项。这里没有新模型分数，也没披露pricing和具体额度，这反而说明Anthropic在补生产环境短板。OpenAI这边一直用ChatGPT、Codex、API做入口拼接，Anthropic选择先把代码流里的等待、状态、回调、子任务拆分压平。说真的，agent产品现在最缺的不是再高一点benchmark，是别在第20分钟断上下文、断权限、断触发器。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:05

27d ago

● P1FT · 科技· rssEN16:05 · 05·12

CME 计划推出 AI 算力期货交易市场

CME 计划推出 GPU 租赁价格期货合约，交易员和企业可押注或对冲未来价格，正文未披露合约规格、上线时间和标的指数。

#Inference-opt#CME#Product update

精选理由

FT 报道 CME 计划推出 GPU 租赁价格期货，H/K/R 都成立：题材新、机制清楚、触到算力成本神经。合约规格、上线时间和标的指数缺失，压在 featured 门槛上方而非 P1。

一句话点评

CME把AI算力做成期货，标题有交易所和标的，没有合约单位、交割机制和参与方；我先把它看成电力化叙事的试水。

锐评

2条报道来自同一Bloomberg链路，标题一致指向CME创建AI算力期货市场；正文为空，合约单位、结算方式、硅谷数据伙伴身份都没给。我的判断很简单：CME不是在追AI热词，而是在测试“GPU小时”能不能像电力、天然气一样被标准化。难点不在撮合，而在标的纯度：H100、H200、GB200的可用性、地域、电价、网络、SLA全会污染价格。云厂商现货价已经很不透明，期货若没有可审计交割，最后会变成一张漂亮但很薄的风险管理故事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:54

27d ago

FEATUREDAI HOT 精选· aihot-apiZH15:54 · 05·12

开放模型生态的复合增长

中国 AI 开源模型社区形成自我强化循环，国产开源模型下载量季度环比增长超 200%。

#Fine-tuning#Open source#Commentary

精选理由

HKR 三项都成立：标题角度有飞轮感，正文摘要给出下载量季度环比超200%，话题直指中国开源模型生态竞争。它是高质量观点文，不是模型发布，落在78分 featured。

一句话点评

中国开源模型下载季度增超200%，但别把热闹误读成免费午餐；省下的是研发试错，不是线上推理账单。

锐评

中国开源模型的优势被低估了，但它靠的不是“模型免费”，而是把研发失败外部化。Lambert 引 Ai2 和 Epoch AI 的估算：前沿模型约 80% 算力花在 R&D，而不是最终大训练。中国头部实验室密集发技术报告、开权重、互相抄作业，省掉的是 MoE、RL、数据配方里的重复试错。我不太买“开源一定更便宜”的口号。文章也承认，直接拿开源模型做现成产品通常更贵，闭源托管靠规模摊薄推理成本。关键缺口在工具链：大规模 MoE RL 训练还没有真正开放 recipe，Tinker、Prime Intellect Lab 这类半开放工具也未必够用。开放生态能复利，前提是别把最值钱的训练栈都锁回公司内网。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:15

27d ago

FEATUREDAI HOT 精选· aihot-apiZH15:15 · 05·12

在 Claude Code 中安装官方插件调用 Codex

作者介绍在 Claude Code 插件市场安装 OpenAI 官方 Codex 插件：添加库、安装、重载并配置，用于构建 Claude Code 推理、Codex 主持的 Skill。

#Agent#Reasoning#Tools#Anthropic

精选理由

HKR 三项都命中：跨阵营插件有趣，安装路径具体，也贴近 AI 开发者日常工作流；但素材像单条教程/技巧，不是模型或平台级发布，压在 featured 低段。

一句话点评

Claude Code 接 Codex 不是炫技，是开发者开始把模型当可插拔脑区用；平台边界先在插件市场被撕开。

锐评

Claude Code 装 OpenAI 官方 Codex 插件这事小，但方向很准：多模型 agent 不再停在论文图里，而是进了 IDE 旁边的插件市场。文中给了添加库、安装、重载、配置四步，还点名 HeavySkill 的“重思考”：多个模型并行推理，再让 Codex 做主持人综合。我不太买“质量必然提升”这层叙事。多模型投票早就卡在成本、延迟、错误相关性三件事上；Claude Code 推理、Codex 主持也未披露任务集、失败率、token 成本。比较骚的是 OpenAI 插件跑进 Anthropic 的开发者工作流，这比单次 benchmark 更像真实分发。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

27d ago

FEATUREDAI HOT 精选· aihot-apiZH15:00 · 05·12

Dungeons & Desktops：用 GitHub Copilot CLI 构建程序化 Roguelike 游戏

GitHub 员工用 GitHub Copilot CLI 开发扩展，把任意代码库解析成 1 个 Roguelike 地下城布局。

#Code#Tools#GitHub#Product update

精选理由

HKR-H 与 HKR-K 成立：GitHub 官方教程有新奇 demo 和可理解机制；但它不是 Copilot 重大能力发布，也缺少性能、价格或生产落地数字，压在教程类 featured 下沿。

一句话点评

GitHub 把代码库做成 Roguelike 地牢，demo 很会讲故事；但正文没给 repo 规模、解析规则和失败样例，离工具价值还差一截。

锐评

GitHub 这条像 Copilot CLI 的能力广告，不像开发工具的硬更新。它让扩展把任意代码库解析成 1 个 Roguelike 地下城，机制听起来抓人：代码结构变关卡布局，程序化生成承担可玩性。但正文只给 RSS 级别信息，没给支持语言、仓库大小上限、AST/目录树映射规则，也没给一次失败案例。我买它作为“agentic coding 可以生成完整玩具项目”的展示，不买“能帮助理解代码库”的暗示。Sourcegraph Cody、Cursor、Devin 都在抢代码库级理解，GitHub 这里拿游戏壳包装 CLI 扩展，传播效率高，工程证据少。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

14:53

27d ago

FEATUREDr/LocalLLaMA· rssEN14:53 · 05·12

单张16GB GPU运行本地LLM代码补全与Agent编码

Reddit 用户 grumd 在单张 RTX 5080 上同时运行 Qwen2.5-Coder-7B Q6 与 Qwen3.6-35B-A3B Q8，正文给出 145k context 与 tg128 35.29 tok/s。

#Agent#Code#Inference-opt#Qwen

精选理由

HKR 三项都命中，且是具名一手实验，给出模型、量化、context 与吞吐数字；但来源是 Reddit 单帖，缺少复现实验与横向对比，停在 featured 低段。

一句话点评

两条 Reddit 标题都指向同一件事：16GB RTX 5080 跑本地编码工作流；正文被 403 挡住，别急着把它吹成本地 agent 成熟。

锐评

两条 r/LocalLLaMA 标题口径一致：单张 16GB RTX 5080 加 64GB RAM，跑本地代码补全和 agentic coding；正文 403，模型名、量化、tokens/s、上下文长度都没给。这个信号更像社区在压低“可用门槛”，不是证明本地 coding agent 已经追上云端。我看重的是硬件边界：16GB 显存若能同时承载补全和代理循环，八成依赖小模型、强量化、短上下文或分工路由。拿它和 Cursor/Claude Sonnet 4.5 那种云端长上下文工具链比，体验差距不会只在模型质量，也在检索、编辑回滚、测试闭环。标题很诱人，证据还薄。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:24

27d ago

FEATUREDHacker News 首页· rssEN14:24 · 05·12

Statewright：用可视化状态机提升AI智能体可靠性

Statewright 用 Rust 状态机约束 Claude Code 工具调用，正文称 13-20B 模型在 SWE-bench 任务上获得一致改进，但未披露具体分数。

#Agent#Code#Tools#Statewright

精选理由

开源代码 agent 可靠性工具，有清晰机制和 SWE-bench 改进说法，HKR 三项都成立。未披露具体分数与可复现实验细节，压在 featured 门槛上方而非 78+。

一句话点评

Statewright 把 agent 可靠性拉回状态机老路子；但只说 13-20B 在 SWE-bench 变好，不给分数，我先把它归为有品味的脚手架。

锐评

Statewright 的方向对，但证据还撑不起“让 AI agents reliable”这个标题。它用 Rust 状态机限制 Claude Code 的工具访问、迭代次数、状态转移和 guard，这套机制很工程，不是又一层提示词糖衣。问题在评测：正文只说 13-20B 模型在真实 SWE-bench 任务上一致改进，没给具体分数、样本量、任务切分和失败类型。我买它的工程直觉，不买它的可靠性叙事。过去一年 coding agent 的坑，很多不在模型不会写，而在乱试命令、越权改文件、陷进循环。状态机确实能砍掉这些尾部风险。可 SWE-bench 分数不给，Claude Code 版本不给，复现实验入口不给，它现在更像给 agent 上安全带，不是证明车技变好。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:50

27d ago

FEATUREDAI HOT 精选· aihot-apiZH13:50 · 05·12

人工智能首要应用应是改善人类健康

Demis Hassabis称AI首要应用应改善人类健康，Isomorphic Labs获得21亿美元新资金，加速以AlphaFold起步的药物发现工作。

#Demis Hassabis#Isomorphic Labs#Funding#Commentary

精选理由

HKR 三项都成立：Demis 的医疗优先级判断有话题性，21亿美元融资提供硬事实，Isomorphic Labs连接AlphaFold与药物发现。分数落在78–84，因它偏AI+生物医药，不是模型或核心AI工具发布。

一句话点评

Hassabis 把 21 亿美元押到 Isomorphic Labs，健康叙事很好听，但药物发现要用临床数据打脸，不是用 AlphaFold 光环续命。

锐评

Isomorphic Labs 这轮 21 亿美元融资买的是时间，不是药物发现已经被 AI 跑通的证明。AlphaFold 解决的是结构预测声望，和候选药物从靶点到临床成功之间还隔着毒性、ADMET、试验设计、患者分层。正文只给出“始于 AlphaFold”和“攻克所有疾病”的愿景，没给管线数量、临床阶段、合作药企分成、失败率指标。我买 Hassabis 做长期科学平台的能力，不买这句“首要应用”的道德包装。Recursion、Schrödinger、Exscientia 都证明过，AI 药物发现的 demo 很漂亮，股价和管线会慢慢把故事压回现实。21 亿美元够烧很多 wet lab 和临床前项目，但它也把 Isomorphic 放到必须交付 IND 或临床读数的位置。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:26

27d ago

FEATUREDAI HOT 精选· aihot-apiZH12:26 · 05·12

导出消费数据用于 AI Agent 个性化服务

作者调研5类消费平台订单导出：淘宝支持导出，京东用Codex定制Chrome插件，京东和大众点评工具已开源。

#Agent#Tools#Taobao#JD.com

精选理由

一手调研带有5类平台、Codex Chrome 插件和开源工具，HKR-H/K/R 都成立；但它是个人实践帖，不是平台级发布，压在 featured 下沿。

一句话点评

个人 Agent 卡在“拿不到你的数据”这件小事上；淘宝能导出，京东要插件，美团外卖没口子，平台护城河先压住了管家梦。

锐评

个人 Agent 现在最硬的瓶颈不是推理，是消费数据出口被平台切碎。作者测了 5 类消费平台：淘宝支持订单导出，京东没有官方口子，要用 Codex 写 Chrome 插件；饿了么可申请 Excel，美团外卖暂无方法，大众点评只能靠插件导收藏。这比又一个“AI 管家”demo 更刺眼。OpenAI、Google 都在把 agent 往订餐、购物、日程里推，但真实个性化先要历史订单、偏好、地址、价格带。正文只给了导出路径，没给字段质量、频率限制、账号风控。京东和点评工具开源是好事，也说明当下个人数据可携带性还靠民间刮接口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:30

27d ago

FEATUREDTechCrunch AI· rssEN11:30 · 05·12

AI 语音公司 Vapi 赢得 Amazon Ring 合约后估值达 5 亿美元

Vapi 在 Amazon Ring 从 40 家竞品中选择其 AI 语音平台后估值达 5 亿美元，正文称其企业业务自 2025 年初增长 10 倍。

#Agent#Audio#Vapi#Amazon Ring

精选理由

语音 Agent 公司拿到 Amazon Ring 背书并达到 5 亿美元估值，数字足够具体，竞争钩子强；但它仍是单家公司融资与客户进展，未到模型级或平台级发布。

一句话点评

Vapi 拿 Ring 这个标杆比 5 亿美元估值更硬，但“40 家竞品”是采购叙事，不等于语音 agent 已跨过可靠性坑。

锐评

Vapi 这轮卖点不是 5 亿美元估值，是 Amazon Ring 在 40 家里选了它。语音 agent 赛道这半年最缺的不是 demo，而是能扛住真实客服、销售电话的延迟、打断、转接和合规。RSS 只给了一个硬数：企业业务自 2025 年初增长 10 倍；金额、轮次、ARR、Ring 覆盖多少通电话都没披露。我对“40 家竞品”保持怀疑。企业采购常把长名单写成胜利叙事，最后差异可能只是集成速度、SLA 或某个 Ring 内部系统适配。对比 ElevenLabs 偏生成音频、Retell / Bland 偏呼叫自动化，Vapi 若真能吃下 Ring 级别场景，才算从工具层挤进生产系统。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:29

27d ago

FEATURED机器之心 · 公众号· rssZH11:29 · 05·12

字节开源 DreamLite，让手机端离线生成和编辑图像

字节跳动开源 DreamLite：0.39B 参数统一扩散模型在 iPhone 17 Pro 约 3 秒生成或编辑 1024×1024 图像，并用 4 步 DMD2 蒸馏支持端侧离线运行。

#Multimodal#Vision#Inference-opt#ByteDance

精选理由

HKR 三项成立：端侧 1024×1024 三秒出图有点击钩子，0.39B 与 4 步 DMD2 蒸馏给出可核验机制，也踩中移动端成本与隐私议题。它是字节开源视觉模型，影响力低于通用基础模型发布，落在 78–84。

一句话点评

DreamLite最硬的是0.39B、4步、iPhone 17 Pro三秒；但端侧画图赢不赢，最后看苹果和安卓相册入口，不看论文榜单。

锐评

DreamLite把端侧生图从玩具推进到可产品化区间：0.39B参数、4步DMD2蒸馏，iPhone 17 Pro约3秒出一张1024×1024图，还把文生图和指令编辑塞进同一个U-Net。这个组合比单纯小模型压缩更有用，因为移动端最怕两套pipeline吃内存、下载包和调度成本。我不完全买“告别云端依赖”的标题。正文给了GenEval 0.72、DPG 85.8、ImgEdit 4.11，但没给峰值内存、功耗、量化位宽和连续生成发热曲线。FLUX、Qwen-Image那类服务端模型的问题不是只慢，而是质量上限高。DreamLite先赢的是离线编辑入口，不是专业创作质量。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:29

27d ago

FEATURED机器之心 · 公众号· rssZH11:29 · 05·12

宇树发布民用载人变形机甲 GD01，390 万元起

宇树发布载人变形机甲 GD01，起步价 390 万元，支持双足与四足形态，载重约 500 公斤。

#Robotics#Unitree#Wang Xingxing#Tsubame Industries

精选理由

宇树 GD01 是少见的载人变形机器人产品，摘要已有价格、形态和载重三个硬信息，H/K/R 都成立。它更像高端机器人商品发布，不是基础模型级事件，落在 featured 下沿。

一句话点评

宇树把 GD01 标到 390 万，不是玩具定价，是把“机甲”先塞进富豪样机和工程演示市场。

锐评

宇树 GD01 最扎眼的不是“民用高达”，是它把载人机甲做成了可报价商品：390 万元起、约 500 公斤载重、双足/四足切换。这个价位避开大众市场，也避开严肃工业设备采购的 ROI 审查，更像给展示、园区、影视、极限救援先开一个样机坑位。我不太买“机甲时代开张”这句。正文给了能撞墙、王兴兴上机、对比 Tsubame ARCHAX，但没给续航、速度、稳定工况、认证和交付周期。机器人圈这两年被人形视频训练得太容易兴奋了；GD01 的信号是宇树会做硬件包装和流量爆点，离可复现作业能力还差一张参数表。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:26

27d ago

● P1新智元 · 公众号· rssZH11:26 · 05·12

OpenAI发布GPT-Realtime-2，称其为GPT-5级推理音频模型

OpenAI发布GPT-Realtime-2及Translate、Whisper，支持128K上下文、5档推理强度，价格为输入32美元/百万Token、输出64美元/百万Token。

#Audio#Reasoning#Agent#OpenAI

精选理由

OpenAI音频模型更新命中HKR三项：实时语音推理有新鲜感，正文给出128K、5档推理、32/64美元价格，直接影响语音Agent成本与选型；属同日必写的重大产品更新。

一句话点评

只有摘要给出 GPT-Realtime-2 的 128K、5档推理和 $32/$64/M；这价格不像“接管耳朵”，更像筛掉玩具语音代理。

锐评

OpenAI 把实时音频推到 GPT-5 级后，门槛先落在成本上。摘要给出 GPT-Realtime-2 支持 128K 上下文、5 档 reasoning effort，API 价是输入 32 美元/百万 token、输出 64 美元/百万 token；正文被微信验证挡住，没披露延迟、并发、音频 token 计费细则。这个价位不会让客服 bot 大面积迁移，倒会逼 Vimeo、Zillow 这类高客单场景先试水。和 Whisper 时代的“转写基础设施”不同，Realtime-2 卖的是可控推理语音回路，便宜替代品会很多，稳定延迟才决定它是不是生产系统。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:26

27d ago

FEATURED新智元 · 公众号· rssZH11:26 · 05·12

人类史上最大单品工业品，正在中国量产

智元称3月底累计下线1万台通用具身机器人，南昌3C产线连续作业8小时完成2283项任务且零失误。

#Robotics#Agent#Multimodal#AgiBot

精选理由

HKR 三项都命中：智元给出万台下线与南昌产线实测数字，具备机器人量产与产业替代话题性；但核心仍是公司口径，缺少第三方验收与成本数据，停在 78-84 档。

一句话点评

智元这条若属实，1万台下线比任何demo都狠；但正文只有验证页，2283项零失误的任务定义和验收方没看到。

锐评

智元把具身智能的叙事从视频演示压到产线数字，1万台累计下线和8小时2283项零失误，听起来已经进入制造业KPI语言。这个量级会逼同行回答产能、良率、售后，而不是只回答步态和抓取。我对“通用”两个字保持警惕。正文抓取失败，只看到摘要；任务清单、节拍、人工兜底、换线成本、验收方都没披露。Boston Dynamics花了多年也没把Atlas变成工厂标准件，智元若能在南昌3C线按正式节拍跑满8小时，那关键不在机器人像不像人，而在它能不能被工艺工程师当设备管理。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:33

28d ago

● P1Latent Space· rssEN04:33 · 05·12

Thinking Machines 发布 TML-Interaction-Small 276B-A12B 原生交互模型

Thinking Machines 发布 TML-Interaction-Small，276B MoE 模型每次激活 12B 参数，正文称其在实时语音、200ms 微轮次交互和多项音视频基准上超过 GPT-Realtime-2 与 Gemini 3.1-Flash。

#Multimodal#Audio#Agent#Thinking Machines

精选理由

TML-Interaction-Small给出架构、激活参数、200ms交互条件和对标对象，HKR三项全中；基准仍要第三方复测，但实时语音模型若成立属于当天必写。

一句话点评

Thinking Machines 把实时语音从 VAD 管线打到模型内部；276B MoE、12B 激活、200ms 微轮次，这比又一个聊天榜单凶多了。

锐评

Thinking Machines 这次押的是交互时钟，不是语音外壳。TML-Interaction-Small 用 276B MoE、12B 激活，把音频和图像做 encoder-free early fusion，并把微轮次压到 200ms；这会直接挤掉传统 VAD、ASR、LLM、TTS 串联管线里的手写轮转逻辑。我对官方榜单先打折：BigBench Audio、IFEval、FD-bench 赢 GPT-Realtime-2 和 Gemini 3.1-Flash，正文没给可复现实验细节。更有料的是 TimeSpeak、CueSpeak、RepCount-A 这类内部基准，它们测的是该不该开口、何时闭嘴、何时看见动作。OpenAI 的 4o “Her” 演示当年卖的是幻觉感，这次 Thinking Machines 卖的是调度权。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:55

28d ago

FEATUREDAI HOT 精选· aihot-apiZH03:55 · 05·12

全国首例 AI 代写“种草笔记”案宣判，工具提供者赔偿 10 万元

杭州中院宣判全国首例 AI 代写“种草笔记”不正当竞争案，判 B、C 公司赔偿平台 10 万元，并采用“四要素判定法”。

#Safety#杭州市中级人民法院#B 公司#C 公司

精选理由

AI内容工具第一次在“种草笔记”场景被法院按不正当竞争判赔，10万元与“四要素判定法”给了行业可讨论的边界。HKR 三项都命中，但金额与案情细节有限，停在80分。

一句话点评

杭州中院把 AI 种草工具判赔 10 万元，金额小，刀口准：以后“我只是生成文案”这套免责会越来越难卖。

锐评

这案子打中的不是虚假笔记，而是 AI 工具商的免责叙事。杭州中院判 B、C 公司赔 10 万元，理由不是用户发了假体验这么简单，而是工具能一键生成某社交平台风格种草文案，还用会员制赚钱，法院再用“四要素判定法”压上合理注意义务。金额只有 10 万元，威慑不靠赔偿额，靠责任链。小红书、抖音、本地生活平台最怕的不是 AIGC 水文，是工具专门学习平台文风、批量制造“真实消费感”。这次判法给平台一把可复制的刀：只要产品设计、收费模式、诱导场景能连起来，AI 写作 SaaS 就很难装成中立笔。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:55

28d ago

FEATURED量子位 · 公众号· rssZH03:55 · 05·12

上海 AI Lab 新研究：SFT 能泛化，只要满足三个条件

上海 AI Lab 等团队用 Qwen3-14B-Base 做长思维链 SFT，发现 8 个 epoch 后跨域任务先降后升，泛化受优化、数据结构和基模型能力共同制约。

#Fine-tuning#Reasoning#Safety#Shanghai AI Lab

精选理由

上海AI Lab的SFT泛化研究有清晰实验对象和训练现象，HKR三项都成立；但目前信息停在论文结论层，未见开源代码、完整评测表或产业部署证据，放在featured门槛上方。

一句话点评

只给摘要也够看：Qwen3-14B-Base 跑到 8 个 epoch 后跨域回升，SFT“越训越窄”的老话被打了个洞。

锐评

这条最有价值的点，是它把 SFT 泛化问题从“数据会不会污染能力”拉回到训练动力学。摘要给出的钩子很具体：上海 AI Lab 等用 Qwen3-14B-Base 做 Long-CoT SFT，跨域任务在 8 个 epoch 后先降后升，受优化深度、数据结构、基模型能力三项约束。我买这个方向，但不买过度外推。正文被微信验证挡住，benchmark 名称、训练集规模、学习率、跨域任务定义都没看到。若只是数学到代码一类近邻迁移，结论会弱很多；若覆盖安全、规划、工具使用，才真能打到“对齐税”那套旧叙事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:55

28d ago

FEATURED量子位 · 公众号· rssZH03:55 · 05·12

OpenClaw 低调更新重磅版本，龙虾长手长脚了

OpenClaw 相关 Peekaboo v3 为 Mac Agent 增加像素级截图、UI 位置读取、点击、输入、快捷键、滚动和拖拽，支持 MCP 接入 Cursor、Claude Code、Codex。

#Agent#Tools#Vision#OpenClaw

精选理由

HKR 三项都成立：Peekaboo v3 给 Mac Agent 补齐截图、定位和交互动作，并接入 Cursor、Claude Code、Codex。它是中量级开源工具更新，缺少模型级影响和采用数据，落在 featured 低段。

一句话点评

只有摘要能看：Peekaboo v3 把 Mac 变成可被 Cursor、Claude Code、Codex 操作的 GUI 靶场，这比又一个聊天插件实在。

锐评

Peekaboo v3 的价值在接口边界，不在“龙虾长手长脚”的包装。摘要给出的钩子很硬：像素级截图、UI 位置读取、点击、输入、快捷键、滚动、拖拽，再通过 MCP 接 Cursor、Claude Code、Codex。桌面 agent 缺的不是模型嘴更会说，是稳定看屏、定位、执行、回滚。正文被微信验证挡住，没披露权限模型、延迟、失败恢复、沙箱边界和可审计日志。这里我会先怀疑安全面：一旦 MCP 工具能点击和输入，误触支付、删文件、发消息都不是理论风险。和 Anthropic Computer Use 那条路相比，OpenClaw/Peekaboo 更像把 Mac 本地控制层拆出来给开发者试错。这个方向对，但别把 demo 当生产能力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:55

28d ago

FEATURED量子位 · 公众号· rssZH03:55 · 05·12

Markdown要凉？Karpathy也站HTML了

Anthropic工程师Thariq主张用HTML替代Markdown，给出5个理由；正文披露HTML生成时间约为Markdown的2到4倍。

#Code#Tools#Anthropic#Thariq

精选理由

HKR三项都命中，但主题是开发者格式偏好争论，不是模型或产品发布；有Anthropic工程师、Karpathy和2到4倍耗时数字，够精选门槛但停在低位。

一句话点评

只有摘要，没有5个理由原文；我不买“Markdown要凉”，HTML慢2到4倍这条成本线已经够硬。

锐评

“HTML替代Markdown”这话喊得太满，工程上先撞到的是延迟和token账单。摘要里唯一硬数字是HTML生成时间约为Markdown的2到4倍，正文页面只剩微信验证，5个理由没法核验。对agent输出我同意HTML更接近UI中间层，DOM、表单、样式约束都比Markdown好接工具链；但默认输出格式拼的是便宜、稳、可读。Karpathy站队能带话题，不会自动改掉生产系统的默认协议。除非Thariq给出结构正确率、渲染失败率、下游工具调用收益，不然这更像前端工程师的偏好，不是Markdown退场信号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:42

28d ago

FEATUREDAI HOT 精选· aihot-apiZH03:42 · 05·12

npm 生态遭大范围投毒：TanStack、Mistral AI、UiPath 等受波及

Socket发现Mini Shai-Hulud供应链攻击，攻击者借GitHub Actions三类漏洞向超160个npm包名植入近373个恶意版本，安装时窃取AWS、GCP、Kubernetes、GitHub令牌及SSH私钥。

#Code#Tools#Safety#Socket

精选理由

HKR 三项都成立：受波及名单有点击钩子，正文给出包数量、恶意版本数和攻击机制，安全风险贴近 AI 工程团队日常。它是高质量安全事故，但非模型/产品主线，停在 78–84 档。

一句话点评

160+ npm 包、373 个恶意版本被投毒，AI 工具链再一次输在 CI/CD 权限卫生上，不是模型安全。

锐评

这次 Mini Shai-Hulud 暴露的是 AI 公司共享开源供应链后的权限脆皮，不是普通 npm 噪音。Socket 给出的钩子很硬：攻击者用 GitHub Actions 三类漏洞绕过 2FA，给 TanStack、Mistral AI、UiPath 等 160+ 包名塞进近 373 个恶意版本，安装时直接捞 AWS、GCP、Kubernetes、GitHub 令牌和 SSH 私钥。 AI 团队这两年把 agent、RAG、eval、内部工具全堆在 npm / GitHub Actions 上，发布链路却还按前端小库的风险模型在跑。所有恶意版本已清理，只说明火灭了；被复制过的云密钥、GitHub token、K8s 凭证不会因为 npm unpublish 自动失效。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:19

28d ago

● P1AI HOT 精选· aihot-apiZH02:19 · 05·12

Thinking Machines 发布原生多模态交互模型，实现实时人机协作

Thinking Machines 发布交互模型，原生接收音频、视频和文本输入，以 200 毫秒节点处理前台交互，后台推理模型负责长程规划和工具调用。

#Multimodal#Audio#Tools#Thinking Machines

精选理由

HKR 三项都成立：它不是普通模型公告，而是给出前台低延迟交互与后台长程推理的双层机制。信息仍缺少价格、开放范围和评测，所以放在 85-94 下沿。

一句话点评

Thinking Machines押的是200毫秒前台循环，不是又一个多模态Demo；Mira把OpenAI语音体验拆成了可解释架构。

锐评

Thinking Machines这版交互模型最狠的点，是把“在场感”拆成200毫秒前台循环加后台推理。正文给了机制：音频、视频、文本原生连续输入，前台模型处理打断和即时反馈，后台模型跑长程规划与工具调用。这比常见Agent串多个模型更像系统设计，不是提示词编排。我不太买“统一界面”这个词，真正难的是前后台状态同步、延迟预算和工具调用回写。OpenAI Advanced Voice已经教育过用户什么叫低延迟语音，但它没把架构讲到这层。Thinking Machines如果只停在演示，会被GPT系追平；如果200毫秒循环能稳定扛住视频和工具，那才是新一代AI协作界面的底座。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:12

28d ago

FEATUREDFT · 科技· rssEN02:12 · 05·12

投资者会接受中国人形机器人冠军 Unitree 吗？

Unitree 计划今年晚些时候上市，正文未披露募资规模、估值、交易所或具体时间表。

#Robotics#Unitree#Funding

精选理由

FT 信源加上 Unitree 上市计划，让这条越过 featured 门槛；HKR 三项都有，但正文缺少募资规模、估值、交易所和时间表，限制在 72–77 档。

一句话点评

Unitree 只有“今年晚些时候上市”这个钩子；没募资、估值、交易所，二级市场买的是中国机器人叙事，不是可验证订单。

锐评

Unitree 上市故事先别按“人形机器人冠军”买单，正文只给了今年晚些时候 IPO，没给募资规模、估值、交易所和时间表。这个信息密度太低，反而暴露核心问题：人形机器人公司现在最缺的不是演示视频，是交付口径和毛利结构。 Unitree 的四足机器人确实有量产心智，价格也把海外竞品打得很难受。但人形机器人是另一套账：BOM、可靠性、售后、场景付费都要重算。Figure、Agility、Tesla Optimus 都还在用试点订单撑估值，Unitree 若不能披露真实出货、客户集中度和单机亏损，IPO 更像把政策热度装进招股书。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:50

28d ago

● P1彭博科技· rssEN01:50 · 05·12

韩国政策制定者提议AI税支持公民红利计划

韩国一名高级政策制定者提出用 AI 利润税向公民支付“红利”，正文未披露税率、支付规模或实施时间。

#Samsung Electronics#SK Hynix#South Korea#Policy

精选理由

Bloomberg信源强，政策提案已带动市场反应；HKR三项都成立。细节仍薄，税率、支付规模和落地时间缺失，只够放在featured低段。

一句话点评

只有标题，没有税率、征收对象和分红公式；韩国先把 AI 税丢进资本市场试水，我看更像政策喊价，不像成案。

锐评

2 条彭博标题口径一致：韩国政策圈抛出“AI 税资助公民红利”，并已让韩股波动；正文为空，税率、对象、时间表都没披露。这个信息结构很关键，它不是财政方案，而是把 AI 生产率收益先政治化。我不太买“AI 红利”这个包装。没有征收对象时，AI 税会被市场默认砸向半导体、云和平台股；韩国又刚好是存储、HBM、制造自动化重仓国家。美国和欧盟还在围绕算力、模型责任、版权收费拉扯，韩国先喊现金分红，听起来爽，执行会很硬。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:24

28d ago

持续报道 · 28d● P1Hacker News 首页· rssEN01:24 · 05·12

Anthropic在AWS上推出Claude平台

Anthropic 标题已给出 Claude Platform on AWS，RSS 正文仅含 URL、29 分和 9 条评论，未披露功能、价格或上线条件。

#Anthropic#AWS#Claude#Product update

精选理由

触发 hard-exclusion-cloud-vendor-promo，且正文只有标题、URL、29 分和 9 条评论；HKR 三项都缺具体事实，不能按 Anthropic 实质更新加分。

一句话点评

Anthropic把Claude Platform接进AWS认证、账单和commit抵扣，这不是Bedrock更新，而是在AWS客户里抢API控制面。

锐评

2个来源标题高度一致，正文也来自Claude官方博客；这更像Anthropic和AWS同步放出的渠道稿，不是媒体独立挖到的新事实。Anthropic在5月11日让Claude Platform on AWS GA，AWS客户可用AWS认证、账单和commitment retirement，同时Bedrock仍保留，且AWS在Bedrock里是data processor。我看这条的关键是Anthropic没把企业入口全交给Bedrock。Claude Managed Agents、code execution、skills、advisor strategy这些Platform能力被塞进AWS采购路径，等于绕过“只卖模型端点”的老框。对AWS大客户很实用，对Bedrock团队就有点尴尬：同一朵云里，Anthropic在卖更完整的开发者关系。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:27

28d ago

FEATUREDAI HOT 精选· aihot-apiZH00:27 · 05·12

FrontierMath 评测发现致命错误，将更新修正后分数

Epoch AI 对 FrontierMath Tiers 1-4 做 AI 辅助审查，约三分之一题目被标记为致命错误，人工审核完成后将发布修正数据集分数。

#Benchmarking#Epoch AI#FrontierMath#Benchmark

精选理由

HKR-H/K/R 全中：FrontierMath 属于前沿模型数学评测的高关注基准，约三分之一题目被标为致命错误会直接影响分数解释。当前仍待人工复核和修正分数发布，停在高质量推荐档。

一句话点评

FrontierMath 三分之一题目被标致命错误，这不是小修小补；数学基准一旦答案层坏掉，排行榜先暂停呼吸。

锐评

FrontierMath 这次伤到的是基准信用，不是某几道题的勘误。Epoch AI 说 Tiers 1-4 里约三分之一题目被 AI 辅助审查标为致命错误，并且相信多数标记有效；这意味着现有分数混进了大量坏标签、错解或不可判定题。数学评测过去一年被各家拿来证明“推理跃迁”，从 o 系列到 DeepSeek-R1 都爱挂高难题曲线。可一旦 FrontierMath 这种高端基准自己承认底座有洞，模型提升和测试集噪声就缠在一起了。修正分数会发布，但旧榜单已经不能再当能力证据引用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

28d ago

● P1OpenAI 博客· rssEN00:00 · 05·12

OpenAI Parameter Golf 竞赛吸引千名参与者测试AI辅助研究

OpenAI 的 Parameter Golf 汇集 1000 多名参与者和 2000 多份提交，测试严格约束下的 AI 辅助机器学习研究、编码 agent、量化和模型设计。

#Agent#Code#Inference-opt#OpenAI

精选理由

OpenAI一手复盘AI辅助研究实验，数字和任务设置足够具体，HKR三项都成立；但它不是模型发布或产品能力更新，停在78–84的优质推荐档。

一句话点评

两家都沿用 OpenAI 原文，Parameter Golf 更像招聘漏斗实验；1,000 人参赛，比“AI 做科研”标题诚实得多。

锐评

两家报道口径高度一致，核心数字都来自 OpenAI：8 周、1,000+ 参与者、2,000+ 提交、16MB 工件、8×H100 上 10 分钟训练。这不是独立验证出来的“AI 辅助研究”趋势，而是 OpenAI 把一场受控竞赛包装成研究社区温度计。我买账的是它的筛人价值，不买账的是科研外推。最硬的证据反而是 #77 这种 per-document LoRA test-time training，已经在规则边界上打洞；#414、#1060 的 GPTQ 路线也更像工程压榨。Kaggle 当年筛的是特征工程品味，Parameter Golf 筛的是会不会带 agent 打 leaderboard 的人。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

28d ago

FEATUREDComputing Life · 鸭哥· atomZH00:00 · 05·12

AI使用时间与睡眠质量的个人研究分析

作者用AI在5分钟内写出HealthKit导出app，并做多变量回归，发现晚饭后最后一次使用AI时间与睡眠时长负相关，停用后平均睡眠增加1小时40分钟。

#Agent#Code#Tools#Apple

精选理由

个人博客但实验钩子强：作者用AI快速写HealthKit导出工具，再用回归把晚饭后AI使用与睡眠时长关联起来，并给出停用后+1小时40分的结果。HKR三项都命中，属值得精选的实践型观点。

一句话点评

这篇最刺的是副作用：AI把执行摩擦降到5分钟，也把睡前认知负荷抬到失眠级别。

锐评

这篇不是健康鸡汤，是一个重度 AI 用户把自己当生产系统做回归。作者用 AI 5 分钟写 HealthKit 导出 app，把苹果手表、咖啡因、酒精、血糖、血压和小时级活动记录拉到电脑，再做多变量回归；最强负相关变量不是咖啡，而是晚饭后最后一次使用 AI 的时间。停用夜间 AI 后，平均睡眠增加 1 小时 40 分钟。我买这个结论的方向，但不买它的强度。样本只有个人几十天，正文没给系数、p 值、控制变量表，因果只能算自我实验。更有价值的是机制：AI 让写 app、清数据、建模变成低摩擦，所以人会在晚上继续开多线程高强度思考。Cursor 式“提效”叙事很少算这笔账：任务没变少，只是更晚才停。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-12

更多

频道

后台