热点聚合 · 2026-05-11

▸ 36 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-11 · 星期一2026年5月11日

23:33

28d ago

FEATUREDHacker News 首页· rssEN23:33 · 05·11

通用汽车裁减IT员工并转向招聘AI技能更强的人才

标题已给出 GM 裁减 IT 员工并转向招聘 AI 技能更强者，RSS 正文只披露 HN 20 分和 11 条评论，未披露裁员人数、岗位范围或时间表。

#GM#TechCrunch#Hacker News#Personnel

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 缺关键事实；这更像一条就业信号新闻，不是 AI 产品或模型进展，按 60–71 档处理。

一句话点评

GM裁掉数百名IT员工，却把理由挂到AI技能上；只有标题，没有岗位、地区和招聘计划，这更像预算重排的AI包装。

锐评

2 家来源口径完全一致，且正文只有 RSS 标题；已知数字只有“数百名 IT 员工”，岗位、地区、补招规模都没披露。我不太买账“裁旧招新=AI转型”这个叙事，车厂 IT 里大量工作是 SAP、供应链、经销商系统和安全合规，不会因为会用 Copilot 就自动变成高杠杆岗位。这类标题会越来越多：IBM、Dropbox 早就把 AI 当裁员解释器用过。GM 如果真是技能换血，应给出 AI 工程、数据平台、车辆软件团队的净增 HC；否则这只是把常规成本削减讲得更好听。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

23:05

28d ago

FEATUREDThe Verge · AI· rssEN23:05 · 05·11

OpenAI 发布对标 Claude Mythos 的 Daybreak

OpenAI 推出 Daybreak 安全项目，使用 3 月发布的 Codex Security AI agent 建模代码、验证漏洞并自动检测高风险项。

#Agent#Code#Safety#OpenAI

精选理由

OpenAI 推出面向代码安全的 Daybreak，机制比普通产品公告更具体，HKR 三项都成立。题材偏安全工程，不是通用模型或 ChatGPT 主能力更新，落在 78–84 档。

一句话点评

OpenAI 用 Daybreak 回击 Claude Mythos，但它卖的是流程化安全代理，不是“危险到不能公开”的神秘模型。

锐评

OpenAI 这次把安全叙事拉回工程面：Daybreak 用 3 月发布的 Codex Security AI agent 建模代码、验证疑似漏洞，再自动检测高风险项。这个路径比 Claude Mythos 的“太危险所以不公开”更像企业能采购的东西，因为它落在 threat model、attack path、validation 这些安全团队已有流程里。我不太买把它包装成 Mythos 对打的说法。正文没给误报率、漏洞修复闭环、支持语言、部署形态，也没说 Daybreak 能不能直接 patch。安全 agent 的硬门槛不是 demo 找洞，而是把误报压到工程师愿意开 ticket。OpenAI 至少选了更务实的位置。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:19

28d ago

FEATUREDThe Verge · AI· rssEN22:19 · 05·11

Mira Murati的AI公司宣布开发交互模型

Thinking Machines 宣布开发 interaction models，目标是连续接收音频、视频和文本并实时思考、回应、行动。正文未披露模型参数、发布时间或产品形态。

#Agent#Multimodal#Audio#Thinking Machines

精选理由

HKR 三项都命中，但正文未披露模型参数、发布时间或产品形态；这是高关注创业公司的方向曝光，不是可用产品发布，所以压在 72–77 档顶端。

一句话点评

Murati 把 Thinking Machines 的旗子插在实时交互上，但只有口号没参数；这更像招人和定调，不像产品发布。

锐评

Thinking Machines 这次先卖交互范式，暂时没交产品。它说 interaction models 会连续接收音频、视频和文本，并实时思考、回应、行动；但模型参数、发布时间、pricing、产品形态都没给。这个缺口很关键，因为实时多模态不是一句“continuous”就能成立，延迟、打断、上下文缓存、工具调用权限都会决定体验。我看着像 Murati 在避开又一个聊天框竞赛。OpenAI 的 GPT-4o 已经把语音实时感做成公众样板，Google 也在 Gemini Live / Project Astra 线上压同一块。Thinking Machines 如果没有低延迟 demo 或开发者接口，interaction models 先是人才市场里的定位词，不是可评估的技术路线。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:13

28d ago

FEATUREDSinocism · 比尔·毕晓普· rssEN22:13 · 05·11

Trump 访华；中国新一代产业政策；规范和发展 AI agents

中国网信办等3部门发布智能体规范文件，要求治理高自主、高权限带来的隐私泄露、越权操作、行为失控风险，并承接2027年智能终端和智能体普及率超70%的目标。

#Agent#Safety#Tools#Cyberspace Administration of China

精选理由

HKR 三项都成立：有中国智能体政策的明确钩子，也给出2027年超70%目标与高自主、高权限风险机制。政策影响面够进精选，但不是模型发布或重大事故，停在78。

一句话点评

中国把智能体监管提前写进终端普及目标，70%不是愿景，是给手机厂商和云厂商的合规倒计时。

锐评

中国网信办、发改委、工信部把智能体规范绑到 2027 年 70% 普及率，这不是抽象安全表态，是把 agent 权限管理前置到手机助手、端侧管家、云端智能体。文件点名三类风险：隐私泄露、越权操作、行为失控，说明监管已经默认 agent 会拿到系统级权限，不再按聊天机器人处理。我觉得这里最该警惕的是执行口径会很重。中国过去管推荐算法、深度合成、生成式 AI，都先发备案和安全评估，再让产品形态自己适配。agent 一旦能替用户下单、调应用、碰企业数据，审批会卡在权限边界和日志留存上。OpenAI、Anthropic 还在用产品护栏说服市场，中国直接把护栏写进产业目标。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:31

28d ago

FEATURED彭博科技· rssEN21:31 · 05·11

GitLab 称将裁员以投入“智能体时代”增长

GitLab 称将裁员腾出资金，投入 AI agents 市场机会；正文未披露裁员人数、预算规模或执行时间表。

#Agent#Code#GitLab#Personnel

精选理由

HKR-H 与 HKR-R 成立：Bloomberg 来源、GitLab 这种开发者工具公司把裁员直接绑定 agents 投资，行业共鸣强；HKR-K 偏弱，因为缺少裁员人数、资金规模和执行节奏。

一句话点评

GitLab 用裁员给 agent 叙事腾预算，但人数、金额、时间表全空；这更像成本再包装，不像产品拐点。

锐评

GitLab 这刀砍得太会讲故事：把裁员挂到“agentic era”，但正文只给一句话，裁员人数、预算规模、执行时间表都没披露。对开发工具公司来说，AI agent 当然是必争入口，Cursor、Devin、GitHub Copilot Workspace 已经把预期抬高。问题是 GitLab 现在拿出的不是产品指标，而是成本动作。没有 ARR 迁移、座席定价、CI/CD agent 使用量，裁员只能证明管理层要压费用，不能证明它抓住了 agent 机会。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:17

28d ago

FEATUREDr/LocalLLaMA· rssEN21:17 · 05·11

我整理了本地模型破坏 JSON 输出的方式，并基于 288 次调用构建修复库

Reddit 用户 kexxty 用 OpenRouter 跑了 288 次结构化输出调用，发现本地与闭源模型的 JSON 破坏类别基本相同；其 Python 库 outputguard 用 JSON Schema 校验，并按顺序执行 15 种修复策略。

#Code#Tools#Benchmarking#OpenRouter

精选理由

HKR 三项都中：有 288 次实测、outputguard 库和 15 步修复链，适合 AI 工程读者复用。来源是 Reddit 单帖，影响面偏窄，按 72–77 档给 featured，不上 78。

一句话点评

288 次调用就敢谈“every way”有点飘，但 outputguard 的 15 段修复链比多数 structured output 教程更接近生产脏活。

锐评

这条的价值不在“本地模型也会坏 JSON”，而在它把坏法做成了可测试补丁。摘要给出 288 次 OpenRouter 调用，覆盖 Llama 3、Mistral、Command R、DeepSeek、Qwen；outputguard 用 JSON Schema 校验，再跑 15 种顺序修复策略，还有 2,001 个测试。这个粒度比“开 function calling 就稳了”的叙事诚实很多。我不买标题里的“every way”。正文被 Reddit 403 挡住，模型版本、prompt、schema 难度、温度都没展开，288 次也撑不起通用结论。可它戳中一个老问题：structured output 在 demo 里是能力，在 agent 管线里是 I/O 容错工程。OpenAI、Anthropic 的 JSON mode 也没把这块消灭。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:01

28d ago

FEATUREDr/LocalLLaMA· rssEN21:01 · 05·11

用于 RL 训练的 prompt caching：长提示短回答负载提速 7.5 倍

作者提出 RL 训练版 prompt caching。Qwen3.5-4B 在 16k prompt、64 输出条件下提速 7.5 倍，G=8 的 1000/100 token 示例从 8800 token 降到 1800 个唯一 token。

#Fine-tuning#Inference-opt#Qwen#girishkumama

精选理由

HKR 三项都成立：标题有“RL 版 prompt caching”的新鲜角度，正文给出 16k/64 与 G=8 token 去重数字。分数压在 78，因为来源是 Reddit 单帖，尚缺独立复现与代码/论文背书。

一句话点评

这个 Reddit 贴只剩标题和摘要，但 7.5x 若能复现，RL 长提示训练的浪费会被直接打穿。

锐评

7.5 倍加速这个数很香，但我先不把它当成训练系统突破；正文 403，只有标题和摘要，benchmark 细节没露。已知条件是 Qwen3.5-4B、16k prompt、64 输出，另一个 G=8 例子把 1000/100 token 的 8800 token 处理量压到 1800 unique token。这路子对长题干、短答案的 RL 很对症，比如数学、多轮工具轨迹、代码评测前缀。它吃的是重复前缀的 KV/计算复用红利，不是优化器或 credit assignment 的红利。要紧的是它会不会破坏 per-sample logprob、advantage、masking 的一致性；如果实现只在 rollout 前缀复用，价值很实在。若连反传路径也省，细节必须摊开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:45

28d ago

FEATUREDAI HOT 精选· aihot-apiZH20:45 · 05·11

推出 Daybreak：面向网络防御者的前沿 AI 防御系统

OpenAI 推出 Daybreak，整合 OpenAI 模型、Codex 和安全合作伙伴；正文未披露定价、上线时间或具体防御指标。

#Agent#Code#Tools#OpenAI

精选理由

OpenAI发布Daybreak是中等偏上的产品信号，HKR-H/R命中；但正文缺少防御指标、访问条件和定价，K不成立，按72–77档给分。

一句话点评

OpenAI 把 Daybreak 放进“防御者”叙事，但只有模型、Codex、伙伴三件套；没指标的安全产品，先按发布姿态看。

锐评

Daybreak 现在更像 OpenAI 抢占企业安全预算的旗帜，不像可验收的防御系统。正文只给出 OpenAI 模型、Codex、安全合作伙伴三项组件，没披露定价、上线时间、误报率、MTTR、漏洞修复成功率，连 SOC 接入条件也没有。我不反感 AI 安全代理这条线，代码审计和补丁生成确实能吃掉一部分重复工单。但 Palo Alto、CrowdStrike、Microsoft Security Copilot 都在卖类似故事。OpenAI 的差异必须落到可复现实测：同一批 CVE、同一套仓库、同一组告警，Daybreak 到底比人和现有 SIEM 快多少。现在这个版本，像是先把 Codex 从开发者工具推向 CISO 预算。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:54

28d ago

FEATUREDr/LocalLLaMA· rssEN19:54 · 05·11

用 Intel Optane 持久内存装机，本地运行 1 万亿参数模型超 4 tokens/s

Reddit 用户 APFrisco 用 768GB Intel Optane PMem 和 12GB RTX 3060，本地运行 Kimi K2.5 Q2_K_XL 量化版约 4 tokens/s。

#Inference-opt#APFrisco#Intel#Kimi K2.5

精选理由

HKR 三项都过：标题有反常识钩子，正文给出硬件与速度数字，也触达本地推理成本焦虑；但来源是单个 Reddit 实验，缺少完整复现细节，压在 featured 门槛。

一句话点评

只有摘要，没有原帖细节；768GB Optane 跑 1T 到 4 tok/s，这不是家用胜利，是被淘汰硬件给本地推理续了一口气。

锐评

这台机器的价值不在“本地跑 1T”，而在把本地推理的瓶颈暴露得很干净：容量先于算力。摘要给出的配置是 768GB Intel Optane PMem、192GB DDR4 ECC、12GB RTX 3060，用 llama.cpp 混合 GPU/CPU 跑 Kimi K2.5 Q2_K_XL，速度约 4 tok/s；原帖正文被 Reddit 403 挡住，没看到 batch、上下文长度、功耗和完整参数。 4 tok/s 对聊天勉强可用，对 agent loop 很痛苦。可它提醒了一件事：1T 量化模型的门槛不只在 H100，而在便宜大内存。Optane 已停产，这条路线不会规模化；但对 LocalLLaMA 圈子，二手服务器内存比消费级显卡更像下一轮折腾中心。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:04

28d ago

FEATURED彭博科技· rssEN19:04 · 05·11

Sutskever 称其 OpenAI 持股价值约 70 亿美元

Ilya Sutskever 称其 OpenAI 持股价值约 70 亿美元，正文未披露持股比例、估值口径或交易条件。

#Ilya Sutskever#OpenAI#Funding#Personnel

精选理由

Bloomberg 抛出 Sutskever 持股约 70 亿美元这个硬数字，HKR 三项都过；但正文未披露持股比例、估值口径或交易条件，影响层级停在 featured 门槛上方。

一句话点评

Ilya 的 70 亿美元账面身价提醒一句：OpenAI 的权力故事别只看 Altman，早期股权表才是暗线。

锐评

Ilya Sutskever 这笔 70 亿美元股权，最刺眼的不是财富数字，是 OpenAI 早期技术核心还握着多大的经济筹码。正文只给“约 70 亿美元”，没给持股比例、估值口径、是否可出售，信息缺口很大。我不把它读成 SSI 资金弹药。OpenAI 员工二级交易、重组估值、微软权益安排，每一层都会改变这 70 亿美元的含义。和 Altman 的控制叙事相比，Ilya 这种离场后仍在股权表上的人，才解释了 OpenAI 为什么一直像公司、实验室、资本项目三种东西叠在一起。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:48

28d ago

FEATUREDAI HOT 精选· aihot-apiZH18:48 · 05·11

在脚本的 shebang 行中使用 LLM

Simon Willison 演示用 LLM 写入 shebang 行执行脚本，fragments 模式可生成 SVG，-T 可调用 llm_time，YAML 模板示例计算 2344×5252+134 得到 12,310,822。

#Tools#Code#Agent#Simon Willison

精选理由

Simon Willison 的实操教程有明确玩法和可复现参数，HKR-H/K/R 都成立；但影响面主要在 CLI 与脚本自动化圈层，不是模型或平台级发布，落在 featured 低段。

一句话点评

把 LLM 塞进 shebang 很黑客，也很危险；英语文本一旦能执行，Unix 脚本的边界就被提示词磨薄了。

锐评

Simon 这招很爽，但它把脚本入口从确定性命令拉进了概率执行。例子里 `#!/usr/bin/env -S llm -t` 直接指定 `gpt-5.4-mini`，YAML 里塞 Python 工具，`--td` 显示先跑 `multiply` 再跑 `add`，算出 12,310,822；这不是玩具 prompt，而是能调工具的执行链。我喜欢这个接口，因为它把一次性自动化压到一个文件里。可默认放进生产 repo 就很莽：shebang 过去指向 bash、python、node，现在指向会读自然语言、会选工具、会受上下文影响的模型。和 GitHub Actions 里的 YAML 脚本一样，危险不在语法短，在审计面突然变宽。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:34

28d ago

FEATUREDAI HOT 精选· aihot-apiZH17:34 · 05·11

Replit 推出并行代理，支持 10 个代理同时运行

Replit 推出并行代理，最多 10 个代理同时运行，每个代理持有应用独立副本，并在各自计算机上工作后合并成果。

#Agent#Code#Tools#Replit

精选理由

官方 X 贴给出 10 个并行代理、独立副本与合并流程，信息足以让开发者判断工作流变化。它是中量级产品更新，不到 Cursor Agent mode 级别，落在 featured 门槛。

一句话点评

Replit 把 agent 从“帮你写代码”推到“并发开工”，但合并质量没给数据，10 个代理很容易变成 10 份冲突。

锐评

Replit 这次押的是并发，不是单个 coding agent 变聪明。最多 10 个代理同时跑，每个拿应用独立副本，在各自机器上改完再合并；这个机制对前端页面、脚手架、迁移任务很香，对共享状态、架构重构、测试耦合会很脆。关键缺口是合并层。正文只说“以代理方式合并”，没给冲突率、回滚机制、测试门禁、人工确认点。Devin、Cursor、Claude Code 过去一年都在证明：代码代理的瓶颈常常不是生成，而是上下文边界和审查成本。Replit 要是把 10 路任务拆分和 CI 验证做扎实，会很适合小团队原型；否则只是把排队失败改成并行失败。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:30

28d ago

FEATUREDAI HOT 精选· aihot-apiZH17:30 · 05·11

智能体执行能力强，但优化用户立场不足

SocialReasoning Bench 测试显示，各模型能完成执行任务；即使明确要求优化用户利益，也未持续改善用户处境。

#Agent#Reasoning#Benchmarking#Microsoft Research

精选理由

Microsoft Research 给出 SocialReasoning Bench 的智能体失效点：任务执行与用户利益优化脱钩。HKR 三项都成立，但正文缺少模型名单、分数与复现实验细节，落在 78 分而非 P1。

一句话点评

Microsoft Research 只给 SocialReasoning Bench 结论，没给模型名和分数；但这个方向打中了 agent 评测的盲区：会办事不等于会站队。

锐评

SocialReasoning Bench 戳的是 agent 评测里最容易被产品演示糊过去的洞：模型能完成任务，却不会稳定改善用户处境。RSS 只披露了一个稳定模式，没给模型名、分数、样本量、协议，这让结论暂时不能当排行榜看。但我买这个问题设定。SWE-bench、ToolBench、WebArena 大多奖励“把事做完”，很少奖励“替用户多拿一点条件”。明确写入优化用户利益后仍不稳定，说明 instruction-following 没覆盖谈判、拒绝、信息不对称里的利益函数。企业 agent 真进采购、客服、法务时，这个短板会直接变成钱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:27

28d ago

FEATUREDAI HOT 精选· aihot-apiZH17:27 · 05·11

个人智能助手定制专属旅行计划

Gemini App 称 Personal Intelligence 可生成个性化旅行行程，条件是用户连接 Gmail、Google Photos、Google 搜索和 YouTube 历史记录。

#Agent#Tools#Memory#Gemini App

精选理由

Google 官方产品更新，信息点具体到四类个人数据接入，HKR 三项都成立；但正文只给旅行规划场景，未披露开放范围、权限细节和效果评测，停在 featured 低段。

一句话点评

Gemini 把旅行规划绑到 Gmail、Photos、Search、YouTube；这不是行程功能，是 Google 在测试用户愿不愿把记忆层交出来。

锐评

Gemini 这条产品线终于露出 Google 的老优势：不是模型会不会写行程，而是它能不能合法读取你的生活碎片。文中点名 Gmail、Google Photos、Google 搜索、YouTube 历史记录，四个入口拼起来，比 ChatGPT 只接日历和邮件更接近个人记忆库。但我不太买“旅行计划”这个包装。行程生成早就被做烂了，难点在权限、撤回、可解释和误用边界。帖子只说用户可选择连接应用、管理个性化设置，没披露默认关闭还是默认推荐，也没说数据是否进入长期记忆。Google 的分发强，隐私账也最重。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:20

28d ago

FEATUREDAI HOT 精选· aihot-apiZH16:20 · 05·11

人机交互界面的演进：从文本到交互式神经视频

Karpathy认为LLM输出正从Markdown转向HTML，交互式神经视频仍未解决与传统软件精确结合的问题。

#Multimodal#Tools#Andrej Karpathy#Commentary

精选理由

Karpathy 的界面判断有 HKR-H/K/R：概念新、机制清楚、对AI产品形态有讨论价值。素材来自单条 X 帖且无数据或实验，压在精选门槛。

一句话点评

Karpathy这条别当未来学看；HTML输出是今天能改产品转化率的接口选择，神经视频还是没法对齐像素级确定性的远景。

锐评

Karpathy这条最实用的判断是：LLM 默认输出从 Markdown 换到 HTML，会先改变 AI 产品形态。证据很具体，HTML 能承载图形、布局和交互；Markdown 只能给文本层级。对 Copilot、ChatGPT Canvas、Claude Artifacts 这类产品，输出容器就是能力边界。神经视频那段我不太买账。扩散模型直接生成交互式模拟听起来很诱人，但正文也承认，和传统软件的精确结合还没解决。软件 UI 要按钮状态、坐标、权限、可回放操作；视频生成擅长连续观感，不擅长确定性约束。短期别追“终极输出形式”，先让模型稳定吐可执行 HTML、组件状态和事件绑定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:37

28d ago

FEATUREDAI HOT 精选· aihot-apiZH15:37 · 05·11

Anthropic 开源金融 AI 全栈模板

Anthropic 在 GitHub 开源金融服务 AI 模板库，包含 10 个端到端智能体、7 个行业插件和 11 家金融数据商的 MCP 连接器。

#Agent#Tools#Anthropic#GitHub

精选理由

Anthropic 发布可复用金融 Agent 模板库，带 GitHub 交付物和明确数量指标，符合 HKR-H/K/R。它不是模型发布，影响力低于 85 档，但作为 Anthropic 开源实践与 MCP 垂直样板，进入 featured。

一句话点评

Anthropic 开源 10 个金融智能体模板，但别急着叫标准；金融机构买的是审计链和责任边界，不是 GitHub 星标。

锐评

Anthropic 这次像是在抢金融 AI 的实施手册，而不是抢模型榜单。库里给了 10 个端到端智能体、7 个行业插件、11 家金融数据商 MCP 连接器，还把 Microsoft 365、私有云和企业 API 路径摆出来，瞄准的是投研、投行、风控这些可预算工作流。我不买“行业落地新标准”这个说法。金融客户卡得最死的通常是权限、留痕、模型风险管理和供应商责任，正文没有给评测、合规认证、真实银行部署名单。相比 OpenAI 先从 ChatGPT Enterprise 拉工作台入口，Anthropic 更像把 Claude 变成金融 IT 顾问能直接交付的脚手架；强在销售摩擦小，弱在模板离生产系统还有一层审计地狱。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:16

28d ago

FEATUREDAI HOT 精选· aihot-apiZH15:16 · 05·11

传奇总部 Cog House 首度公开：Scott Wu 与 Cognition AI 的崛起

Cognition AI 首次公开 Cog House 内部影像，Devin 上线18个月年化营收达4.45亿美元，公司估值约250亿美元。

#Agent#Code#Cognition AI#Scott Wu

精选理由

Cognition AI / Devin 的营收与估值数字很硬，HKR 三项都成立；但当前素材更像人物与公司侧写，缺少融资、产品或技术发布级别的新动作，压在 78–84 档顶部。

一句话点评

Devin 的 4.45 亿美元 ARR 很硬，但 Cog House 神话包装太满；客户名单能压住质疑，产品留存和毛利还没被看见。

锐评

Cognition 现在卖的不是“AI 程序员”故事，而是企业愿意为 Devin 付真钱的证据。18 个月做到 4.45 亿美元年化营收，估值约 250 亿美元，客户点名美国陆军、高盛、梅赛德斯-奔驰，这组数已经越过玩具 agent 阶段。初期 Devin 被开发者吐槽跑偏、卡住、修不完任务，结果它没死在 demo 反噬里，反而进了大客户采购单。这里我更关心两个没披露的数：净收入留存和推理毛利。代码 agent 最容易把收入烧成 token 成本，漂亮 ARR 不等于健康业务。Scott Wu 的 IOI 金牌背景适合拍传奇，但企业软件最后不按天才传记续费。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:00

28d ago

FEATUREDOpenAI 博客· rssEN15:00 · 05·11

ChatGPT在2026年初采用范围扩大

OpenAI 称 ChatGPT 采用率在 2026 年一季度上升，35 岁以上用户增长最快，性别使用更均衡。

#OpenAI#ChatGPT#Commentary

精选理由

HKR-K 与 HKR-R 成立：OpenAI 给出 2026 Q1 用户结构变化，但正文信息只到年龄与性别趋势，未披露精确采用率或方法，因此停在 interesting 的 all 档。

一句话点评

两家都沿用 OpenAI Signals 口径，这不是独立验证；ChatGPT 的增长故事正在从模型能力转向人口渗透。

锐评

2 家报道同指 OpenAI Signals Q1 数据，口径高度一致，来源链其实是官方研究页，不是外部测量。OpenAI 把 ChatGPT 消费端增长拆成性别、年龄、国家和任务：女性名用户占可推断性别用户过半，35 岁以上消息占比上升，多米尼加和海地人均消息排名各升 9 位。我买“扩散”这个判断，但不买它对工作场景的暗示。正文只覆盖 Free、Go、Plus、Pro，明确排除了 Codex、Enterprise、Education；所以“工作用途更稳定”其实是在个人账号里看影子需求。对从业者更有用的读法是：ChatGPT 已经在非早期用户里吃到自然增长，企业采购数据反而被这篇藏在门外。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

14:24

28d ago

FEATUREDAI HOT 精选· aihot-apiZH14:24 · 05·11

帕累托代码用市场需求重排模型选择

OpenRouter 称 Pareto Code 用真实市场需求观察帕累托前沿，DeepSeek V4 Pro 排第一，GPT 5.4 Mini 和 Gemini 3.1 Pro 随后。

#Code#Benchmarking#OpenRouter#DeepSeek

精选理由

HKR 三项都命中，但素材只有 OpenRouter 单条动态，正文未披露样本量、时间窗和价格口径；按评测/选型信号给 featured 下沿，不进 78+。

一句话点评

OpenRouter 把 DeepSeek V4 Pro 排到代码模型第一，但没给公式和样本；这更像路由市场的需求榜，不是能力裁判。

锐评

OpenRouter 这榜单先别当 SWE-bench 看，它把“真实市场需求”塞进 Pareto Code，结论自然会偏向价格、延迟、可用性和路由默认项。标题给出 DeepSeek V4 Pro 第一、GPT 5.4 Mini 第二、Gemini 3.1 Pro 第三，正文没给评分公式、样本量、任务分布，也没说是否去掉 OpenRouter 自家流量偏置。这个排名对做模型选择有用，对证明代码能力没那么硬。开发者掏钱调用时，$ / latency / failure rate 会压过单项 benchmark；但把需求曲线包装成“前沿”，容易把分发优势误读成模型能力。DeepSeek 排第一不意外，低价高可用一直吃路由市场。缺的那一页方法学，才决定这是不是榜单。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:46

28d ago

FEATUREDAI HOT 精选· aihot-apiZH13:46 · 05·11

AntLingAGI 发布万亿参数模型 Ring-2.6-1T

AntLingAGI 发布 Ring-2.6-1T 万亿参数思考模型，5月15日前可在 OpenRouter 免费使用，支持可调思考强度、智能体多步执行和工具调用。

#Agent#Reasoning#Tools#AntLingAGI

精选理由

HKR 三项都命中，但正文信息很薄，未披露基准、价格、架构与训练细节；未知厂牌的 OpenRouter 上架按中等模型发布处理，给 featured 门槛分。

一句话点评

Ring-2.6-1T 把“万亿参数”打到 OpenRouter 免费档，但没给 benchmark、价格和上下文；我先按获客试用看，不按能力跃迁看。

锐评

Ring-2.6-1T 的最大信号不是万亿参数，是 AntLingAGI 先拿 OpenRouter 做冷启动。免费期到 5 月 15 日，功能词给得很满：可调思考强度、多步执行、工具调用、数学逻辑和科研任务。但正文没给上下文窗口、吞吐、价格、SWE-bench 或数学基准，1T 只能证明成本结构很重，不能证明 agent 表现稳。我对“生产环境复杂任务”这个说法不太买账。OpenRouter 很适合让开发者白嫖测试和横向切模型，却不是企业落地的证据。Qwen、DeepSeek、Claude 这类模型过去一年都靠可复现榜单或 API 价格建立心智；Ring-2.6-1T 现在只有免费入口和参数叙事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:20

28d ago

● P1Hacker News 首页· rssEN13:20 · 05·11

Google称黑客利用AI发现并利用重大软件漏洞

Google 称犯罪黑客用 AI 发现重大软件漏洞，RSS 片段仅列出 3 个链接、39 分和 19 条评论，正文未披露漏洞名称、受影响产品或攻击机制。

#Safety#Google#The New York Times#CNBC

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 缺口大：只有 Google 说法，没有漏洞名、受影响产品或机制。安全议题有讨论价值，信息密度不足以进 featured。

一句话点评

3 家都追 Google 这条零日，但关键名词全被遮住；AI 找洞首次进入犯罪实战叙事，防守方别再拿“理论风险”安慰自己。

锐评

3 家媒体同步跟进 Google 口径，核心事实一致：犯罪黑客用 AI 辅助发现并武器化一个零日漏洞。这里像一次有控制的安全披露，不像独立调查汇流，因为时间、目标、工具名、黑客身份都没给。我买账的是风险方向，不买账的是叙事完整度。Google 说漏洞在一个“流行开源 Web 管理工具”里，可绕过双因素认证，但仍需有效账号密码；这说明它不是一键入侵神话，而是把漏洞挖掘和利用脚本生产前移了。拿 Anthropic Mythos 上月“数千个零日”说法作参照，模型能力已经够吓人，问题是披露方也在用模糊细节塑造监管压力。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

12:46

28d ago

FEATUREDImport AI· rssEN12:46 · 05·11

Import AI 456：RSI 与经济增长、AI 监管可选性、神经计算机

Import AI 456 摘要了 radical optionality 与 Neural Computer，列出 7 类监管工具，并提到 Meta、KAIST 用 Wan 2.1 做 CLI/GUI 原型。

#Agent#Memory#Safety#Import AI

精选理由

Import AI 456 是高信号周报，不是单条重大发布；HKR 三项都成立，知识点来自 7 类监管工具和 Wan 2.1 原型，热度低于模型发布，落在 featured 门槛上方。

一句话点评

Import AI 这期最硬的是监管工具清单，不是“radical optionality”这个包装；7 类工具里，审计和权重安全会直接撞上实验室利益。

锐评

“radical optionality”听着温和，其实是在给政府预装 AI 危机模式。7 类工具里有透明度、强制报告、第三方审计、举报人保护、评估、模型权重安全、人才建设，这些都不是空泛原则，是能进法条和预算的抓手。我买“先建能力、少下硬禁令”这套，但别把它说成无害。原文自己也承认，灵活规则会压低 notice-and-comment 这类程序约束；Jack Clark 也提醒，政府拿到权限后会造出更强版本。AISI、CAISI 扩编是合理事，审计权和权重安全标准一旦成形，OpenAI、Anthropic、Meta 的安全叙事就要接受外部复核。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:07

28d ago

FEATUREDAI HOT 精选· aihot-apiZH11:07 · 05·11

小块有大智慧？7B 模型指挥前沿模型

一项研究用强化学习训练 7B 语言模型，让其分派自然语言子任务给 GPT-5、Claude Sonnet 4 和 Gemini 2.5 Pro，平均每题约调用 3 次大模型。

#Agent#Reasoning#Benchmarking#OpenAI

精选理由

HKR 三项都命中：小模型调度三家前沿模型有点击反差，也给出 RL 拆任务与约 3 次调用的具体机制。信息仍偏推文摘要，未披露论文来源、任务集与结果幅度，停在 78。

一句话点评

7B 调度器每题约 3 次调用就压过单个 GPT-5 / Sonnet 4 / Gemini 2.5 Pro，手写 agent 流程的护城河又塌了一块。

锐评

这篇最狠的点不是“小模型指挥大模型”，而是 RL 把人工 agent 编排吃掉了一截。7B 模型只写自然语言子任务、选 GPT-5 / Claude Sonnet 4 / Gemini 2.5 Pro、指定上下文，平均每题约 3 次调用，就在 GPQA Diamond、LiveCodeBench、AIME25 压过单个前沿模型。我对“全面超越”还会先打折：正文没给绝对分数、方差、费用和失败样例。可方向很清楚，AutoGen / LangGraph 那套手写流程如果只靠 prompt 模板和路由规则，很快会被奖励信号训练出的策略层挤压。产品里的 agent 差异，正在从“会写流程图”变成“谁有可训练的任务轨迹”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:38

28d ago

FEATUREDAI HOT 精选· aihot-apiZH09:38 · 05·11

腾讯混元 Hy3 预览版发布，专注复杂智能体任务

腾讯混元开放 Hy3 预览版早期体验，模型采用 256K 上下文和快慢思维混合专家架构，面向复杂智能体任务。

#Agent#Reasoning#Tencent Hunyuan#Product update

精选理由

腾讯混元 Hy3 是国内大厂模型预览，正文给出 256K 上下文和快慢思维 MoE，HKR 三项命中。缺少基准、价格和开放范围，压在 78–84 的优质推荐档。

一句话点评

Hy3 把 256K 上下文和快慢思维 MoE 绑到 agent 叙事上，但没给价格、API、评测；腾讯这次先卖架构信心。

锐评

Hy3 的问题不是能力方向，而是腾讯只给了架构词，没有给可验收的 agent 结果。256K 上下文、快慢思维混合专家、重建预训练和 RL 基础设施，这些都像在对标 Gemini 1.5 / Claude 长上下文路线，再把卖点挪到复杂智能体任务上。但 agent 模型不能只靠上下文长度交差。正文没给 SWE-bench、BrowseComp、工具调用成功率、长任务成本，也没给 API 定价。腾讯云场景和微信生态足够大，Hy3 要是能把内部工作流跑稳，会比单纯刷榜更狠；现在这版更像早期体验招募，不像一次产品发布。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:05

28d ago

FEATUREDr/LocalLLaMA· rssEN07:05 · 05·11

ExLlamaV3 重大更新

ExLlamaV3 在 v0.0.31 加入 DFlash，Coding 场景从 59.21 t/s 升至 177.67 t/s；v0.0.32 对 5 个模型做优化，Trinity-Nano 在 6000 Pro² 上提升 72.4%。

#Inference-opt#Code#Agent#ExLlamaV3

精选理由

HKR 三项都成立，但影响面集中在 LocalLLaMA/ExLlama 用户，不到通用模型发布级别；按中等开源推理优化更新给 featured 低段。

一句话点评

只有摘要，正文被 Reddit 403 挡住；但 59.21→177.67 t/s 这种 3 倍跳升，已经够让本地推理栈重新排队。

锐评

ExLlamaV3 这次不像小版本修补，DFlash 把 Coding 吞吐从 59.21 t/s 拉到 177.67 t/s，约 3 倍，已经碰到本地部署的核心痛点：不是模型会不会答，而是单卡能不能跑得像工具。v0.0.32 又点名 5 个模型优化，Trinity-Nano 在 6000 Pro² 上涨 72.4%，这比泛泛说“更快”硬很多。我会压低一点兴奋度。正文被 Reddit 403 挡住，测试 batch、上下文长度、量化位宽、显存占用都没披露。llama.cpp、vLLM、MLX 这类栈过去一年也在吃 kernel 和 quant 红利；ExLlamaV3 要证明的不是峰值 t/s，而是多模型、多上下文下别掉链子。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:00

28d ago

● P1OpenAI 博客· rssEN06:00 · 05·11

OpenAI 推出企业 AI 部署公司 DeployCo

OpenAI 推出企业部署公司 DeployCo，RSS 摘要称其面向前沿 AI 生产落地；正文未披露价格、客户名单或上线时间。

#OpenAI#DeployCo#Product update

精选理由

OpenAI 官方发布新企业部署公司，HKR-H 与 HKR-R 成立，足够过精选线；但正文缺少价格、客户和上线节奏，HKR-K 不足，分数压在 72–77 低段。

一句话点评

OpenAI 用 40 亿美元和 150 名 FDE 补企业落地短板；这不是咨询副业，是把 Palantir 式交付绑进模型分发。

锐评

2 家跟进同一件事，口径都来自 OpenAI 官宣：DeployCo、收购 Tomoro、约 150 名 FDE、超 40 亿美元初始投资，覆盖不是独立验证，是官方主动放大的企业信号。我买它的方向，不买它的轻松叙事。企业 AI 卡住的从来不是 demo，而是权限、数据、流程、审计和责任边界；OpenAI 现在把 FDE、Bain、McKinsey、Capgemini、TPG 这些交付和资本网络拉进来，等于承认 API 自助增长摸到天花板。Palantir 早就证明过，重交付能卖进核心流程，但毛利、周期和客户定制会反咬平台化故事。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

05:05

28d ago

FEATURED新智元 · 公众号· rssZH05:05 · 05·11

Claude Mythos 在 METR Time Horizons 测试达 16 小时任务 50% 成功率

Claude Mythos Preview 在 METR Time Horizons 测试中，对人类需16小时完成的任务达到50%成功率；228个任务里仅5个超过16小时，正文称更长区间样本不足。

#Agent#Code#Benchmarking#Anthropic

精选理由

HKR 三项都成立：有 16 小时任务过半成功的强钩子，也有 METR 样本限制这一关键数字。分数压在 82，因为正文摘要显示长时任务只有 5 个样本，2027 外推更像高风险解读，不到 P1。

一句话点评

Mythos 的 16 小时结果很硬，但这篇把 5/228 的样本缺口写成奇点倒计时，典型把评测外推当灾难片卖。

锐评

Mythos 在 METR Time Horizons 的 16 小时 50% 成功率很强，但这篇的结论跳太远。硬钩子是 228 个任务里只有 5 个超过 16 小时，METR 自己也说长区间样本不足；这只能说明量尺不够长，不能推出“2027 奇点已到”。安全段更像拼贴叙事。Palo Alto 的 3 周抵 1 年、25 分钟攻击链、Mozilla 4 月修 423 个问题都很抓人，但正文没有给测试条件、基线团队规模、漏洞严重度分布。AI 安全能力在变快，这个判断我买；把 Mythos 写成“外星文明”，我不买。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

28d ago

FEATURED新智元 · 公众号· rssZH05:05 · 05·11

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live发布105道任务评测13个前沿模型，最高通过率未超70%，HR任务平均通过率仅6.8%。

#Agent#Benchmarking#Tools#Claw-Eval-Live

精选理由

HKR 三项都命中：有「活的」评测钩子，也有105题、13模型、HR 6.8%等硬数。Claw-Eval-Live影响力仍需观察，按Agent评测优质信号给featured低段。

一句话点评

Claw-Eval-Live 把 Agent 榜单拉回脏活现场：13 个前沿模型最高不过 70%，HR 平均 6.8%，聊天能力泡沫在业务流里很快破。

锐评

Claw-Eval-Live 最狠的一刀，是把 Agent 能力从“会操作工具”压回“能不能把业务状态改对”。105 道任务、22 个家族、13 个前沿模型，最高通过率没破 70%；workspace repair 全模型至少 72.2%，Development / Terminal 上 Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6 都到 100%。翻车点在企业流程。service-backed workflows 没有模型超过 59.8%，HR 平均只有 6.8%，MGMT 在公开 pass 规则下全灭。这个结果比又一张聊天榜有用得多：模型已经学会在终端里显得聪明，但跨 CRM、邮件、日历、工单去补齐证据、关联实体、写回状态，还是一地鸡毛。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:09

29d ago

FEATURED机器之心 · 公众号· rssZH04:09 · 05·11

ICML 2026｜PRISM 让 dLLM 高效实现 Test-Time Scaling

PRISM 在 LLaDA-8B-Instruct 上将 GSM8K 从 67.58% 提至 85.30%，用层次搜索、局部 remasking 和自验证把复杂度从 O(NT) 降到接近 O(N+KT)。

#Reasoning#Inference-opt#Code#PRISM

精选理由

HKR 三项都命中：标题有反常识钩子，正文给出 GSM8K 提升和复杂度机制，也触到推理成本痛点；但它仍是 ICML 框架论文，不是主流产品发布，落在 78–84。

一句话点评

PRISM 最有价值的地方不是 85.30% GSM8K，而是它承认 dLLM 不能照搬自回归那套搜索。这个方向终于开始像系统论文了。

锐评

PRISM 把 dLLM 的推理扩展问题切对了：不是把 Best-of-N 硬套到去噪模型上，而是在中期状态裁剪、局部 remasking、再用同一模型自验证。LLaDA-8B-Instruct 在 GSM8K 从 67.58% 到 85.30%，PRISM 用 1048 NFE；Best-of-16 到 87.50% 要 4096 NFE。这个差距说明收益来自搜索结构，不只是多采样。我不太买文章后半段把 dLLM 讲成“适合规划”的大叙事。证据还集中在 GSM8K、MATH-500、HumanEval、MBPP，且外部 Qwen3-8B verifier 能到 87.35%。SVF 的优势是部署轻，不是上限高。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

29d ago

● P1量子位 · 公众号· rssZH04:04 · 05·11

菲尔兹奖得主测试 ChatGPT 5.5 Pro 完成论文级数学研究

Timothy Gowers 测试 ChatGPT 5.5 Pro，在加法数论问题上用 17 分 5 秒给出最优二次上界，随后 47 分钟生成 LaTeX 预印本。

#Reasoning#Code#Benchmarking#Timothy Gowers

精选理由

HKR 三项全中：Gowers 亲测、17分5秒、47分钟预印本都具备传播性与可核查性。它不是正式模型发布，但名人一手实验加数学推理冲击，进入 must-write 档。

一句话点评

ChatGPT 5.5 Pro 把指数界压到多项式界；数学圈这次别急着嘲笑“随机鹦鹉”，但也别把一次 Gowers 背书当自动定理机。

锐评

2 家都围着 Gowers 博客转，一家强调“两小时无人帮助”，一家强调“17 分钟论文级成果”，事实链高度一致，来源还是同一位菲尔兹奖得主。ChatGPT 5.5 Pro 在 Nathanson 问题上 17 分 5 秒给出二次界，后续又把 Rajagopal 相关结果从指数依赖压到多项式依赖，这个钩子足够硬。我对这条的判断很简单：数学研究的“候选构造生成”已经被模型咬开一块，不再只是 Lean 证明校验那条路线。冷水也要泼：正文说 Gowers 检查正确性，Rajagopal 说“几乎肯定正确”，还没看到期刊审稿或形式化验证。AlphaGeometry 靠专用系统打几何题，GPT 5.5 Pro 这次更吓人，因为它是在普通 ChatGPT 产品形态里干出来的。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

04:04

29d ago

● P1量子位 · 公众号· rssZH04:04 · 05·11

SpaceX提交SpaceXAI商标申请涉及卫星数据和轨道计算

SpaceX提交2份SpaceXAI商标申请，覆盖卫星数据中心、轨道计算、AI SaaS、云存储和社交网络；正文称xAI已并入SpaceX。

#Inference-opt#SpaceX#xAI#Elon Musk

精选理由

HKR 三项都命中，但核心证据仍是商标申请，正文虽称 xAI 已并入 SpaceX，未给出交易条款或官方公告；按中等偏强产品/组织信号给 featured，不上 85。

一句话点评

2 家都在讲 SpaceXAI 商标，正文只剩标题链；别急着喊官宣，商标覆盖卫星数据和轨道计算，先看它是不是给星链数据资产占坑。

锐评

2 家同时跟进 SpaceXAI 商标，但可见正文只有验证码页和标题，信息链很薄；“正式官宣”这个说法我不买账，标题只给出商标注册申请，没给申请号、类别、日期和 xAI/SpaceX 的组织关系。判断别放在“马斯克又做 AI 公司”上。更硬的钩子是卫星数据和轨道计算：SpaceX 手里有星链网络、发射遥测、地面站链路，这些数据不等同于 Grok 的文本语料。要是商标类别真覆盖数据处理、在轨调度或边缘推理，它对 xAI 是数据入口，对国防和遥感客户才是产品入口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:04

29d ago

● P1量子位 · 公众号· rssZH04:04 · 05·11

OpenAI砸200亿美元买单，Cerebras冲刺350亿美元估值IPO

Cerebras将IPO发行价上调至150至160美元，按区间顶端估值约350亿美元，OpenAI已签750兆瓦算力采购协议。

#Inference-opt#Cerebras#OpenAI#Nvidia

精选理由

HKR 三项都命中：这不是普通 IPO 消息，而是 OpenAI 用 750 兆瓦采购把 Cerebras 估值推到约 350 亿美元，直接牵动 AI 算力供给和 NVIDIA 替代叙事。

一句话点评

Cerebras 这轮 IPO 卖的不是“反英伟达”，是 OpenAI 用 750MW 订单给资本市场写的保底函。

锐评

Cerebras 的 350 亿美元估值很硬，但硬在 OpenAI 订单，不在“英伟达挑战者”这个标签。OpenAI 签了 750MW 算力采购，交付到 2028 年，外界估算总值超 200 亿美元；还给了 10 亿美元、6% 年利率运营贷款，换 3350 万股认股权证。问题也在同一处：这家公司 2025 年营收 5.1 亿美元、净利 8790 万美元，漂亮得太依赖单一买家。G42 收入占比从 87% 降到 24%，客户风险没消失，只是从阿布扎比换成 OpenAI。Cerebras 的 WSE-3 推理路线确实有牙齿，44GB 片上 SRAM 和 21PB/s 带宽不是 PPT，但资本现在买的是 OpenAI 信用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

29d ago

FEATUREDFT · 科技· rssEN04:00 · 05·11

NHS 将向 Palantir 承包商授予患者数据“无限访问”权限

NHS 将向参与 Federated Data Platform 项目的 Palantir 咨询承包商开放患者数据访问，RSS 摘要未披露访问范围、期限和审计机制。

#NHS#Palantir#Policy#Partnership

精选理由

FT 信源加上 NHS 患者数据与 Palantir 承包商权限，HKR 三项都成立；但正文只给访问安排，未披露范围、期限和审计机制，按 72–77 的 featured 档处理。

一句话点评

NHS 把 Palantir 承包商推到患者数据门口；只有标题和摘要，审计、期限、最小权限全没给，这种“无限访问”在医疗 AI 里太危险。

锐评

NHS 这次踩的是医疗 AI 最敏感的红线：承包商权限被描述成 “unlimited access”，但访问范围、期限、审计机制都没披露。Federated Data Platform 本来就因 Palantir 介入 NHS 数据而争议很大，现在问题不是模型能力，是谁能在什么条件下碰到患者数据。 Palantir 在政府和国防项目里吃的就是高权限数据整合能力，医疗场景却不能照搬这套打法。正文被 FT 订阅墙挡住，只有标题给出“unlimited access”。如果 NHS 没有按项目、角色、时间窗做最小权限，这会变成 AI 基建采购里最糟的默认值：先给权限，再补治理。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

29d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·11

本地模型处理半数日常任务，响应速度优于云端

五周实验测试约1400项日常工作任务，本地35B模型成功处理约50%，平均响应2.8秒，比Claude Opus 4.5快2.1倍。

#Agent#Reasoning#Inference-opt#Qwen

精选理由

HKR 三项都命中：Tom Tunguz 的实测给出约1400项任务、50%成功率、2.8秒延迟与对 Claude Opus 4.5 的速度对比。它是强实验型观点，适合 featured，但还不是模型发布或平台级产品更新。

一句话点评

本地 35B 能吃掉 50% 日常任务，这不是“替代 Opus”，是把云端模型从默认选项打回高难任务专用。

锐评

Tunguz 这组实验最刺的是默认路由变了：1,400 个日常任务里，本地 Qwen 3.6 35B-A3B-4bit 吃下约 50%，平均 2.8 秒，Claude Opus 4.5 API 是 5.8 秒。对 agent pipeline 来说，2 秒差距会变成每一步的摩擦税。Opus 4.5 推理 benchmark 高约 20%，结构和润色也赢，但邮件、排期、摘要、简单脚本修复不总需要 frontier。我要挑刺的是样本：8 个 head-to-head 任务太少，且来自一个 VC 的工作流，不等于企业通用分布。可这个方向很硬，尤其当本地输出更短、还能直接喂给下一步系统时，云端高价 token 会被迫证明每次调用都值。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

29d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·11

DeployCo 来了：OpenAI 和 Anthropic 同日与 PE 设立 AI 部署合资企业

OpenAI 和 Anthropic 在 5 月 4 日分别与 PE 成立 AI 部署合资企业，正文提到 17.5% 保底回报与零保底两种条款。

#Agent#Tools#OpenAI#Anthropic

精选理由

HKR 三项都成立：角度有反差，信息点落在PE合资与17.5%保底条款，且直接牵动大模型商业化分成。单源评论型内容，未到官方重大发布，压在78–84档。

一句话点评

OpenAI 给 PE 17.5% 保底，Anthropic 给 0；同一天做 DeployCo，分歧不在部署，而在谁急着把风险卖出去。

锐评

DeployCo 不是普通渠道合作，是模型公司把企业落地风险外包给 PE。5 月 4 日，OpenAI 和 Anthropic 同日宣布 AI 部署合资企业，摘要只给出两个条款：OpenAI 侧 17.5% 保底回报，Anthropic 侧零保底。这个差异太刺眼了，像是一个在用收益承诺换部署速度，另一个在守住模型供应商的位置。我不太买“AI rollup 自然演化”这套顺滑叙事。PE 擅长买碎片化现金流，不擅长承担模型能力波动；Copilot、ChatGPT Enterprise 这一年已经证明，部署难点常卡在流程改造和责任边界。正文未披露股权、客户来源、云资源和回购条款，17.5% 到底是财务工程还是需求信号，现在还不能判死。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

29d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·11

Google 关掉 Project Mariner，Anthropic 和 OpenAI 也没跑通

Google 5 月 4 日静默关闭 Project Mariner，正文称三家公司都认为独立浏览器 agent 跑不通，GUI automation 仍有空间。

#Agent#Tools#Google#Anthropic

精选理由

HKR 三项都命中：关闭日期、路线判断和三大厂对照都有信息量。单源摘要未给官方公告或量化失败指标，按中等产品/观点事件压在 featured 低段。

一句话点评

Mariner 5 月 4 日关停不是 Google 独败，是浏览器 agent 这条产品线集体撞墙；GUI 还活着，独立浏览器壳先死。

锐评

浏览器 agent 的问题不是模型不够聪明，是产品形态太假。Project Mariner 5 月 4 日静默关停，正文只给出 RSS 片段：Google、Anthropic、OpenAI 都认为独立浏览器 agent 跑不通，GUI automation 仍有空间。这个判断我买一半——通用网页、登录态、弹窗、验证码、异步刷新，会把演示里的任务链撕碎。Computer Use 和 Operator 也踩过同一坑：能录屏很酷，能稳定替人下单才难。正文没给成功率、任务集、关停原因细节，所以别把它讲成 agent 退潮；死的是“另开一个浏览器让模型表演”的壳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-11

更多

频道

后台