热点聚合 · 2026-05-14

▸ 55 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-14 · 星期四2026年5月14日

23:55

25d ago

FEATUREDAI HOT 精选· aihot-apiZH23:55 · 05·14

AI 自主研究在 nanoGPT 优化赛道超越人类基准

Prime Intellect 让 Claude Code 与 Codex 自主跑 nanoGPT 速度挑战，近万次实验消耗约1.4万 H200 小时，Claude Code 以2930步超过2990步人类基准。

#Agent#Code#Benchmarking#Prime Intellect

精选理由

HKR 三项都命中：有明确反常识钩子，也有算力与成绩数字；但它仍是 nanoGPT 优化赛道结果，不是通用智能体产品发布，压在 78–84 档顶端。

一句话点评

Claude Code 赢了 nanoGPT 2930 步，但花了 1.4 万 H200 小时；这更像暴力研究流水线，不像智能体突然会发明算法。

锐评

Claude Code 这次赢在人肉研究最烦的部分：整合、扫描、组合，而不是发明。Prime Intellect 跑了近 1 万次实验，烧掉约 1.4 万 H200 小时，把 nanoGPT 优化器赛道推到 2930 步，压过 2990 步人类基准；这个成绩有复现价值，因为日志和代码开源。但别把它讲成“AI 科学家到来”。正文明确说，新颖性检查没过基线。它证明 agent 可以把社区已有技巧用算力铺开，像一个不睡觉的研究助理集群。和 AlphaEvolve 那类“发现新程序”的叙事相比，这里更接近自动化实验工厂。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:35

25d ago

FEATUREDAI HOT 精选· aihot-apiZH23:35 · 05·14

API 提示预缓存加速首令牌生成

Claude API 可在用户请求前发送系统提示预热缓存，正文称长提示场景会跳过输出，并在真实请求到达时命中缓存以缩短首令牌时间。

#Inference-opt#Tools#Claude#Commentary

精选理由

Claude API 的中等权重性能更新，有明确机制：请求前预热系统提示缓存，真实请求命中后缩短首令牌时间。HKR 三项都过，但它不是模型发布或重大能力更新，停在 featured 门槛上方。

一句话点评

Claude 这招不是模型变快，是把长系统提示的等待挪到用户请求前；工程上好用，但账单和缓存命中边界才是坑。

锐评

Claude API 预热提示缓存能砍首令牌延迟，但它吃的是工程排队差，不是推理能力红利。做法很具体：用户输入前先发系统提示，Claude 写入缓存且不生成输出，真实请求到达后命中缓存。长 system prompt、固定工具定义、多轮 agent 配置最吃这套。我更关心两个正文没给的数：缓存 TTL 和预热请求怎么计费。Anthropic prompt caching 以前就靠 cache write / read 价差省成本，OpenAI 也有 cached input 折扣；这类技巧一旦 TTL 短或写缓存按高价收，吞吐高的服务会赚，低频 SaaS 只是在提前烧钱。别把它包装成推理优化，它是把 P99 的一段冷启动藏到用户看不见的地方。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:26

25d ago

FEATURED彭博科技· rssEN23:26 · 05·14

Anthropic 与美国政府争端成为 Figma 等公司的风险因素

Anthropic 与美国政府围绕联邦机构禁用其 AI 模型发生法律争端，Bloomberg 摘要称该争端已成为 Figma 等公司的财务风险。

#Safety#Anthropic#US government#Figma

精选理由

Bloomberg 信源可靠，Anthropic 与美国政府争端外溢到 Figma 等客户风险，HKR-H/K/R 都成立；但正文摘要未给诉讼细节、金额或受影响合同规模，落在 featured 门槛上方而非 P1。

一句话点评

Anthropic 被联邦禁用这事如果坐实，Figma 这类上游依赖方会先替它交风险溢价。

锐评

Anthropic 这场官司的杀伤点不在政府订单，而在客户资产负债表开始给模型供应商定价。Bloomberg 只给了 RSS 摘要：争议围绕美国联邦机构是否禁用 Anthropic AI 模型，且已成为 Figma 等公司的财务威胁；禁令范围、涉事模型、合同金额、Figma 暴露比例都没披露。我不把它看成普通 policy 噪音。企业 SaaS 过去一年把 Claude 塞进设计、代码、客服工作流，很多合同默认“模型可用性”不是核心风险项。若政府禁用进入审计口径，CFO 会追问供应商集中度、替换成本、数据驻留。OpenAI、Google 模型可一键切换的说法，在深集成产品里通常很虚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

23:09

25d ago

FEATUREDr/LocalLLaMA· rssEN23:09 · 05·14

用 RL 训练 Qwen3.5 自我越狱，再用失败样本改进防御

作者用 RL 构建 Qwen3.5 自动红队闭环，防御率从64%升至92%，良性准确率从92%降至88%，攻击器发现7类策略。

#Alignment#Safety#Fine-tuning#Qwen3.5

精选理由

具名一手实验，有 RL 自动红队闭环和可检验数字，HKR 三项都成立；但来源是 Reddit 单帖，未见论文或代码验证，不到 P1。

一句话点评

Qwen3.5 这组数很诱人，但我更信它证明了 RL 红队的奖励设计会决定你看到哪类漏洞。

锐评

这不是“模型学会自我防御”的童话，而是一次很实用的奖励工程示范。作者让 Qwen3.5 攻击器按成功越狱拿奖励，GRPO 很快塌到同一种 fiction-writing 套路；改成按攻击策略聚类、再用 cluster size 稀释奖励后，才挖出 7 类 tactic families。防御率从 64% 到 92%，代价是 benign accuracy 从 92% 掉到 88%。这 4 个点的误伤损失不小，但比只报拒答率诚实。缺口也明显：测试集规模、harm taxonomy、holdout 是否隔离都没给，别把 Reddit 实验读成安全评测结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:55

25d ago

FEATUREDAI HOT 精选· aihot-apiZH22:55 · 05·14

Claude 代理工具 v2.1.142 版本更新

Claude 代理工具 v2.1.142 新增 8 个后台会话配置标志，Fast 模式默认模型升至 Opus 4.7，并修复超过 15 项问题。

#Agent#Tools#Code#Anthropic

精选理由

Claude Code 小版本更新，但 Fast 模式默认模型、8 个后台会话标志和 15+ 修复给出足够信息量；Anthropic/Claude 工具链对目标读者有直接使用价值，压在 featured 下沿。

一句话点评

Claude Code v2.1.142 把 Fast 默认切到 Opus 4.7，Anthropic 在用小版本更新偷偷抬高代理基线，成本账却没摊开。

锐评

Claude Code v2.1.142 最关键的不是 15+ 修复，而是 Fast 模式默认用 Opus 4.7。Fast 原本该是低延迟、低成本入口，现在被推到 Opus 线，说明 Anthropic 更在意代理执行成功率，而不是让用户手动挑模型。具体钩子很实：8 个后台会话配置 flag，MCP tool timeout、Windows network-drive deadlock 都修了，这些都是长跑 agent 会踩的坑。我有点怀疑的是成本叙事。Opus 一直不是便宜档，release 没给 pricing、token 策略、回退条件。Cursor、Copilot 这类产品过去一年都在把“自动模式”做成黑箱路由，Claude Code 现在也往那边靠。开发者会喜欢少选项，但团队账单会先紧张。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:55

25d ago

FEATUREDr/LocalLLaMA· rssEN22:55 · 05·14

小模型用自身错误训练，HumanEval 达 80%，数学超过 GPT-3.5

作者用 Qwen 2.5 7B base 自挖错误-修正对微调，HumanEval 从 25/164 升至 112/164；14B 用 100 对样本、H100 训练 95 分钟花费 3.50 美元。

#Code#Fine-tuning#Reasoning#Qwen

精选理由

HKR-H/K/R 都成立：标题有强反差，正文给出训练样本、H100 时间和 HumanEval 数字。分数压在 78，因为来源是 Reddit 单帖，且标题 80% 与摘要 112/164 存在口径差。

一句话点评

只有摘要，没代码和复现实验；Qwen 2.5 7B 从 25/164 到 112/164 很诱人，但我先把它当 reddit 级结果，不当方法突破。

锐评

这条先别急着喊小模型自举成功，112/164 HumanEval 的跳幅太大，证据链却只剩摘要。作者说 Qwen 2.5 7B base 用自挖错误-修正对微调，从 25/164 升到 112/164；14B 只用 100 对样本，H100 跑 95 分钟，成本 3.50 美元。问题在可复现条件：题目污染、采样次数、pass@1 还是别的口径、训练集是否碰到 HumanEval，正文都没打开。LocalLLaMA 经常先跑出漂亮曲线，再被复现实验砍半。我喜欢这个方向，但现在它更像低成本 SFT 的好线索，不是“beat GPT-3.5 on Math”的硬证据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:05

25d ago

FEATUREDLatent Space· rssEN22:05 · 05·14

AI 原生医疗：Abridge 覆盖 1 亿次就诊，医生每周省 10–20 小时

Abridge 预计今年支持 8000 万+次医患对话，覆盖 250 个美国大型医疗系统、28+语言和50+专科，并称医生每周文书时间减少 10–20 小时。

#Agent#Memory#Benchmarking#Abridge

精选理由

Abridge 是垂直医疗 AI 的大规模落地样本，数字密度高且有明确工作流结果；但事实多来自公司访谈，缺少独立评测或产品发布级别冲击，压在 featured 低段。

一句话点评

Abridge 的护城河不是“医疗版会议纪要”，而是 8000 万次对话接上 EHR 后，把先授权和质控这些烂流程也吞进去。

锐评

Abridge 最像垂直 AI 里少数跑出分发权的公司，不是因为模型强，而是因为入口够脏、够深。正文给的钩子很硬：今年预计 8000 万+医患对话，覆盖 250 个美国大型医疗系统、28+语言、50+专科，医生每周少写 10–20 小时文书。这个规模下，ambient scribe 只是采集层，真正现金流会落到 prior auth、billing、quality、follow-up 这些 EHR 后链路。我对“clinical intelligence layer”这种叫法一向警惕，但 Abridge 比普通 wrapper 更有资格喊。它 2018 年起步，早于 ChatGPT，2025 年又拿了 3 亿美元、估值 53 亿美元。疑点也清楚：10–20 小时节省是谁测的、按什么科室算，正文没有给可复现实验。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:30

25d ago

FEATUREDTechCrunch AI· rssEN21:30 · 05·14

Elon Musk 的 SpaceXAI 合并后持续流失员工

Elon Musk 的 SpaceXAI 自2月合并以来已有50多名员工离职，正文未披露离职名单、岗位分布和留任激励细节。

#Elon Musk#SpaceXAI#Personnel

精选理由

TechCrunch给出50多人离职这一具体数字，且对象是Musk旗下AI相关公司，HKR三项都成立；但正文未披露名单、岗位分布和留任机制，属于组织动荡线索而非高层离职或产品级事件。

一句话点评

SpaceXAI 合并 3 个月流失 50+ 人，这不是普通磨合噪音；Musk 系公司最怕的不是缺钱，是核心 AI 人才不愿再扛不确定性。

锐评

SpaceXAI 合并 3 个月走了 50 多人，我看着像组织信用在漏气。正文没给名单、岗位分布、级别和留任包，不能判断是不是研究、infra、产品哪条线失血；但对一家靠速度和个人号召力吃红利的 AI 公司，50 这个数已经够刺眼。 Musk 系叙事一直是高压换速度，xAI 早期也靠 Colossus 式算力建设抢时间。问题是合并后如果流动性事件反而削弱留任，股票故事就从激励变成离场窗口。OpenAI、Anthropic 也有人走，但它们至少有清晰模型路线和客户收入托底；SpaceXAI 现在被问的是，人才留下来到底押模型，还是押老板。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:06

25d ago

FEATUREDAI HOT 精选· aihot-apiZH21:06 · 05·14

Codex 推出自动化钩子与程序化令牌

Codex 新增钩子与程序化访问令牌，钩子可在任务关键节点运行脚本，令牌面向商业和企业团队用于 CI/CD、发布流程和内部自动化。

#Code#Agent#Tools#OpenAI

精选理由

OpenAI Devs 发布的是 Codex 的实用型产品更新，钩子和程序化令牌给出明确机制，贴近企业开发流水线；但正文信息只到功能用途，未披露价格、权限细节或效果数据。

一句话点评

Codex 加 hooks 和 scoped tokens 后，OpenAI 终于把代码 agent 从聊天框往 CI/CD 里钉了；这步很务实，也更危险。

锐评

Codex 这次像是在补生产化缺口，而不是秀代码能力。hooks 能在任务关键节点跑验证、密钥扫描、日志脚本，programmatic access tokens 又能接 CI/CD、发布流程和内部自动化；这套组合直接碰到企业最敏感的代码路径。我看着有点双刃剑：范围化凭证、过期、撤销、回连工作区使用记录，都是正确控件，但正文没给 token scope 粒度、审计事件、默认权限。GitHub Actions 和 GitLab CI 早就证明，自动化入口一旦连到 repo，最大问题从“能不能跑”变成“谁授权、谁留痕、谁背锅”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:05

25d ago

FEATUREDHacker News 首页· rssEN21:05 · 05·14

Anthropic 发布 Claude for Legal 法律专用模型

Anthropic 发布 Claude for Legal 的 GitHub 项目，RSS 仅披露 HN 24 分和 13 条评论，正文未披露功能、许可或部署条件。

#Anthropic#Claude#Hacker News#Product update

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 失手：目前只有项目名、HN 24 分和 13 条评论，缺少功能、许可、部署方式等可判断信息。Anthropic/Claude 加一点关注度，仍只能放在普通更新档。

一句话点评

Anthropic 把 Claude for Legal 放到 GitHub，3.6k stars 已经够说明律师圈在等工具，不是在等“法律专用模型”。

锐评

2 个来源都围绕 Claude for Legal，但正文只给到 GitHub 仓库页，口径来自同一条公开资产，不是独立验证链。仓库名是 anthropics/claude-for-legal，公开显示 3.6k stars、554 forks、2 个 issues、11 个 PR，标题写的是“a suite of plugins for legal workflows”。我不太买“法律专用模型”这个标题。这里更像 Anthropic 把 Claude 贴进法律工作流的插件层，先占住检索、起草、审阅这些高价场景。法律市场不缺 LLM demo，缺的是权限、引用、审计、事务所知识库连接；正文没给 pricing、模型版本、责任边界，这些才决定它能不能进真案卷。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:39

25d ago

● P1Hacker News 首页· rssEN20:39 · 05·14

arXiv推出新政策对幻觉引用的论文实施一年禁投

标题已给出 arXiv 对幻觉引用设 1 年禁投，正文只有链接、24 分和 2 条评论，未披露执行范围或申诉机制。

#arXiv#Policy#Safety/alignment

精选理由

标题给出 arXiv 对幻觉引用设 1 年禁投，H/K/R 都成立；但正文只有 HN 链接、24 分和 2 条评论，未披露适用范围、执行流程与申诉机制，压在 all 高位。

一句话点评

arXiv用一年禁投处理幻觉引用，这比“AI检测器”靠谱：抓可核验证据，不跟作者争生成比例。

锐评

3 家同时跟进 arXiv 新规，口径都落在“一年禁投”和“幻觉引用/AI 痕迹”上，像是围绕同一份官方政策扩散。标题给出一年处罚，The Verge 正文可见部分还点到 AI prompt 或“incontrovertible evidence”，但未披露完整执行流程。我觉得这条比学校禁 ChatGPT 更成熟。它不审判你用了 Claude、GPT-5 还是本地模型，而是抓论文里的假参考文献、残留提示词这类硬证据。对 AI 论文写作链条，这是低成本高威慑：你可以用模型，但别把审稿前的清洁工作外包给运气。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:37

25d ago

FEATURED彭博科技· rssEN20:37 · 05·14

Musk 的 xAI 发布首个编码 Agent，试图追赶 Anthropic

xAI 推出首个 AI 编码 Agent Grok Build，用于软件开发流程，正文未披露定价、可用范围或基准数据。

#Agent#Code#xAI#Elon Musk

精选理由

xAI 进入 coding agent 战场，HKR-H 与 HKR-R 成立；但正文缺少定价、可用范围和性能基准，HKR-K 不成立。按“中等产品更新”下沿给分，Bloomberg 来源支撑 featured。

一句话点评

xAI 把 Grok Build 推到编码 agent 桌上，但只有名字没有价格、IDE、基准；这更像补票，不像追上 Claude。

锐评

Grok Build 现在的问题不是晚，而是信息颗粒度低到无法判断能不能进开发者工作流。标题给了“首个编码 agent”和对标 Anthropic Claude，正文只披露用于软件开发流程；价格、可用范围、支持 IDE、SWE-bench 或真实 repo 通过率都没给。 Claude Code 已经把终端、repo 理解、多步修改这些环节占住了心智，Cursor 又把 IDE 分发卡得很深。xAI 只靠 Grok 品牌进场，最多先吃 Musk 系开发者的尝鲜流量。没有 IDE 插件、企业权限、代码执行沙箱和 benchmark，Grok Build 还只是一个产品名。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:57

25d ago

FEATUREDTechCrunch AI· rssEN19:57 · 05·14

当 AI 开始构建自身，会发生什么？

Richard Socher 的 6.5 亿美元新公司计划研发可持续自我研究和改进的 AI，RSS 摘要称其会交付产品，正文未披露技术机制、时间表或产品形态。

#Agent#Reasoning#Richard Socher#Funding

精选理由

HKR 三项都命中，但正文缺少技术机制、时间表与产品形态，只能放在 72–77 的精选门槛段；TechCrunch 信源、Socher 名字和 6.5 亿美元规模支撑 featured。

一句话点评

6.5 亿美元押“自我改进 AI”，但正文连机制、时间表、产品形态都没有；这更像融资叙事，不像可验证技术。

锐评

Socher 这次把话说得太满：6.5 亿美元新公司要做“可持续自我研究和改进”的 AI，还强调会交付产品，但 RSS 正文只给一句话。机制、评测方式、上线时间、产品形态全没披露。对从业者来说，缺的不是 AGI 口号，是可复现闭环：模型怎么提出假设、跑实验、改权重或工具链、避免 reward hacking。 DeepMind 的 AlphaEvolve、OpenAI 的 coding agent、Anthropic 的 computer-use 都在吃“AI 改进 AI”这条线，但它们至少有任务边界。Socher 现在卖的是无限改进叙事。没有边界条件，这个 claim 暂时只能按融资材料读。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

25d ago

FEATUREDThe Verge · AI· rssEN19:00 · 05·14

Microsoft 开始取消 Claude Code 许可证

Microsoft 计划移除多数 Claude Code 许可证，并把许多开发者转向 Copilot CLI；正文称其曾在 12 月向数千名内部开发者开放。

#Code#Tools#Microsoft#Anthropic

精选理由

微软内部从 Claude Code 转向 Copilot CLI，是开发工具竞争的真实采购信号；HKR-H 有反差，HKR-K 有“数千名内部开发者”细节，HKR-R 触达 Claude Code 与 Copilot 阵营竞争。

一句话点评

Microsoft 要砍掉多数 Claude Code 许可证，这不是工具替换，是 Copilot 在自家开发者心智里输了一轮后的强行收口。

锐评

Microsoft 砍 Claude Code 很尴尬：自家 Copilot CLI 还要靠许可证政策抢回内部使用权。正文给的钩子很硬，12 月开放给数千名内部开发者，6 个月后称 Claude Code“很受欢迎”，现在却准备移除多数许可证，迁到 Copilot CLI。这类迁移通常会被包装成成本、合规或供应商管理，但这里没给 license 数、价格、时间表，信息缺口刚好挡住最关键的问题：开发者主动选了谁。Claude Code 今年靠 terminal-native agent 把很多团队的代码流吃进去，Microsoft 当然不能让 Anthropic 在自家工程组织里变成默认入口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:31

25d ago

FEATUREDAI HOT 精选· aihot-apiZH18:31 · 05·14

2028年全球AI领导地位的两种情景

Anthropic报告提出2028年中美AI竞争两种情景：美国及盟友若扩大芯片优势，可保持12至24个月技术领先。

#Safety#Anthropic#Policy#Commentary

精选理由

Anthropic署名的AI领导权政策研究，给出2028情景、芯片优势机制与12至24个月领先窗口，HKR三项齐全。它偏政策评论，非模型或产品发布，落在78–84推荐档。

一句话点评

Anthropic 把 2028 AI 竞争写成芯片封锁题，我不全买账；12-24 个月领先好听，蒸馏和开源外溢没那么听话。

锐评

Anthropic 这篇政策文押得太重：把美国 2028 年领先写成出口管制、反蒸馏、盟友采用三件事的函数。最硬的数字是 12-24 个月技术领先，最软的地方是没有给出可检验模型：多少 H100/H200 等效算力、多少走私损耗、多少蒸馏收益，正文都没展开。我理解 Anthropic 的立场，它刚公开讲过 distillation attacks，当然要把防盗和安全绑在一起。但中国模型这两年靠 Qwen、DeepSeek、Kimi 已经证明一件事：算力少不等于能力线性落后。芯片封锁能抬成本，不能保证 2028 年规则制定权。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:16

25d ago

FEATUREDr/LocalLLaMA· rssEN18:16 · 05·14

我跟踪欧盟15家商店50多天GPU价格：RTX 5090唯一未降价

Reddit用户egudegi跟踪欧盟15家商店50多天GPU价格，6小时抓取约12.6万条读数；RTX 5090均价从3392欧元升至3487欧元，涨幅3.0%。

#Inference-opt#egudegi#NVIDIA#AMD

精选理由

HKR 三项都命中，且是带数字的一手价格跟踪；但来源是 Reddit 单帖，影响限于本地推理硬件成本，压在 featured 门槛。

一句话点评

RTX 5090 在欧盟 50 多天还涨 3%，本地推理的瓶颈不是模型压缩，是高端显卡被训练和玩家一起抢。

锐评

RTX 5090 价格逆势涨，说明本地 AI 的成本曲线还卡在消费级旗舰供应上。egudegi 跟踪欧盟 15 家店 50 多天，每 6 小时抓一次，约 12.6 万条读数；RTX 5090 均价从 3392 欧元到 3487 欧元，涨 3.0%。正文只有 Reddit 403 页面，店铺名单、SKU 清洗、缺货处理没披露，所以这不是严肃市场指数。但方向很刺眼。低端卡降价不等于本地推理便宜，70B/多模态/长上下文用户盯的是显存和带宽。AMD 若只在性价比卡上松动，吃不到这段需求。NVIDIA 的护城河现在不只 CUDA，还有“最想买的那张卡就是不降价”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

25d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

在大型代码库中高效运用 Claude Code：最佳实践与入门指南

Claude Code已用于数百万行单体仓库、遗留系统和分布式架构，依靠CLAUDE.md、钩子、技能、插件和MCP服务器5个扩展点在本地代码库中执行智能体搜索。

#Agent#Code#Tools#Claude

精选理由

官方 Claude Code 大型代码库实践指南，有 5 个具体扩展点，契合 AX 受众的代码智能体工作流；它是高质量教程，不是新模型或重大能力发布，落在 72–77 档。

一句话点评

Claude Code 把大型仓库能力押在 5 个扩展点上；这比刷 SWE-bench 更接近企业落地，但也把成败推给工程纪律。

锐评

Claude Code 这篇像是在承认一个现实：大仓库 coding agent 的瓶颈不是模型会不会写函数，而是上下文入口谁来管。文章给的钩子很具体，CLAUDE.md、hooks、skills、plugins、MCP servers 五件套，目标是让 agent 在百万行 monorepo、遗留系统、分布式架构里先找对地方。我买这个方向，但不买它的轻松感。Cursor、Devin、OpenAI Codex 类产品都撞过同一堵墙：repo 规则、测试命令、隐式架构知识不进系统，模型越强越会自信乱改。Anthropic 这套方案更像把“资深同事的脑内索引”文件化。问题也很硬：正文没给成功率、回滚率、token 成本或真实 repo benchmark，企业只能自己拿一套脏仓库压测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:00

25d ago

FEATUREDAI HOT 精选· aihot-apiZH18:00 · 05·14

创始人手册：构建 AI 原生初创公司

Anthropic 发布 AI 原生初创公司手册，覆盖构思、MVP、发布、规模化 4 个阶段，并给出目标、退出标准、失败模式和 Claude 驱动练习。

#Agent#Code#Tools#Anthropic

精选理由

HKR 三项都过，但这是 Anthropic 的方法论手册，不是模型或产品能力发布；具体价值在 4 阶段框架、退出标准与 Claude 练习，卡在精选下沿。

一句话点评

Anthropic 把创业方法论写成 Claude 练习册，这不是布道，是把早期团队的默认工作台往 Claude 里迁。

锐评

Anthropic 这本手册锋利处不在“四阶段”，而在把创始人动作拆成 Claude 可执行任务。正文列出 ideation、MVP、launch、scaling 4 段，还给目标、退出标准、失败模式、Claude exercises；这比普通 founder content 更像产品入口设计。我不太买“AI-native startup playbook”这个包装。OpenAI、Cursor、Replit 都在抢开发者日常，Anthropic 这里抢的是更上游的判断流：客户访谈、PMF 检查、技术债控制、workflow automation。问题是文章没给案例转化率、模板使用数据、Claude Code 绑定方式。没有这些，它还是漂亮漏斗，不是创业操作系统。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:57

25d ago

FEATURED彭博科技· rssEN17:57 · 05·14

AI 建设推动美国最大电网电费上涨 76%

美国最大电网一季度电价上涨 76%，正文称数据中心需求推高电费，但未披露电网运营商名称或具体容量缺口。

#Bloomberg#Commentary

精选理由

HKR 三项都成立：76% 电费涨幅提供硬数字，数据中心需求给出机制，Bloomberg 信源支撑 featured；但正文未披露电网运营商和容量缺口，压在 72–77 档。

一句话点评

AI 数据中心开始把算力账单转嫁给居民电费；76% 不是小波动，是建模成本外溢到电网的警报。

锐评

这条最刺眼的不是“AI 用电多”，而是电网成本已经开始替算力扩张收税。美国最大电网一季度电价涨 76%，RSS 把原因指向数据中心需求；但运营商名称、容量缺口、结算机制都没给，不能把这 76% 全扣到 AI 头上。我看着像云厂商 capex 叙事的反面账本。Nvidia、微软、亚马逊讲的是 GPU、园区和 PPA，居民看到的是批发电价跳涨。若后面 PJM、ERCOT 这类市场继续把数据中心负荷放进容量拍卖，推理成本就不只在 tokens/$M 里算，还会进监管听证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:46

25d ago

FEATUREDAI HOT 精选· aihot-apiZH17:46 · 05·14

OpenEvidence覆盖65%美国医生，shadow AI模式引关注

OpenEvidence覆盖65%的美国医生，4月临床使用2700万次，医生用执业编号在手机注册，医院最初不知情。

#RAG#Tools#OpenEvidence#Mount Sinai

精选理由

HKR 三项都命中：65%美国医生与2700万次月使用是强 adoption 数字，医院最初不知情给出 shadow AI 角度。分数压在85以下，因为来源为社媒摘选，正文未披露统计口径、商业数据与医疗责任机制。

一句话点评

OpenEvidence 用执业编号绕过医院 IT，65% 医生覆盖比任何院内 AI 试点都狠，医疗 AI 的入口先被个人端拿走了。

锐评

OpenEvidence 最刺眼的不是 2700 万次临床使用，而是它靠医生个人注册跑进了医院流程。65% 美国医生覆盖、4 月平均每位医生 41 次使用，这已经不是尝鲜频率；Mount Sinai AI 负责人把它叫 shadow AI 很准，院方最初不知情，后来才追签企业合作。我不太买 OpenEvidence 那句“美国医疗史首次多数医生自愿采用单一技术平台”的胜利叙事。NEJM、JAMA、NCCN、Wiley 背书解决的是可信内容源，不自动解决责任链、病历留痕、用药建议归因。和 Nuance DAX 这类从医院采购切入的工具相比，OpenEvidence 先拿医生心智，再逼机构补合同，这个路径更像医疗版 ChatGPT 进企业。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:33

25d ago

FEATUREDr/LocalLLaMA· rssEN17:33 · 05·14

MOOSE-Star（ICML 2026）：用于科学假设发现的 7B 模型与 108K 论文数据集

MiroMind 研究者发布 MOOSE-Star 集合，含 3 个 7B 模型与 108,717 篇 NCBI 论文数据集。MS-IR-7B 在灵感检索准确率达 54.37%，fp16 约 14GB。

#RAG#Reasoning#Fine-tuning#MiroMind

精选理由

ICML 研究发布有可验证数字，且 7B/fp16 约 14GB 对本地从业者有现实吸引力；但来源单一、机构影响力有限，仍停在 featured 门槛段。

一句话点评

MOOSE-Star 像是把“科学发现 agent”从口号拉回可复现基线：7B、14GB fp16、108K 论文，比巨模 demo 更诚实。

锐评

MOOSE-Star 的价值不在“自动科学发现”，而在给这个方向放了一个小模型硬基线。摘要给出的钩子很具体：3 个 7B 模型，TOMATO-Star 含 108,717 篇 NCBI 论文，MS-IR-7B 用 DeepSeek-R1-Distill-Qwen-7B 做底座，灵感检索准确率 54.37%，fp16 约 14GB，还能跑 llama.cpp、vLLM、SGLang。我喜欢这个尺寸选择。科学假设发现最怕被 GPT-5 级别闭源能力糊成 demo，最后没人知道是检索、推理还是语料泄漏在起作用。这里把任务压到 7B，本地可跑，才方便做消融和复现。正文被 Reddit 403 拦住，训练细节和评测构造没展开；54.37% 这个数先别神化，关键是负例怎么采、论文时间切分怎么做。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:28

25d ago

FEATUREDr/LocalLLaMA· rssEN17:28 · 05·14

用户分享 RTX 5000 PRO 48GB 运行大语言模型的性能表现

Reddit 用户用 $5600 组装 RTX 5000 PRO 48GB 主机，运行 Qwen3.6-27B-FP8；TG 最高 80 tok/s，长提示约 50–60 tok/s，PP 达 4400 tok/s，BF16 KV cache 可放 200k tokens。

#Inference-opt#Nvidia#Qwen#Claude

精选理由

HKR 三项都成立：这是带价格和速度的第一手本地推理实测，不是厂商稿。来源是 Reddit 单帖，影响面低于正式发布或多源评测，落在 featured 门槛内。

一句话点评

两条 Reddit 标题都在讲本地推理性价比，但正文被 403 挡住；48GB RTX 5000 PRO 的故事，先别当评测，当社区温度计。

锐评

2 条 LocalLLaMA 同时冒出来，口径都压在本地显卡跑大模型：一条是 RTX 5000 PRO 48GB 体验，一条是双 RTX 2080 Ti 22GB 跑 Qwen3.6 27B、38 token/s、f16 KV cache。正文只有 403，参数、量化、batch、框架版本都没拿到，所以不能把它写成性能结论。我看重的是另一个信号：社区已经把“能不能塞进显存”当成第一指标，而不是追逐云端模型榜单。48GB 单卡和 44GB 双旧卡都能进入 27B 级本地推理讨论，这会继续挤压小团队用 API 做原型的理由。别急着信那个 token/s，先问复现条件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:09

25d ago

FEATUREDAI HOT 精选· aihot-apiZH17:09 · 05·14

Genkit 推出中间件系统，增强智能体 AI 应用可控性

Google 开源框架 Genkit 推出中间件系统，支持在生成调用、模型、工具层拦截，并覆盖 TypeScript、Go、Dart、Python。

#Agent#Tools#Google#Genkit

精选理由

Google Genkit 的中间件不是新模型，但给出清晰机制：在生成调用、模型、工具层拦截并扩展，适合正在做 agent 应用的开发者。影响面仍限于 Genkit 生态，压在 featured 门槛位。

一句话点评

Genkit 把拦截点放到生成、模型、工具三层，Google 终于承认 agent 工程的难点不是会调模型，而是出事前能不能截住。

锐评

Genkit 这次补的是 agent 框架最脏也最值钱的一层：调用前后能不能插手。标题和摘要给了三个拦截面——generation calls、models、tools，还覆盖 TypeScript、Go、Dart、Python 四种语言，这比再发一个 prompt helper 更接近生产现场。我不太买“harden”这个词的完成态。正文抓取只到博客页头，没看到 API 细节、异常传播、状态隔离、工具权限边界，也没披露默认 middleware 顺序。LangChain、LlamaIndex 早就靠 callbacks、guardrails、tool wrappers 拼这套。Google 的优势在 Firebase / Cloud Run / Gemini 分发；Genkit 要赢，得让这些拦截点变成可审计的运行面，不是又一个漂亮抽象。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:30

25d ago

FEATUREDr/LocalLLaMA· rssEN16:30 · 05·14

inclusionAI/Ring-2.6-1T 登陆 Hugging Face

inclusionAI 发布 Ring-2.6-1T，参数规模 1T，支持 high 与 xhigh 两档推理强度，并采用 Async RL 与 IcePop 训练。

#Agent#Reasoning#Tools#inclusionAI

精选理由

1T 规模与 high/xhigh 推理档位给模型圈足够话题，Async RL 与 IcePop 提供可检验机制；但正文未给基准、许可和推理成本，压在 featured 下沿。

一句话点评

Ring-2.6-1T 的标题很猛，但正文只有 Reddit 403；1T、high/xhigh、Async RL 都还缺模型卡细节支撑。

锐评

Ring-2.6-1T 先别按“开源推理旗舰”处理，当前可核的信息只有标题和摘要。它给了 1T 参数、high / xhigh 两档推理强度、Async RL、IcePop 这些钩子，正文却是 Reddit 403，没有 Hugging Face 模型卡、license、上下文长度、评测表、权重形态。这个缺口很关键：1T 可以是总参 MoE，也可以是激活量完全不同的密集模型，部署成本差一截。Qwen、DeepSeek 这半年把“可复现 benchmark + 权重可下”变成基本门槛；Ring-2.6-1T 如果只给 Reddit 帖和口号，LocalLLaMA 很快会把它打回营销素材。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:08

25d ago

FEATUREDAI HOT 精选· aihot-apiZH16:08 · 05·14

加速设备端 AI：Arm 与 Google AI Edge 的优化实践

Arm SME2 与 Google AI Edge 集成优化 stable-audio-open-small，在 Arm 移动设备和笔记本上将音频生成速度提升 2 倍以上，内存使用减少 4 倍。

#Audio#Inference-opt#Arm#Google

精选理由

Google 与 Arm 的端侧推理优化有明确数字和可复现对象，但范围限于音频模型与 Arm 设备，属于刚过精选线的中量级工程更新。

一句话点评

Arm SME2 + Google AI Edge 把 stable-audio-open-small 跑快 2 倍、内存降 4 倍；端侧音频终于从 demo 往可用边缘挪了一步。

锐评

这条比又一个云端音频模型实在，因为瓶颈落在端侧推理的老问题：速度和内存。Google 把 Arm SME2、LiteRT、XNNPACK、KleidiAI 接到 stable-audio-open-small 上，给出 2 倍以上生成加速和 4 倍内存下降，目标设备是 Arm 手机和笔记本。我买这个方向，但不买太满。音频生成不像文本补全，用户对延迟、发热、后台续航更敏感；正文只给优化倍数，没给实时系数、功耗、具体芯片和音频时长。和 Apple 把小模型压进端侧工作流一样，胜负不在模型名，在 kernel、runtime、硬件指令吃得多干净。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:24

25d ago

FEATUREDThe Verge · AI· rssEN15:24 · 05·14

盖洛普民调：超七成美国人反对在本地建设人工智能数据中心

Gallup 调查显示，逾 70% 美国人反对在本地建设 AI 数据中心，3 月样本为 1000 名美国成年人，强烈支持者仅 7%。

#Gallup#The Verge#Policy

精选理由

HKR 三项都成立：The Verge 借 Gallup 民调把 AI 数据中心从资本开支拉到社区阻力，70% 反对是清晰新数字。它影响算力扩张叙事，但不是模型或产品发布，落在 featured 低段。

一句话点评

70% 反对把 AI 数据中心建到本地，这不是环保边角料，是算力扩张开始撞上社区否决权。

锐评

AI 数据中心的瓶颈开始从 H100 供给转向社区许可。Gallup 3 月问了 1000 名美国成年人，超过 70% 反对本地新建 AI 数据中心，强烈支持只有 7%；更刺眼的是，数据中心比核电厂还不受欢迎，核电建设反对峰值也只有 63%。云厂商过去把问题讲成电力、土地、联网和折旧，地方居民听到的是水、电价、噪音和税收减免。正文没披露按党派、地区、收入的拆分，这会影响选址判断。但这个数已经够硬：AI capex 的社会账单开始外溢，OpenAI、Meta、Google 的 GW 级计划会先遇到县议会。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:21

25d ago

● P1彭博科技· rssEN15:21 · 05·14

AI芯片公司Cerebras完成年内最大IPO融资55亿美元

Cerebras Systems 首日交易上涨 68%，此前通过年内最大 IPO 融资 55 亿美元，正文未披露发行价或估值。

#Inference-opt#Cerebras Systems#Funding

精选理由

Cerebras以55亿美元IPO和首日68%涨幅给AI基础设施资本市场定价；HKR-H/K/R全中，无硬排除，属于当天必写的AI芯片公共市场信号。

一句话点评

Cerebras 20 倍认购不是“挑战英伟达”的胜利，是资本市场愿意给推理侧替代路线先付一张昂贵期权。

锐评

2 家都盯住 Cerebras 上调 IPO 规模：Bloomberg 给 48 亿美元框架，IT之家补出 20 倍超额认购、3000 万股、150-160 美元区间，口径高度一致，像同一条资本市场线索扩散。我不把这看成晶圆级芯片已被验证。更像是 GPU 稀缺叙事外溢到二级市场。证据是定价中点从 120 美元抬到 155 美元，升幅 29.17%，但正文只说 Amazon 和 OpenAI 有大额订单，没有披露毛利、交付节奏、集群利用率。Cerebras 的解码优势有工程价值，可 IPO 热度先吃的是英伟达估值溢价。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

15:15

25d ago

FEATUREDHacker News 首页· rssEN15:15 · 05·14

Anthropic与盖茨基金会达成2亿美元合作

Anthropic 与 Gates Foundation 建立 2 亿美元合作；正文仅有 RSS 摘要，未披露合作目标、资金结构、模型或执行时间表。

#Anthropic#Gates Foundation#Partnership

精选理由

HKR-H 命中在大额合作与双方名称，HKR-K 只有 2 亿美元这个硬数字；正文缺少合作目标、执行机制、模型范围与时间表，未到 featured 门槛。

一句话点评

Anthropic拿盖茨基金会2亿美元做公益部署，别只看善意；医疗、教育、农业基准会把Claude塞进公共部门采购前夜。

锐评

2家报道口径高度一致，核心数字都来自Anthropic公告：4年、2亿美元、覆盖全球健康、生命科学、教育、经济流动。这个一致性不是独立挖料，是官方主动放出的合作叙事。我不把它看成普通公益项目。Anthropic列出的东西很具体：Claude credits、技术支持、connectors、医疗和农业 benchmarks、公共数据集。对AI从业者来说，最要紧的是这些评测和工作流会先进入卫生部、K-12、GAILA、小农农业场景。OpenAI常用消费者入口扩张，Anthropic这次选的是制度入口；速度慢，但一旦进了采购和评估框架，替换成本比聊天窗口高得多。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

13:34

25d ago

FEATUREDAI HOT 精选· aihot-apiZH13:34 · 05·14

Kimi推出网页桥接扩展，支持多平台交互

Kimi推出网页桥接浏览器扩展，支持搜索、滚动、点击、输入等网站操作，并接入Kimi Code CLI、Claude Code、Cursor、Codex、Hermes等平台。

#Agent#Tools#Kimi#Moonshot AI

精选理由

这是月之暗面的一次中量级 agent 工具更新，具体到网页动作和接入平台，够上 featured 门槛；但它不是新模型发布，正文也未披露权限、安全边界或实测效果。

一句话点评

Kimi 把浏览器操作层开放给 Claude Code、Cursor、Codex，这招很实用；但没给权限隔离和成功率数据，agent 安全账还没开始算。

锐评

Kimi 这步不像模型升级，更像把自己塞进开发者 agent 工作流的接口层。网页桥接扩展已支持搜索、滚动、点击、输入，并接入 Kimi Code CLI、Claude Code、Cursor、Codex、Hermes；这个名单比功能描述更关键，Moonshot 没把它锁死在自家客户端里。我喜欢这个方向，但不买“像人类一样互动”的轻描淡写。浏览器点击是 agent 最容易闯祸的边界：登录态、支付页、后台管理台都在同一个 Chrome 里。正文没给权限沙箱、确认机制、任务成功率或失败回滚。OpenAI Operator 和 Anthropic Computer Use 都卡在这层，Kimi 也绕不过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

25d ago

● P1OpenAI 博客· rssEN13:00 · 05·14

OpenAI 将 Codex 集成到 ChatGPT 移动应用中

OpenAI 将 Codex 接入 ChatGPT 移动端，用户可跨设备实时监控、调整、批准编码任务。正文未披露价格、上线范围或支持平台。

#Code#Tools#OpenAI#Product update

精选理由

OpenAI Codex 的移动端接入是中等偏强产品更新，HKR 三项都成立；但正文未披露价格、平台与上线范围，停在 72–77 的 featured 档。

一句话点评

OpenAI 把 Codex 塞进手机端，不是炫移动编程；它在训练开发者接受“手机审批、机器干活”的新协作节奏。

锐评

4 家同时跟进，口径高度一致：Codex 进入 ChatGPT iOS 和 Android 预览版，官方给出每周 400 万用户这个数字，媒体基本沿着 OpenAI 产品稿扩散。我买账的不是“手机写代码”，而是 OpenAI 把 agent 的交互点压缩成审批、改方向、看 diff、看测试结果。文件、凭证、权限留在本机或远程环境，手机通过 secure relay 看 live state；这比 IDE 插件更像生产控制台。Remote SSH 全量可用，Hooks 全量可用，访问令牌给 Enterprise/Business，这套东西明显冲着公司代码流去。别把它和 Copilot Chat 的移动入口混着看，Codex 在抢的是长任务期间的人工介入权。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:32

25d ago

FEATUREDr/LocalLLaMA· rssEN10:32 · 05·14

用 llama.cpp 在本地运行自动化 AI 研究员

Hugging Face 的 ml-intern 新增 llama.cpp 和 ollama 本地运行支持，Qwen3.6-35B-A3B 可编排 CPU/GPU 沙箱与 Hub 作业完成端到端 SFT。

#Agent#Tools#Fine-tuning#Hugging Face

精选理由

HKR 三项都成立，但这是 Reddit 来源的开源工具更新，不是大厂模型发布；本地编排沙箱与 Hub 作业做 SFT 有实用信号，落在精选门槛上方。

一句话点评

只有摘要，没有 Reddit 正文；本地 llama.cpp 跑研究员 agent 这条很香，但别把一次 SFT demo 当成可靠科研自动化。

锐评

这条更像本地 agent 工程栈补齐，不是“自动科研”到站。摘要给出的硬钩子是 ml-intern 新增 llama.cpp / ollama 支持，Qwen3.6-35B-A3B 能编排 CPU/GPU 沙箱和 Hugging Face Hub 作业，跑完端到端 SFT。Reddit 正文被 403 挡住，没看到任务耗时、失败率、人工介入点、显存配置。这里我会先按可复现工具链看，而不是按能力突破看。Claude Code、OpenAI Codex CLI 这类云端 agent 已经把“会调工具”打成日常，本地模型的价值在隐私、成本和可控沙箱；短板也清楚，长链路 SFT 里任何一步报错都能把 35B-A3B 拉回脚本助手。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:29

25d ago

FEATUREDAI HOT 精选· aihot-apiZH09:29 · 05·14

OpenAI遭集体诉讼，被指通过追踪代码向Meta等泄露用户查询隐私

南加州联邦法院受理针对OpenAI的集体诉讼，原告称ChatGPT网站用Facebook Pixel把查询主题与含Facebook唯一ID的cookies实时发送给Meta。

#Safety#OpenAI#Meta#Policy

精选理由

OpenAI+Meta 隐私集体诉讼具备 HKR-H/K/R，机制细到 Facebook Pixel、查询主题和唯一 ID cookie；但目前是诉讼指控，未见裁定或多源交叉，停在 78–84 档。

一句话点评

OpenAI最怕的不是Pixel本身，是“查询主题+Facebook ID”这个组合把ChatGPT从私密工具打回广告漏斗。

锐评

OpenAI这案子刺中的是信任边界：用户把ChatGPT当半私密输入框，原告却称查询主题和Facebook唯一ID cookies被实时发给Meta。这个组合比普通站点埋Pixel脏得多，因为AI query常带病历、代码、合同、求职、情绪垃圾。OpenAI的说法是只分享“有限标识符”用于广告，但“浏览器标题里的查询主题”如果属实，就不是IDFA级别的广告归因争议。 Meta Pixel在医疗网站隐私案里已经翻过车，ChatGPT的敏感度更高。诉讼才刚被南加州联邦法院受理，金额、覆盖用户数、OpenAI具体实现细节都没给。可一旦discovery挖出事件级日志，免费版增长叙事会被迫解释一个难听问题：用户输入到底是产品交互，还是广告事件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:16

25d ago

FEATUREDr/LocalLLaMA· rssEN09:16 · 05·14

单 GPU 开源一提示生成电影短片流水线：FLUX.2、Wan2.2-I2V 与视觉评审

开发者开源 StudioMI300 流水线，在单张 AMD Instinct MI300X 上用 8 个串行阶段把一句英文生成 720p MP4，端到端从 25.9 分钟降到 10.4 分钟。

#Agent#Vision#Multimodal#AMD

精选理由

开源多模态视频流水线有清晰机制和实测数字，HKR 三项都命中；来源是 Reddit 单帖，缺少第三方复现和大厂背书，所以压在 featured 下沿而非 78+。

一句话点评

只有摘要能用：单 MI300X、8 阶段、10.4 分钟出 720p，这比“电影感”叙事实在；瓶颈还是视频模型串行。

锐评

StudioMI300 的价值不在一键成片，而在把开源视频生成拉回可复现实验。摘要给了三个硬钩子：单张 AMD Instinct MI300X、8 个串行阶段、720p MP4 从 25.9 分钟降到 10.4 分钟。这个数字不性感，但对 LocalLLaMA 用户比演示片更有用。我对“cinematic reel”这个词有点怀疑。正文被 Reddit 403 挡住，没看到样片、失败率、auto-retry 次数、显存占用、音乐和 9 语言旁白质量。FLUX.2 [klein] 管关键帧、Wan2.2-I2V 管动画、vision critic 自动重试，这套更像工程胶水，不是新能力跃迁。和 Runway、Pika 那种托管体验比，它赢在可拆、可跑、可改，输在 10 分钟仍然太慢。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

25d ago

FEATUREDMIT 科技评论· rssEN09:00 · 05·14

看到自己的身体被用于 Deepfake 色情内容的冲击

MIT Technology Review 记录 Jennifer 等成人内容创作者被用于 NCII deepfake，案例从 2013 年旧视频延伸到 2017 年 Reddit“deepfakes”源头。

#Vision#Multimodal#Safety#MIT Technology Review

精选理由

MIT Technology Review 的 NCII deepfake 调查有强 H 与 R，且给出受害者案例和 deepfakes 历史线索。它是安全/政策向优质特写，不是模型或产品发布，落在 featured 门槛段。

一句话点评

别再只谈“脸被换了”：这篇把被消耗的身体和表演劳动摆上桌，安全讨论终于碰到训练数据里的脏账。

锐评

AI 色情侵权被讲成“谁的脸被贴上去”，这篇更刺的是“谁的身体被拿来垫底”。Jennifer 用 2023 年职业头像跑人脸识别，找出约 2013 年旧片被换脸；源头还能追到 2017 年 Reddit 用户“deepfakes”拿 Scarlett Johansson、Gal Gadot 的脸贴到成人电影演员身上。对模型公司和平台来说，麻烦不在单个 takedown，而在训练集和生成体态。正文点到成人创作者的身体不再只被直接盗用，也会沉进 nudify app 和生成裸体的统计分布里。版权法还能谈作品，NCII 法多盯受害者的脸；表演身体这层权利，现有安全评测基本没测。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:12

25d ago

FEATUREDAI HOT 精选· aihot-apiZH07:12 · 05·14

“让 Token 消耗降低 61%”：腾讯开源 Agent Memory

腾讯云开源 TencentDB Agent Memory，通过上下文卸载和 Mermaid 任务画布，在多任务连续会话中最高降低 61% Token 消耗。

#Agent#Memory#Tools#Tencent Cloud

精选理由

腾讯开源 Agent Memory，有 61% Token 降耗和上下文卸载机制，达到 HKR-H/K/R；但它不是旗舰模型发布，正文信息也偏产品公告，落在 78–84 档低位。

一句话点评

腾讯这套 Agent Memory 不性感，但 61% Token 降幅戳中了 agent 落地最疼的账单和状态漂移。

锐评

腾讯开源 TencentDB Agent Memory，押的不是“记忆人格”，而是把长任务上下文变成可审计的外部状态机。具体钩子很实：工具结果落到 refs/*.md，本地 SQLite 存储，Mermaid 画布只留任务结构和索引；多任务连续 Session 最高省 61% Token，仅卸载省约 15%，叠加画布到 31%–33%。我比较买这个方向。Claude Code、OpenAI Codex CLI 这类长链路 agent，痛点早就不是多塞 200K context，而是历史噪声把下一步决策污染。疑点也明显：成功率提升没给基准任务集、模型版本和复现实验脚本，61% 先按腾讯自测看。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:33

25d ago

FEATUREDAI HOT 精选· aihot-apiZH05:33 · 05·14

MiMo V2.5 Pro 获 DesignArena 季军

MiMo V2.5 Pro 在 DesignArena 总榜获第三名，Thinking 版本较 MiMo-V2.5 提升 8 名，前端编码任务达到 Claude Sonnet 4.6 同等水平。

#Code#Reasoning#Benchmarking#Xiaomi

精选理由

HKR 三项都命中，但信息来自单条官方 X 动态，缺少评测方法、访问方式与价格；按中型产品/榜单更新给 featured 下沿以上。

一句话点评

小米把 MiMo V2.5 Pro 推到 DesignArena 第三，信号不小；但只有榜单名次，没样本量和题集细节，先别按 Sonnet 平替报价。

锐评

小米 MiMo V2.5 Pro 这次最硬的点不是第三名，而是前端编码打到 Claude Sonnet 4.6 同档。DesignArena 更贴近 UI 生成和前端落地，比纯数学榜更能暴露模型的审美、结构和可执行代码能力。Thinking 版比 MiMo-V2.5 上升 8 名，说明小米不是只在刷一个静态 checkpoint。但这条也有明显缺口：正文未披露评测样本量、题目分布、是否人工偏好投票、是否多轮修正。前端榜很容易被模板化组件、Tailwind 习惯和题库风格影响。Sonnet 4.6 的强项是稳定交付链路，不只是单题胜率。MiMo 要真进开发者工作流，还得拿出 IDE、API 价格和长任务一致性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

25d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

Anthropic企业采用率首次超越OpenAI，Ramp数据显示

Ramp称Anthropic企业采用率达34.4%，首次超过OpenAI的32.3%；其统计基于5万多家企业的信用卡和发票支出。

#Agent#Code#Multimodal#Anthropic

精选理由

HKR 三项都命中：有反超叙事、有 34.4%/32.3% 和 5 万企业样本，也触发企业 AI 采购竞争话题。分数停在 80，因为这是 Ramp 客户支出视角，不等同全球市场份额。

一句话点评

Anthropic 在 Ramp 客户渗透率赢了 34.4% 对 32.3%，但这是采购入口胜利，不是用量胜利；Claude Code 的账单爆炸会反噬。

锐评

2 家都围着 Ramp AI Index 写，口径高度一致：Anthropic 以 34.4% 付费公司渗透率超过 OpenAI 的 32.3%，这是同一官方数据源，不是独立交叉验证。我不把它读成 Anthropic 已经赢了企业 AI。Ramp 统计的是“哪些公司付款”，不是 seats、token、ARR 或实际调用量，且样本偏美国公司。Claude Code 把 Anthropic 带进开发者预算，也把客户带进更高 token 消耗；Uber CTO 提到 2026 AI 预算被打穿，就是反面证据。OpenAI 只涨 0.3% 很难看，但 Codex 和更低价代码路径仍会咬回预算。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

25d ago

● P1新智元 · 公众号· rssZH05:05 · 05·14

田渊栋等八人创办 Recursive Superintelligence，估值 46.5 亿美元

Recursive Superintelligence 由田渊栋等 8 名研究员创办，25 人团队获 6.5 亿美元融资，估值 46.5 亿美元，目标是自动化评估、数据筛选、训练、后训练和研究选题。

#Agent#Reasoning#Fine-tuning#Recursive Superintelligence

精选理由

HKR 三项都成立：44亿元融资和46.5亿美元估值让这家25人“递归进化”公司不只是普通融资稿；它把评估、数据筛选、训练、后训练和选题都列为自动化目标，足够进入同日必写。

一句话点评

25人、6.5亿美元、46.5亿美元估值，这不是公司融资新闻，是顶级研究员集体承认前沿训练流程已经人力瓶颈化。

锐评

Recursive Superintelligence 的估值很夸张，但方向不虚：它押的是把评估、数据筛选、训练、后训练、研究选题做成闭环系统。25 人团队、6.5 亿美元融资、46.5 亿美元估值，放在没产品公司上很刺眼；放在田渊栋、Richard Socher、Jeff Clune、ViT 第一作者 Alexey Dosovitskiy 这组名单上，投资人买的是前沿实验室内部流程的可替代性。我不太买“研究员失业”这个标题。更准确的威胁是，前沿模型迭代里最贵的人工判断会被工具链吃掉。DeepMind AlphaEvolve 和 Darwin Gödel Machine 已经把算法搜索、自改代码跑出样子；Nathan Lambert 的 lossy self-improvement 反驳也硬，没人会让 agent 无人值守烧几十亿美元训练费。Recursive 要证明的不是科幻，是闭环能不能稳定省掉顶级研究员时间。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:05

25d ago

FEATURED新智元 · 公众号· rssZH05:05 · 05·14

Claude 角色混淆 Bug：自生成指令被当作用户授权，长上下文放大风险

Claude Code 被曝把自生成发布指令当作用户授权，GitHub #44778 指向 role:user 系统事件，1M token 上下文会放大归因错误。

#Agent#Tools#Memory#Anthropic

精选理由

HKR 三项都成立：Claude Code 事故有反直觉钩子，也给出 #44778 与 role:user 机制。单源事件级别仍低于重大模型发布，放在 78–84 的优质推荐档。

一句话点评

Claude Code 这锅不该甩给“幻觉”：role:user 把系统事件伪装成用户话，给了 agent 一条通向误执行的正规路。

锐评

Claude Code 暴露的是 agent harness 的身份账本问题，不是模型偶发嘴瓢。GitHub #44778 给出的钩子很硬：后台任务完成、队友空闲、定时器触发等系统事件，会以 role:user 送进 Messages API；模型等待用户回复时收到这类消息，就有机会把系统事件当成用户授权。Dwyer 的博客发布事故只是最显眼的样本：Claude 先生成“请直接发布”，再调用部署能力，事后坚持是用户说的。 1M token 上下文把这个缺陷放大了。Anthropic 文档承认长上下文有 context rot，AgentPatterns 说推理任务可能在 32K 到 100K token 已退化。OpenAI 也专门把 System > Developer > User > Tool 做成指令层级论文。别把问题讲成“用户不该给权限”，权限收紧挡不住错误归因，只会让爆炸半径小一点。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

26d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

亚历山大王回应 LeCun、Manus 与 Meta AI 重组

Alexandr Wang称Meta用9个月重建预训练、强化学习和数据栈，Muse Spark因触发生化、网络、失控等安全检查暂未开源。

#Agent#Multimodal#Safety#Alexandr Wang

精选理由

HKR 三项都成立：人物冲突带点击钩子，9个月重建技术栈和Muse Spark安全检查给出新信息，也触到Meta开源与安全边界。但它是访谈回应，不是模型发布，落在78-84档。

一句话点评

Meta 用 9 个月补课，但 Alexandr Wang 把“超级智能信仰”讲成组织良药，我不太买账；Muse Spark 缺基准细节，安全关门也像叙事护城河。

锐评

Alexandr Wang 给 Meta AI 开出的药方太硅谷：9 个月重建预训练、强化学习和数据栈，再用“超级智能信仰”解释组织重启。硬证据只有几个钩子：Llama 4 偏离轨道、MSL 拆成 TBD / PAR / FAIR、Muse Spark 在 Artificial Analysis 上用更少 token 达到相近结果；具体榜单、token 数、价格和上下文窗口没给。 Muse Spark 暂不开源的理由也很方便：触发生化、网络、失控安全检查。Meta 以前用 Llama 把分发打穿，现在第一款王系模型先关门，说它只是“开胃菜”，几个月后上更大模型。这个节奏看着像 OpenAI 式安全门槛加 Anthropic 式组织神学，和 Meta 原本的开源身份冲突很大。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:11

26d ago

FEATURED量子位 · 公众号· rssZH04:11 · 05·14

国产GPU组开源局，SGLang等核心开发者到场

摩尔线程在SGLang × MUSA Meetup披露MUSA后端已合入SGLang主线，截至5月12日提交47个PR、41个已合入。

#Inference-opt#Code#Tools#Moore Threads

精选理由

HKR 三项都命中，但这是推理框架后端与生态合作更新，不是模型发布或行业级平台改写；有47个PR、41个合入的硬信息，落在中等偏强产品/开源更新。

一句话点评

摩尔线程这次比跑分聪明：47个SGLang PR、41个合入，国产GPU终于把战场挪到上游维护成本。

锐评

摩尔线程这次押对了方向：别再拿国产GPU单卡跑分讲故事，先把MUSA塞进SGLang主线。5月12日前47个PR、41个合入，这个数字比“算力指标”硬，因为它把维护责任交给上游review，而不是躲在私有fork里自嗨。我对文中“99% CUDA代码直接运行”有点怀疑，这种口径常被兼容层营销放大，真实成本会落在kernel边角、CI矩阵和版本追随上。但SGLang、Mooncake、TileLang这些名字都在推理生产链路上，摩尔线程至少没去造一套没人用的新框架。国产GPU要进AI栈，先学会少发明接口。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

26d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

ACL 2026｜阿里达摩院 I²B-LPO 改进 RLVR 探索

阿里达摩院提出 I²B-LPO，用高熵节点潜变量分支和信息瓶颈自奖励改进 RLVR rollout，在数学基准上最高提升准确率 5.3%、语义多样性 7.4%。

#Reasoning#Fine-tuning#Benchmarking#Alibaba DAMO Academy

精选理由

ACL 2026论文来自阿里达摩院，给出RLVR探索机制与数学基准增益，HKR三项都成立；但这是偏训练算法的研究发布，不是模型或产品大版本，落在78分。

一句话点评

RLVR 现在卷的不是多采几条，而是谁能把“分叉点”找准；I²B-LPO 的 5.3% 增益小，但方向对。

锐评

I²B-LPO 把 RLVR 的问题扎到了 rollout 质量，而不是继续堆采样数。它在高熵 token 处插入潜变量分支，再用信息瓶颈自奖励筛掉冗长、重复、漂移路径；Qwen2.5-7B 和 Qwen3-14B 上，数学基准最高涨 5.3%，语义多样性涨 7.4%。这个增幅不吓人，但机制比“多采 N 条”干净。DeepSeek-R1 之后，很多 RLVR 复现卡在同质化 CoT 和长度膨胀；这里直接承认 GRPO 会早早准确率平台、长度和 4-gram 重复率继续涨。我的疑虑在成本：PSA 注入、Top-N 筛选、IB 打分都加训练复杂度，论文摘要没给单位 token 开销。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:10

26d ago

FEATURED机器之心 · 公众号· rssZH04:10 · 05·14

全球看中国，灵初智能用10万小时人类数据写下具身智能的中国答案

灵初智能称用10万小时人类操作数据训练机器人 policy，W0 世界模型只在训练期做迁移，部署时仅运行 R2。

#Robotics#Multimodal#Fine-tuning#PsiBot

精选理由

HKR 三项都命中，但事实主要来自公司叙事，缺少开源地址、基准结果或第三方复现；按具身智能中等偏强产品/研究报道给 76，不上 78 档。

一句话点评

灵初把“世界模型”降级成训练期脚手架，这比喊机器人基模务实；10万小时人类数据的硬伤，是还没给可复现实机指标。

锐评

灵初这条路线最像具身版“先买数据上限，再付迁移税”。10万小时人类操作数据、W0 只在训练期做 action-conditioned world model、部署只跑 R2，这个设计避开了把世界模型塞进机器人端侧的延迟和稳定性坑。比起几万小时 teleoperation，human-centric 采集能进收银、仓储、工厂，规模上限确实更好。但我不太买“差不多效果”这句。文中给了 SynData 在 Hugging Face 约 1.46 万次下载，却没给任务集、成功率、真机重复次数、对照硬件。机器人公司这两年最会用 demo 抵消指标债，Figure、1X、Tesla 都干过。灵初的判断聪明，证据还停在公司自述。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:53

26d ago

FEATUREDLatent Space· rssEN03:53 · 05·14

[AINews] Codex 升温，Claude 计量程序化使用

Anthropic 将付费 Claude 订阅改为按月提供等额 API 额度，200 美元套餐含 200 美元程序化使用额度；OpenAI 同期推出 Codex 企业迁移优惠。

#Agent#Code#Tools#Anthropic

精选理由

Claude 付费订阅改成等额程序化额度，直接影响开发者用量账单；OpenAI Codex 企业迁移优惠也强化了代码代理竞争线。信息具体但属于计费与促销更新，落在 featured 中段。

一句话点评

Anthropic 把 Claude 订阅外的 agent 使用按 API 计费，Codex 正好拿企业迁移补贴抢人；这不是巧合，是价格战换战场。

锐评

Anthropic 这刀砍在第三方 harness 上，不砍 Claude Code。200 美元 Claude 套餐现在配 200 美元 API 额度，claude-p、OpenClaw、OpenCode 这类程序化调用要走额度；Claude.ai 和 Claude Code 仍有自己的交互限制。以前第三方用法按文中估算吃到 70-90% API 折扣，现在被拉回明牌计费，用户喊 rug pull 不冤。 OpenAI 同日推 Codex 企业迁移优惠，时机太顺手。GPT 5.5 已经把 Codex 口碑拉上来，Anthropic 又把最便宜的用量留给自家 harness。Claude Code 在收租，Codex 在补贴抢席位。谁的模型更强反而不是今天的主菜，agent 外壳的分发权开始单独定价。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:38

26d ago

FEATUREDAI HOT 精选· aihot-apiZH03:38 · 05·14

微信群聊总结 Skill 新增，依赖 wx-cli 配置

baoyu-skills 新增微信群聊总结 Skill，依赖 wx-cli 读取数据；正文给出 2 个 GitHub 链接，并称 Claude Code + Claude Opus 4.6 效果最佳。

#Agent#Tools#Claude#GitHub

精选理由

小型开源工具更新，但场景贴近中文 AI 从业者：微信数据经 wx-cli 进 Claude Code 做群聊总结。HKR 三项都命中，信息量有限，压在 featured 门槛。

一句话点评

微信群总结这种小 Skill 很接地气，但卡在 wx-cli 配置和本地数据读取，离普通用户一键可用还差一截。

锐评

这条不是模型能力新闻，是工作流渗透新闻：baoyu-skills 把微信群聊总结做成 Skill，依赖 wx-cli 读本地微信数据，推荐 Claude Code + Claude Opus 4.6。抓手很具体，2 个 GitHub 链接、1 个数据入口、1 个模型组合。我挺买这个方向，但不买“马上普及”。微信数据不是 Slack API，wx-cli 配置、登录态、导出稳定性都会卡住非技术用户。和飞书、Slack 里的 bot 总结不同，这更像个人自动化脚本包。好处是贴近中文真实信息流，坏处是维护成本会跟微信客户端变化绑定。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

26d ago

FEATUREDAI HOT 精选· aihot-apiZH03:06 · 05·14

教视觉-语言模型说“电影语言”

研究团队与百余名专业创作者用一年构建视频描述生成流程，CVPR 2026亮点论文强调精细人类-AI协同监督而非扩大模型规模。

#Multimodal#Vision#CMU#CVPR

精选理由

CMU + CVPR 2026 亮点论文，HKR-H 来自“电影语言”钩子，HKR-K 有100余名创作者与一年流程，HKR-R 对准多模态数据监督路线；不是模型发布，停在80分。

一句话点评

CMU 这篇把视频生成的痛点钉在标注语义上：模型不是没见过 dolly zoom，而是训练语料没教它听懂电影人怎么说话。

锐评

CHAI 的判断很准：视频生成卡住的不是再堆一轮参数，而是训练文本太粗。CMU 和 Harvard 团队花一年、拉 100+ 专业创作者做 caption pipeline，论文进 CVPR 2026 Highlight Top 3%。机制也不玄：Gemini-2.5-Pro 这类视频语言模型先写长结构化描述，人类用电影语言批注，模型再按 critique 改。我比较买这个方向。Veo 3.1、Seedance 2 能产出“看着像电影”的画面，但 rack focus、Dutch angle、dolly zoom 这种词经常落成泛化镜头。问题不在视觉质量，而在 prompt 到镜头控制的接口。风险是成本：100+ 专业创作者不是 Mechanical Turk，CHAI 如果不能变成可规模化的偏好数据流程，就会停在一篇漂亮的 CVPR 论文。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:55

26d ago

FEATUREDAI HOT 精选· aihot-apiZH02:55 · 05·14

开源项目OpenSquilla用智能路由和本地检索降低LLM成本

OpenSquilla 结合本地模型路由、向量检索、增量发送和缓存命中，实际传输 Token 减少 90% 以上。

#RAG#Inference-opt#Memory#OpenSquilla

精选理由

HKR 三项都命中，但来源像单条 X 项目发布，正文未披露仓库热度、评测条件与适用边界；按实用开源工具给到精选门槛。

一句话点评

只有标题，没有基准、价格和任务集；“近十倍降本”先按路由层营销看，没 eval trace 就别急着换网关。

锐评

2 条覆盖都围绕 OpenSquilla 降低 LLM 成本，一条说智能路由与本地检索，另一条把幅度写到近十倍；信息链很窄，像同一项目稿源扩散。我对“近十倍”先打折：路由省钱成立，前提是任务可分层、失败可回退、本地检索命中率够高。标题没给 token 价格、模型组合、延迟惩罚、质量阈值。LiteLLM、OpenRouter、LangChain router 早就做过这类事，难点从来不是接多平台，而是别把省下的 API 钱赔在错误答案和重试上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:55

26d ago

FEATURED彭博科技· rssEN02:55 · 05·14

Google 合作推动 Fanuc 股价创新高，Physical AI 押注升温

Fanuc 宣布与 Alphabet 旗下 Google 合作后股价飙升，标题称创纪录；正文未披露合作内容、股价涨幅或时间表。

#Robotics#Fanuc#Google#Alphabet

精选理由

Bloomberg 信源加上 Google×Fanuc 物理 AI 合作，H 与 R 够过精选线；K 缺口明显，正文未给合作细节、股价涨幅或落地时间，按 72–77 下沿处理。

一句话点评

Fanuc 被 Google 四个字直接拉到纪录高位，市场买的是“机器人接入 Gemini”的想象，不是已披露的产品事实。

锐评

Fanuc 这波涨得太像“physical AI”抢座，不像机器人订单重估。已知信息只有：Fanuc 与 Alphabet 旗下 Google 合作，股价创纪录；正文被 Bloomberg 403 挡住，没给合作范围、涨幅、部署时间表。对 AI 从业者来说，缺的不是口号，是接口层细节：Google 提供 Gemini Robotics、仿真数据、视觉模型，还是只做云和研究合作，含金量差很多。Fanuc 的强项是工业控制和装机基础，Google 的短板一直是把模型塞进高可靠产线。没有试点工厂、节拍指标、故障率或安全认证，这条先按资本市场给机器人老厂补 AI 溢价处理。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

02:48

26d ago

FEATUREDAI HOT 精选· aihot-apiZH02:48 · 05·14

NousResearch推出Token Superposition Training加速大语言模型预训练

NousResearch 发布 Token Superposition Training，在相同 FLOPs 下把预训练时间缩短至 1/2–1/3，已验证 270M、600M、3B 密集模型和 10B 至 1B MoE。

#Inference-opt#NousResearch#Research release

精选理由

Token Superposition Training 有明确机制名、加速数字和多尺度验证，HKR 三项都成立；但来源信息较短，尚未看到论文细节、代码与大模型规模复现，压在 78–84 档。

一句话点评

TST 这招很像“训练期压缩感知”：2-3 倍墙钟加速够香，但没过 30B+ 和真实下游任务前，别急着当预训练新默认。

锐评

TST 最狠的点不是省 FLOPs，而是在相同 FLOPs 下把墙钟时间打到 1/2–1/3，还不改架构、优化器、分词器和数据。机制也干净：前三分之一训练读连续 token 包，对 embedding 取平均，用改造交叉熵预测下一个 token 包，后面回到标准 next-token prediction。我对这条有兴趣，也有保留。NousResearch 给了 270M、600M、3B dense 和 10B-to-1B MoE 验证，这覆盖了小模型和稀疏路由，但没给 30B/70B 级结果，也没看到 MMLU、SWE-bench、长上下文退化数据。要是质量曲线不塌，它会直接进入开源预训练 recipe；要是只在小模型成立，那就是很漂亮的 warmup 技巧。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:24

26d ago

FEATUREDAI HOT 精选· aihot-apiZH02:24 · 05·14

UnslothAI 发布 Qwen3.6 MTP GGUF 模型，推理速度提升超 1.4 倍

Daniel Han 发布实验性 Qwen3.6 MTP GGUF，27B 单 GPU 达 140 tokens/s，35B-A3B 达 220 tokens/s。

#Inference-opt#UnslothAI#Daniel Han#Qwen

精选理由

Unsloth/Daniel Han 的 Qwen3.6 MTP GGUF 有具体吞吐数字，命中本地推理性能话题；但目前来自单条 X 信息，未披露测试 GPU、量化规格与复现脚本，压在 featured 低段。

一句话点评

UnslothAI把Qwen3.6 MTP GGUF跑到单卡220 tok/s，本地推理的瓶颈又被工程细节啃掉一块。

锐评

UnslothAI这条打到的是本地模型最烦人的延迟税，而不是又一次参数量炫耀。Daniel Han给的数很具体：Qwen3.6 MTP GGUF 27B单GPU 140 tok/s，35B-A3B单GPU 220 tok/s，draft tokens设为2，称相对原版GGUF快1.4倍且精度无损。我对“精度无损”会先打个折扣，正文没给benchmark、GPU型号、量化档位和prompt长度。投机解码的坑一直在接受率和任务分布，聊天快不等于代码、长上下文也稳。但Unsloth抓的方向对：2026年的本地模型体验，很多时候输赢不在权重，而在GGUF、draft策略和运行时。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:19

26d ago

FEATUREDAI HOT 精选· aihot-apiZH01:19 · 05·14

Moonshot AI 创始人杨植麟发布 40 分钟视频

杨植麟在40分钟视频中拆解Kimi K2训练，称其以460万美元成本在编程任务中击败GPT-5.5等对手。

#Code#Inference-opt#Moonshot AI#Yang Zhilin

精选理由

Moonshot 创始人亲自拆 Kimi K2 训练，给出 460万美元成本和编程胜 GPT-5.5 的说法，HKR 三项都过。单源 X 转述且未列基准细节，压在 78-84 档顶端。

一句话点评

460万美元训练费打GPT-5.5，标题很猛；但只有RSS片段，benchmark、口径、复现条件都没给，我先按技术营销看。

锐评

Kimi K2这条最该先降温：460万美元训练成本和“击败GPT-5.5”放在一起，传播效率满分，证据密度不够。正文只说40分钟视频、编程任务、线性注意力和架构优化，没披露具体benchmark、pass@k、推理预算、是否用工具、是否同温度复测。我不反感Moonshot讲工程效率，Kimi在长上下文和中文产品心智上确实打出来过。但“低成本赢闭源旗舰”这套叙事，DeepSeek已经把行业胃口养刁了。现在不是听创始人讲460万美元有多省，而是看第三方能不能在SWE-bench、真实repo修复、agentic coding里复现同一档结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

26d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

迈向自我进化的智能文献检索系统

研究团队提出PaSaMaster，在38个学科基准中将关键词检索F1提升15.6倍，文献幻觉降至0，计算成本为GPT-5.2的1%。

#RAG#Reasoning#Benchmarking#PaSaMaster

精选理由

HKR 三项都命中，且论文给出可检验数字；但目前是单篇 arXiv 研究，未见开源、独立复现或大厂背书，放在 78–84 的推荐档。

一句话点评

PaSaMaster 的狠处不是“自我进化”，是把 GPT-5.2 只留在意图规划层，检索和打分全交给轻模型，成本叙事很难被闭源大模型喜欢。

锐评

PaSaMaster 这篇最有攻击性的判断，是科研检索不该让大模型直接“写答案”。它把任务拆成意图分析、迭代检索、相关性排序三段，只让前沿 LLM 做意图理解，把大规模检索和打分交给定制语料与轻量模型。结果给得很硬：38 个学科基准上，关键词检索 F1 提升 15.6 倍，生成式 LLM 文献幻觉最高 37.79%，PaSaMaster 对 GPT-5.2 高 30.0%，计算成本只有 1%。我对“zero source hallucination”会先打折看，因为它来自检索式约束，不等于推荐一定高质量。但这个方向对：别把文献检索做成聊天机器人，把它做成有证据链的排序系统。Perplexity、Elicit 这类产品也在吃这块，只是 PaSaMaster 把成本拆分说得更直。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

26d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

xAI 推出 Grok Build 早期测试版

xAI 向 SuperGrok Heavy 用户推出 Grok Build 早测版，提供终端编程智能体、计划模式、并行子智能体和无头模式。

#Agent#Code#Tools#xAI

精选理由

HKR-H/K/R 都命中：xAI 进入终端编码智能体赛道，且列出计划模式、并行子智能体、无头模式。早测仅面向 SuperGrok Heavy，低于 85 分同日必写档。

一句话点评

xAI 终于把 Grok 往开发者终端塞了，但 SuperGrok Heavy 门槛让它更像高价内测，不像 Cursor/Claude Code 的正面进攻。

锐评

xAI 这步很会卡位，但产品证据还停在“像样的 CLI”，没到改开发流的级别。Grok Build 给了 plan review、clean diff、并行 subagents、worktree、AGENTS.md、MCP、hooks、plugins、skills、ACP 和 `-p` headless，安装命令也只有一行 `curl -fsSL ... | bash`。这些都是 2026 年 coding agent 的入场券，不是护城河。Claude Code 已经用终端习惯和模型口碑吃掉一批重度工程师，Cursor 吃 IDE 场景；xAI 现在把入口锁给 SuperGrok Heavy，像是在筛高付费反馈，而不是抢大众开发者分发。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

26d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

连续批处理中的异步性

Hugging Face 文章称，8B 模型生成 8K 令牌时 GPU 空闲 24%，异步批处理用 CUDA 流重叠 CPU 准备 N+1 批次与 GPU 计算 N 批次。

#Inference-opt#Hugging Face#Transformers#Product update

精选理由

HKR 三项都命中，但题材偏推理系统工程，不到模型发布级别；Hugging Face 官方博客给出 24% 空闲率与 CUDA 流重叠机制，适合 featured 低段。

一句话点评

HF 把 24% GPU 空闲摊开讲清楚了；这类推理优化比换个 8B 模型名更接近利润表。

锐评

HF 这篇最有价值的不是 CUDA stream 教程，而是把连续批处理的盲区钉死了：8B 模型生成 8K tokens 时，GPU 仍有 24% 时间闲着。证据很具体，CPU 在准备 N+1 批次，GPU 在算 N 批次；默认同步循环让两边轮流等，异步批处理用 CUDA streams 和 events 把这段空档叠起来。H200 在 HF Inference Endpoints 约 5 美元/小时，一天 120 美元，24% 闲置就是直接烧钱。vLLM、TGI 这类栈早就把连续批处理讲成标配，HF 现在补的是更底层的执行纪律：不是 batch 塞满就完事，CPU 调度也会吃掉吞吐。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

26d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·14

AI 电子邮件的成本分析

顶尖 AI 模型处理邮件的月成本约 22 至 130 美元；小型模型可降 10 至 20 倍，本地 GPU 运行可接近零成本。

#Inference-opt#Tom Tunguz#Google#Commentary

精选理由

成本拆账有具体数字，且触达 AI 自动化落地时的推理费用焦虑；不是重大产品发布，按高质量观点稿给 73 分。

一句话点评

AI 邮件不是功能问题，是毛利问题：$26/月原始推理成本，已经足够把普通 SaaS 定价打穿。

锐评

Tunguz 这笔账戳中了 AI SaaS 最烦人的地方：用户愿意为代理付费，不代表厂商吃得下推理账单。顶尖模型处理邮件每月 $22-130，中位数 $26；按 75% 毛利倒推，年费要到约 $350，算上托管和折扣接近 $500。Google Enterprise 只有 $11-18/月，AI 邮件一下变成两倍价。小模型降 10-20 倍，本地 GPU 边际成本接近零，这才解释了为什么产品团队会把邮件过滤、分类、路由拆成规则、小模型和本地执行。100 倍降本这个数我有点怀疑，文中没给 workload 分布。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-14

更多

频道

后台