热点聚合 · 2026-05-03

▸ 20 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-03 · 星期日2026年5月3日

23:00

36d ago

FEATURED最佳拍档· atomZH23:00 · 05·03

Claude Code 降智的真正原因：Anthropic 复盘 3 个 Bug

标题称 Anthropic 复盘 Claude Code 降智，涉及 3 个 Bug。问题指向推理强度改动、缓存优化错误、系统提示词长度限制；正文未披露复现条件、时间线或修复状态。真正值得盯的是 AI 审查 AI 代码的工程边界。

#Code#Reasoning#Tools#Anthropic

精选理由

HKR 三项都命中，但正文只给出 3 类原因，未披露复现条件、时间线或修复状态；Claude Code 受众相关性强，仍停在 72–77 档。

一句话点评

只有标题和摘要，没复现条件、时间线、修复状态；但 Claude Code 降智若真卡在缓存和提示词长度，就是产品工程债爆了。

锐评

Claude Code 这次最刺眼的不是“降智”，是三个故障都落在工程接缝上。标题点名推理强度改动、缓存优化错误、系统提示词长度限制；摘要没给复现条件、时间线、修复状态，信息密度很低，但故障类型已经够难看。代码 agent 的可靠性常被包装成模型能力问题，实际线上最容易炸的是状态、缓存、提示词拼接、工具调用顺序。Anthropic 卖的是工程可信度，Claude Code 又是高频付费入口；如果连内部 AI 审查 AI 代码都挡不住这类回归，那“agentic coding”离可托管生产代码还差一层硬质 QA。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:16

36d ago

FEATUREDr/LocalLLaMA· rssEN22:16 · 05·03

5 年旧 6GB VRAM 笔记本运行 Qwen3.6-35B-A3B

Reddit 用户 abhinand05 在 5 年旧 Asus ROG Zephyrus G14 上运行 Qwen3.6-35B-A3B，接电约 23 t/s，未接电超 10 t/s。配置为 RTX 2060 Max-Q 6GB、24GB DDR4、Ryzen 7，并给出 llama-server 的 64k 与 128k 上下文参数。真正值得盯的是 CPU MoE、KV cache 量化与 ngram 推测解码组合。

#Inference-opt#Agent#Qwen#Asus

精选理由

Reddit一手实验有明确硬件、速度与上下文参数，HKR三项都成立；但样本是个人跑分，缺少可对照基准与更广影响，停在精选门槛上方。

一句话点评

6GB VRAM 跑 35B MoE 到 23 t/s，这不是玩具炫技，是本地推理栈把旧消费硬件又榨出一代寿命。

锐评

6GB VRAM 能跑 Qwen3.6-35B-A3B 到约 23 t/s，打脸的是“本地模型必须等新显卡”这套叙事。标题和摘要给出的硬件很寒酸：5 年旧 Zephyrus G14、RTX 2060 Max-Q 6GB、24GB DDR4、Ryzen 7；关键不是 35B 参数名，而是 A3B MoE 激活、CPU MoE、KV cache 量化、ngram 推测解码一起把瓶颈拆开。但这条也别吹成人人可复现。正文被 Reddit 403 拦住，只有摘要里的 llama-server 64k / 128k 参数，没看到量化格式、batch、prompt 长度、采样设置和功耗曲线。和 Ollama 一键跑 7B 不同，这更像 llama.cpp 玩家手调出来的上限样本。它证明本地推理的天花板在软件栈，不证明普通用户已经跨过门槛。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:59

36d ago

FEATUREDr/LocalLLaMA· rssEN21:59 · 05·03

AMD Strix Halo 刷新版传配192GB内存

Reddit 用户称 AMD Strix Halo 刷新版 Gorgon Halo 495 Max 传配 192GB 内存。帖文称单机 192GB 可跑近期 122B 模型的 q8 和接近完整上下文，但正文未披露带宽、价格和发布时间。

#Inference-opt#AMD#Reddit#Product update

精选理由

HKR 全中，但来源是 Reddit 传闻，且正文缺带宽、价格、发布时间。它适合进 all 做硬件线索，不够 72 分 featured。

一句话点评

只有 Reddit 标题链在传 192GB，正文被 403 挡住；但若 Strix Halo 真给到统一内存 192GB，本地推理盒子的瓶颈会从容量转向带宽。

锐评

2 条来源都来自 r/LocalLLaMA，口径一致指向 Ryzen AI Max+ 495 / Gorgon Halo 配 192GB，但正文 403，价格、带宽、发布日期、是否可量产都没露出来。这个信号先别当发布，只能当社区泄露链。我的判断很简单：192GB 若落地，AMD 抢的不是游戏本声量，而是本地 LLM 小工作站那批人。现款 Strix Halo 128GB 已能塞进不少 70B 量化模型，192GB 会把 Mixtral、Qwen 大 MoE 的本地实验空间再抬一档。问题也硬：LPDDR 统一内存给容量，不给 H100 那种带宽，长上下文和高并发照样卡。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:17

36d ago

FEATUREDr/LocalLLaMA· rssEN18:17 · 05·03

Gemma 4 E2B 在 8GB Android 手机上运行良好，作者做了本地语音笔记应用

Reddit 用户在 8GB OnePlus CE 5 上本地运行 Gemma 4 E2B，并做了私有语音笔记应用。Whisper Small 244MB 负责转写，Gemma 4 E2B 2.4GB 负责拆分和分类，10-15 秒语音端到端耗时约 12-15 秒。检索用查询扩展、多路 FTS、RRF 融合，可选 Gemma top-K 重排，超时 15 秒回退。

#Audio#Tools#RAG#Google

精选理由

HKR 全中，但来源是 Reddit 个人实验，不是 Google 正式发布。具体硬件、模型大小、延迟和检索机制足够有料，按高质量实测教程给 featured 门槛高位。

一句话点评

8GB 安卓机跑 Gemma 4 E2B 做语音笔记，这比云端 demo 更接近个人 AI 的真实入口。

锐评

8GB OnePlus CE 5 跑通这套链路，说明端侧 AI 的门槛已经低到能做日常工具了。Whisper Small 244MB 先转写，Gemma 4 E2B 2.4GB 再拆分和分类，10-15 秒语音端到端耗时 12-15 秒；这个延迟不优雅，但足够塞进语音笔记这种异步场景。我更买账的是检索设计，不是“本地运行”四个字。查询扩展、多路 FTS、RRF 融合、Gemma top-K 重排，再给 15 秒超时回退，这像工程师在手机上认真做产品，不像模型厂商拍性能视频。正文只有 Reddit 403，没法核验作者实测细节；但这类小应用会比端侧聊天机器人先跑出粘性。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:34

36d ago

● P1Hacker News 首页· rssEN17:34 · 05·03

奥斯卡禁止 AI 生成作品参评表演和编剧奖

奥斯卡禁止 AI 角逐表演和编剧奖，标题披露 2 类奖项。正文仅有 URL、15 分和 1 条评论，未披露规则文本、生效时间或执行机制。

#Safety#The Oscars#Policy

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 不足：现有正文只确认标题事实，没有规则原文或执行机制。娱乐奖项政策有讨论度，信息量停在 60–71 档。

一句话点评

奥斯卡把表演和编剧奖钉在人类署名上，AI 影视创业别再拿“小金人级虚拟演员”讲故事了。

锐评

2 家都把焦点放在“AI 生成演员和剧本不得参评”，口径高度一致，来源链看起来就是学院第 99 届奥斯卡规则。关键不是反 AI，而是把奖项资格绑定到“legal billing”“human-authored”和“human consent”三件事上，学院还保留索取 AI 使用信息的权利。我看这条更像劳动合同战场的延伸。2023 年编剧和演员罢工已经把 AI 克隆、署名、同意权打成红线；Tilly Norwood、AI 版 Val Kilmer 只是把问题推到台前。对生成视频公司来说，广告、预演、低成本内容还会跑，但表演和编剧的顶级声望市场先关门了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:52

36d ago

FEATUREDr/LocalLLaMA· rssEN16:52 · 05·03

PC x64 指令扩展能缓解 AI 硬件短缺吗？

Intel 和 AMD 联合公布 ACE x86 扩展，称每周期可做 1,024 次乘法。ACE 使用 2D tile 寄存器和外积算法，对比传统 AVX 的 64 次为 16 倍。正文称尚无支持 ACE 的硬件发布，实际功耗、框架适配和量产时间未披露。

#Inference-opt#Intel#AMD#Product update

精选理由

HKR 三项都成立：题眼把 CPU 指令集和 AI 硬件短缺连起来，正文给出乘法吞吐与 ACE 机制。分数未进 85，因为尚无硬件，功耗、框架适配、量产时间均未披露。

一句话点评

ACE 的 1024 次乘法/周期听着像 PC 端反击 GPU，先别嗨：没硬件、没功耗、没框架，离缓解算力荒还隔着量产。

锐评

ACE 现在更像 x86 阵营给开发者递的路线图，不是能缓解硬件短缺的产品。Intel 和 AMD 给出的钩子很硬：2D tile 寄存器、外积算法、每周期 1,024 次乘法，对传统 AVX 的 64 次是 16 倍。问题也同样硬：正文只有 Reddit 403，摘要说尚无支持 ACE 的硬件发布，功耗、框架适配、量产时间全没披露。AI 推理缺的从来不只是 MAC 数，内存带宽、KV cache、量化 kernel、调度栈都会吃掉纸面倍率。AMX 当年也不是一夜改掉 CPU 推理版图，ACE 先跑出 llama.cpp / PyTorch 的稳定 kernel，再谈 PC 端分流 GPU。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:59

36d ago

FEATUREDr/LocalLLaMA· rssEN13:59 · 05·03

本地 LLM 函数调用后端生成基准：GLM、Qwen、DeepSeek 对比

AutoBe 发布函数调用后端生成基准，称 qwen3.5-35b-a3b 在 DB/API 设计上接近 gpt-5.4。单个购物中心任务约 2亿至3亿 token，GPT 5.5 价格下每模型约 1000至1500 美元；下月仅测低于 0.25 美元/M 或 64GB 笔记本可跑模型。真正值得盯的是 n=4 项目和自评 harness 偏差。

#Agent#Code#Tools#AutoBe

精选理由

HKR 三项都命中，但 Reddit 来源、n=4 项目和自评 harness 偏差压低可信度；有具体成本与复现条件，刚过精选线。

一句话点评

只有摘要没有原帖，qwen3.5-35b-a3b“接近 GPT-5.4”的说法先打折；n=4 加自评 harness，太容易测到作者偏好。

锐评

qwen3.5-35b-a3b 被拿来贴近 GPT-5.4，我先按“有趣但未站稳”处理。摘要给的硬钩子很诱人：函数调用生成后端、DB/API 设计、单个购物中心任务吃 2亿至3亿 token，GPT 5.5 价格下每模型 1000至1500 美元。这种任务比 HumanEval 小题更像真实 agent 工作流。但原帖 403，正文未披露评分细则和失败样例；n=4 项目也太薄。AutoBe 自己做 harness、自己评 DB/API 设计，最容易把“符合框架预期”测成“能力接近闭源顶模”。下月只测低于 0.25 美元/M 或 64GB 笔记本可跑模型，这个筛选反而更实用。开源模型在工程性价比上能赢，但别急着把它讲成 GPT-5.4 对齐。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:31

36d ago

FEATUREDr/LocalLLaMA· rssEN13:31 · 05·03

RTX A5000 Pro Blackwell 48GB 显存规格公布

Reddit 用户讨论 RTX A5000 Pro Blackwell 48GB 用于微调和推理，标价约 4500 美元。发帖人称 48GB 可容纳 Qwen 27B Q8 带上下文，并对比更高一档约 9000 美元、RTX6000 约 7000 美元传闻。真正值得盯的是单卡显存，而非双 RTX 5090 拆分。

#Fine-tuning#Inference-opt#NVIDIA#Qwen

精选理由

这是本地 LLM 硬件成本话题，HKR 三项都命中：48GB 单卡、约 4500 美元、Qwen 27B Q8 容纳条件都有信息量。来源是 Reddit 讨论，正文未披露官方规格或实测数据，留在 60–71 档。

一句话点评

只有 Reddit 标题链给出 48GB，正文被 403 挡住；但 A5000 档位上 48GB，最刺痛的是本地推理卡住在显存税。

锐评

2 条覆盖都来自 r/LocalLLaMA，口径只给出“RTX A5000 Pro Blackwell 48GB”，正文 403，价格、功耗、带宽、上市日期都没法核验。这更像社区提前抓到规格图，而不是一次完整发布。我看重 48GB 这个数字。24GB 到 48GB 不是小升级，它决定本地跑 70B 量化、长上下文缓存和多模型切换时少多少妥协。问题也在这里：如果 NVIDIA 继续把 48GB 放进 Pro 定价带，而消费级 Blackwell 仍卡在 24GB/32GB，LocalLLaMA 这群人买的不是算力，是显存门票。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:55

36d ago

FEATUREDr/LocalLLaMA· rssEN12:55 · 05·03

Hummingbird+ 论文：低成本 FPGA 跑 Qwen3-30B-A3B Q4 达 18 t/s

Hummingbird+ 论文称低成本 FPGA 可让 Qwen3-30B-A3B Q4 以 18 t/s 生成。标题给出 24GB 内存和预计 150 美元量产成本，正文未披露 FPGA 型号、功耗或评测条件。

#Inference-opt#Qwen#Research release

精选理由

HKR 三项都中：钩子是150美元FPGA跑30B，信息点有模型、量化、速度、内存和成本。正文未披露功耗、FPGA型号与评测条件，技术可信度仍需论文细节支撑，放在79档。

一句话点评

150 美元 FPGA 跑 30B 的标题很香，但没 FPGA 型号和功耗，这更像社区硬件愿望单，不是可采购推理方案。

锐评

Hummingbird+ 这条先别按“低成本推理突破”庆祝。标题只给了 Qwen3-30B-A3B Q4、18 t/s、24GB、预计 150 美元量产成本，Reddit 正文被 403 挡住，FPGA 型号、功耗、batch、prefill 长度、内存带宽都没披露。18 t/s 如果是单用户 token-gen，能打很多边缘盒子；如果只算理想 decode，部署价值会缩水。FPGA 叙事这几年反复输给 GPU 和 Apple/NPU，不是因为不能跑，而是软件栈、量产板卡和调度工具跟不上。150 美元这个数尤其要警惕：BOM 价不等于到手价，更不等于 TCO。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:12

36d ago

FEATUREDr/LocalLLaMA· rssEN12:12 · 05·03

让 Claude Code 调用任意模型的 LLM 代理

DataNebula 发布开源 rosetta-llm，让 Claude Code 通过 1 个网关调用多家模型。它在 Anthropic Messages、OpenAI Chat、OpenAI Responses 间做线级转换，并用 signature 字段回传加密 reasoning。真正值得盯的是 thinking block 保真；作者称这能保住多轮 agent 的 prompt-cache 命中。

#Agent#Reasoning#Tools#DataNebula

精选理由

HKR 三项都命中，但来源是 Reddit 开源工具帖，正文未披露采用量、stars 或真实压测数据；按中量级工具更新给 73，不上 78。

一句话点评

只有摘要和 403，没有代码细节；但把 Claude Code 的 thinking block 保真搬到网关层，这刀切在 agent 成本和状态连续性上。

锐评

rosetta-llm 这个点不在“多模型网关”，而在它敢碰 Claude Code 的状态语义。摘要说它在线级转换 Anthropic Messages、OpenAI Chat、OpenAI Responses，还用 signature 字段回传加密 reasoning；正文被 Reddit 403 挡住，代码实现和缓存命中数据没披露。我对“保住多轮 agent 的 prompt-cache 命中”这句先打半个问号。LiteLLM、OpenRouter 这类网关早就能路由模型，但 agent 场景卡在 tool call、reasoning block、cache key 这些细节。若 rosetta-llm 真能无损搬运 thinking block，它卖的不是兼容性，是把 Claude Code 从 Anthropic 后端里拆出来。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

11:46

36d ago

FEATUREDr/LocalLLaMA· rssEN11:46 · 05·03

Upskill：Agent 启动前查询的技能注册表，索引 1 万+ 技能

Autoloops 发布 Upskill，给 Agent 提供 1 万+ 技能索引和开源注册表。检索采用 Postgres 全文搜索、1024 维向量和按 stars、安装量、社区反馈重排。安全侧在索引时做 LLM 对抗审查，已拦截数百个技能。

#Agent#RAG#Safety#Autoloops

精选理由

小团队开源发布，源头是 Reddit，自身影响力还未验证；但 1 万+ 索引、检索/重排机制和对抗审查给足 HKR-H/K/R，适合精选但不到 must-write。

一句话点评

只有摘要，没有 Reddit 正文；1 万+ 技能索引挺实用，但 agent 真缺的不是菜单，而是调用后怎么验收。

锐评

Upskill 押的是 agent 工具发现层，我觉得方向对，但别把 registry 当成能力跃迁。摘要给了 1 万+ 技能、Postgres 全文搜索、1024 维向量、按 stars / 安装量 / 社区反馈重排，还在索引时用 LLM 对抗审查拦了数百个技能；这些都是分发和过滤机制，不是执行可靠性。 MCP 过去一年把“工具可接入”推得很快，问题已经转到“工具调用后谁验收”。一个 agent 找到 Shell、浏览器、云 API 不难，难的是参数错了、权限过大、结果被污染时能停手。Upskill 若没有运行时 sandbox、权限模型和回滚日志，最后会变成 agent 版 npm search，热闹但容易把 supply-chain 风险搬进自动化链路。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:35

36d ago

FEATURED机器之心 · 公众号· rssZH05:35 · 05·03

CTO 不香了？百亿公司高管为何转去 Anthropic 当工程师

机器之心梳理了至少 6 名 CTO 转去 Anthropic 当个人贡献者的案例。名单含 Workday、You.com、Box、Super.com、Adept AI 等，时间集中在 2025 年 1 月至 2026 年 4 月。真正值得盯的是职业杠杆变化，不是单纯的 AGI 使命叙事。

#Agent#Code#Anthropic#Henry Shi

精选理由

这是一篇有明确样本的Anthropic人才流向观察，6名CTO转个人贡献者足够形成话题。它不是产品或模型发布，影响面低于硬新闻，落在精选门槛上方。

一句话点评

6 名 CTO 降级头衔去 Anthropic 写代码，这不是使命感胜利，是顶级模型公司把职业杠杆从管人改成管算力和产品面。

锐评

Anthropic 吸走 6 名 CTO 当个人贡献者，说明 AI 公司的权力中心正在从管理层级移到模型生产线。名单里有 Workday、You.com、Box、Super.com、Adept AI，时间压在 2025 年 1 月到 2026 年 4 月；这不是一两个创业者换赛道，是企业软件、搜索、协作、agent 公司的人一起投票。我不太买“AGI 使命感”这套包装。CTO 头衔在普通 SaaS 公司能管预算和路线图，在 Anthropic 的 IC 岗位可能直接碰 Claude 的 agent、code、infra 问题。过去一年 OpenAI、Anthropic、DeepMind 都在用模型平台吸高阶工程人才，头衔贬值，分发、算力、研究密度升值。正文被微信拦截，薪酬和具体岗位没披露；没有这些，不能把它讲成降薪追梦。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:06

36d ago

● P1新智元 · 公众号· rssZH05:06 · 05·03

两个月翻倍：Claude Code 推高 Anthropic 收入增速

Semi Analysis 称 Anthropic ARR 已达 440 亿美元，12 个月新增 350 亿美元。Claude Code 2026 年 2 月年化收入达 25 亿美元，推理基础设施毛利率从 38% 升至 70% 以上。真正值得盯的是企业用量、代码智能体收入和推理毛利能否一起留住。

#Agent#Code#Inference-opt#Anthropic

精选理由

HKR 全中：Semi Analysis 给出 Anthropic ARR、Claude Code 年化收入和推理毛利三组硬数字。不是模型发布，但直接改写外界对 Claude Code 商业化速度的判断。

一句话点评

只有标题和摘要，正文被微信验证挡住；若 Semi Analysis 的 440 亿美元 ARR 为真，Anthropic 已经从模型厂跳进企业软件收入怪物区。

锐评

440 亿美元 ARR 这个数太猛，猛到我先看口径。摘要称 Anthropic 12 个月新增 350 亿美元，Claude Code 2026 年 2 月年化收入 25 亿美元，推理毛利率从 38% 拉到 70% 以上；正文被微信验证挡住，没法核 Semi Analysis 的 ARR 定义、净留存、承诺收入占比。我的判断：Claude Code 才是这组数的硬钩子。代码智能体把 token 消耗变成高频工作流预算，跟 ChatGPT Pro 那种个人订阅不是一个账本。但 440 亿美元 ARR 若混入云承诺、预付、企业框架协议，质量会差一大截。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:06

36d ago

FEATURED新智元 · 公众号· rssZH05:06 · 05·03

斯坦福研究登 Nature：AI 从零设计 16 种噬菌体

斯坦福大学和 Arc Institute 用 Evo 设计 302 个噬菌体基因组，其中 16 个能感染、复制并裂解大肠杆菌。Evo 2 采用 StripedHyena 2 架构，上下文达 100 万碱基对；Evo-Φ69 在 6 小时内扩增 16 到 65 倍。真正值得盯的是生物安全边界：文中提到 1 个衣壳蛋白在已知生命中无同源物。

#Reasoning#Benchmarking#Stanford University#Arc Institute

精选理由

HKR 三项都强：标题钩子是 AI 生成可复制噬菌体，正文给出 302/16/100 万碱基对等数字，也踩中生物安全神经。分数停在 82，因为它仍是 AI+生命科学论文，缺少直接落到 AI 产品或开发者工作流的机制。

一句话点评

Evo 不是又一个蛋白质生成秀；302 个设计里 16 个活了，生物安全讨论该从模型卡进实验台了。

锐评

302 个 AI 设计噬菌体基因组里有 16 个能感染、复制并裂解大肠杆菌，这已经不是“生成看起来像”的论文。Evo 2 用 StripedHyena 2，把上下文拉到 100 万碱基对；Evo-Φ69 在 6 小时内扩增 16 到 65 倍。最刺眼的是 1 个衣壳蛋白在已知生命中无同源物，说明模型踩到了自然库外的可行结构。我不买“超越 AlphaGo”这个标题。AlphaGo 是封闭棋盘，噬菌体是可复制系统。Nature 论文若只给成功率和表型，筛选失败路径、合成门槛、序列过滤规则没同步公开，开源生物模型的安全边界就会比语言模型更难补。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

05:06

36d ago

FEATURED新智元 · 公众号· rssZH05:06 · 05·03

Google Vantage 用 AI 角色测压下协作与冲突处理

Google Research 联合纽约大学验证 Vantage，188名18-25岁美国测试者完成冲突解决和项目管理评估。系统用四层多智能体流程生成场景、扮演施压角色、提取行为、按rubric评分，AI与专家一致性接近专家间0.45-0.64 Kappa。真正值得盯的是量表驱动评估能否跨文化迁移，正文称目前仍是Google Labs研究实验。

#Agent#Benchmarking#Google Research#New York University

精选理由

Google Research与NYU的Vantage是有机制和数据的研究发布，不是空泛概念。样本限于188名18-25岁美国受试者，且仍是Google Labs实验，所以停在精选低段。

一句话点评

Vantage 把“抗压做人”做成 Kappa 量表，这比又一个聊天榜单狠；但 188 名美国年轻人样本，离可用招聘工具还远。

锐评

Vantage 最狠的地方，是把软技能评估拆成可审计流水线，而不是让模型凭感觉打分。Google Research 和 NYU 用 188 名 18-25 岁美国参与者，测冲突解决和项目管理；四层多智能体流程负责造场景、施压、抽取行为、按 rubric 评分，AI-专家一致性贴近专家间 0.45-0.64 Kappa。我不买“这就能测人”的外溢叙事。Kappa 接近专家，只说明它学会了这套量表的判分边界；跨文化、年龄、职场层级迁移都没被验证。HireVue 当年吃过“自动化面试”的信任亏，Vantage 现在还是 Google Labs 实验，拿去做人事筛选会很脏。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:16

37d ago

FEATURED量子位 · 公众号· rssZH03:16 · 05·03

DeepSeek V4 最大的遗憾

DeepSeek V4 技术报告未纳入 Engram，正文列出 mHC、CSA、HCA、Muon、FP4 等模块。Engram 1 月由 DeepSeek 与北大开源，在 Transformer 第 2 层到第 15 层插入查表模块，27B 实验中 MMLU 提升 3.4、Multi-Query NIAH 升至 97.0%。真正值得盯的是条件记忆的工程化，CXL 论文在 8 台服务器共享 4TB 内存池时吞吐损失低于 5%。

#Memory#Inference-opt#Reasoning#DeepSeek

精选理由

HKR 三项都成立：标题有缺席 Engram 的反差，正文给出层位、指标和 CXL 内存池数字。它更像技术解读而非 DeepSeek V4 发布本身，停在 78–84 档。

一句话点评

DeepSeek V4没写Engram，反而让这条更刺眼：查表记忆如果能跑进CXL内存池，长上下文路线会被迫降价。

锐评

DeepSeek V4 把 Engram 留在报告外，我看着像刻意降温。摘要里列了 mHC、CSA、HCA、Muon、FP4，却没收 1 月和北大开源的 Engram；这个模块插在 Transformer 第 2 到第 15 层，27B 实验把 MMLU 拉高 3.4，Multi-Query NIAH 到 97.0%。更关键的证据是工程侧：CXL 方案让 8 台服务器共享 4TB 内存池，吞吐损失低于 5%。如果这组数能复现，长上下文不再只靠 KV cache 硬堆，Claude / Gemini 那套大窗口溢价会很难讲。正文被微信验证挡住，完整实验细节没法核。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:16

37d ago

FEATURED量子位 · 公众号· rssZH03:16 · 05·03

GS-Playground 具身智能仿真框架开源，支持高吞吐 3DGS 渲染

清华 AIR DISCOVER Lab 等开源 GS-Playground，论文被 RSS 2026 录用。RTX 4090 上 640×480 渲染最高 10000 FPS，最多并行 2048 场景；50 个人形机器人基准达 1015 FPS。真正值得盯的是 3DGS 批渲染与物理并行的耦合。

#Robotics#Vision#Multimodal#Tsinghua AIR

精选理由

开源框架有 RSS 2026、RTX 4090 10000 FPS、2048 并行场景等硬指标，HKR-H/K/R 都成立。题材偏具身仿真，受众窄于通用模型发布，压在 78–84 档。

一句话点评

只有摘要可用，GS-Playground 的 10000 FPS 很香；但没任务成功率，仿真吞吐还不能自动兑换成机器人能力。

锐评

GS-Playground 这条别按“又一个仿真框架”扫过去，10000 FPS@640×480 和 2048 并行场景把瓶颈推到数据闭环。摘要称 RTX 4090 单卡可跑 50 个人形机器人 1015 FPS，还把 3DGS 批渲染和并行物理绑在一起；这比单纯换渲染器更接近具身训练要的规模。我有点怀疑的是评测口径。正文被微信验证码挡住，没看到任务成功率、接触物理误差、动态遮挡、相机噪声这些条件。Isaac Gym 当年也靠并行物理刷高吞吐，最后难点还是 sim-to-real 缝隙。GS-Playground 先解决“看得快”，还没证明“练得准”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:24

37d ago

FEATUREDHacker News 首页· rssEN01:24 · 05·03

马里兰州率先禁止杂货店用 AI 涨价

马里兰州禁止杂货店用 AI 驱动涨价，标题确认其为首个州。正文仅有 RSS 信息，未披露法律条文、执行日期或处罚机制。AI 从业者真正该盯的是动态定价与监管边界。

#Maryland#Policy

精选理由

NYT 标题给出“Maryland 首个禁止 AI 驱动杂货涨价”的清晰政策事实，HKR 三项都过线。正文只有 RSS 信息，缺法律条文、执行日期与处罚机制，只能放在 featured 门槛。

一句话点评

马里兰把 grocery surveillance pricing 直接罚到 1 万/2.5 万美元，AI 定价从增长黑客变成合规雷区。

锐评

马里兰这刀砍得很准：不是禁动态定价，而是禁用个人数据给同一商品涨价。Protection From Predatory Pricing Act 10 月 1 日生效，覆盖杂货店和 DoorDash 这类第三方配送，首次违规罚 1 万美元，重复违规 2.5 万美元。这里的边界比“AI 作恶”清楚得多：同店、同时间、同商品，因为住址或画像多收钱，就进处罚区。对 AI 定价团队来说，这会逼产品拆开库存定价、时段定价、会员券、个体画像四条线。纽约 2025 年先做披露，马里兰直接上禁令；EPIC 说 33 个州已有相关法案。别把它看成零售小法案，个性化价格这套在出行、外卖、广告出价里都跑过。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:08

37d ago

FEATUREDr/LocalLLaMA· rssEN01:08 · 05·03

Mac 本地图像生成：10 个模型对比

Reddit 用户在 M1 Max 64GB 上测试 10 个图像生成模型。Qwen-Image Lightning 8 步蒸馏版质量高于全量模型，耗时 10 分钟对 93 分钟。Flux dev 写实最强但偏英语文化，Gemini 汉字和日语语境更准但需云端。

#Multimodal#Vision#Benchmarking#Qwen

精选理由

这是带数字的一手实验，不是常规模型公告；HKR-H 来自 10 模型同机对比，HKR-K 有耗时与质量差异，HKR-R 命中本地生成用户的硬件与云端取舍。单个 Reddit 样本限制了权威性，落在 78。

一句话点评

M1 Max 跑图这条最刺眼的是蒸馏：Qwen-Image Lightning 8 步 10 分钟赢全量 93 分钟，Mac 本地生成开始像工程选择了。

锐评

Mac 本地图像生成的门槛被蒸馏模型打穿了，不是被更大的模型打穿。M1 Max 64GB 上，Qwen-Image Lightning 8 步蒸馏版用 10 分钟出图，质量还高过 93 分钟的全量 Qwen-Image；这个差距足够让个人工作流从“能跑”变成“愿意等”。我对 Reddit 单帖 benchmark 仍然打折，提示词、采样器、量化、分辨率正文都没披露完整。可方向很清楚：Flux dev 仍占本地写实优势，但英语文化偏置会卡住非英语场景；Gemini 汉字和日语语境更准，却把数据和成本交给云端。Mac 本地派现在拼的不是峰值画质，是十分钟内可复现的够用结果。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:30

37d ago

● P1Hacker News 首页· rssEN00:30 · 05·03

OpenAI o1 在哈佛急诊分诊研究中诊断准确率为 67%

OpenAI o1 在急诊分诊试验中正确诊断 67% 患者，分诊医生为 50–55%。标题给出 Harvard 试验背景，RSS 正文未披露样本量、病例类型和评估流程。AI 从业者真正该盯的是测试条件，而不是单个准确率差值。

#Reasoning#Benchmarking#OpenAI#Harvard

精选理由

HKR 三项都命中：高风险医疗场景有强钩子，67% vs 50–55% 提供可讨论数字，触到安全与职业边界。正文未披露样本量、病例类型和评估流程，分数压在高质量档而非 P1。

一句话点评

o1 急诊分诊 67% 对 50-55%，标题很猛；但这类研究最怕把“诊断题”包装成“急诊可用”。

锐评

两家都抓住同一组数字：OpenAI o1 诊断准确率 67%，两名分诊医生为 50-55%，这更像围绕哈佛研究的集中传播，而非各自独立验证。我的判断很简单：这条对模型能力是加分，对医疗落地还不够。急诊分诊不是只答对疾病名，还要处理缺信息、责任链、误诊成本和患者流转。o1 在静态病例题上赢 12-17 个百分点，足够让医院信息科认真测试；但正文未披露样本量、病例构成、实时交互和安全兜底，我不买“AI 已经胜过急诊医生”的叙事。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-03

更多

频道

后台