热点聚合 · 2026-05-17

▸ 21 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-17 · 星期日2026年5月17日

22:57

22d ago

FEATUREDr/LocalLLaMA· rssEN22:57 · 05·17

在混合 Blackwell/Ada 集群上基准测试 vLLM、SGLang 与 llama.cpp

作者在7卡混合 Blackwell/Ada 集群测试长上下文预填充，vLLM 在397B、75k tokens 条件下达9.8秒 TTFT、7683 t/s，llama.cpp 为57.2秒、1319 t/s。

#Inference-opt#Benchmarking#vLLM#SGLang

精选理由

这是单源 Reddit 基准，来源权威性一般；但 7 卡混合集群、397B、75k tokens 与明确 TTFT/吞吐数据让 HKR 都成立，按低位 featured 处理。

一句话点评

vLLM 在 7 卡混插上赢得太狠，长上下文预填充的瓶颈已经从模型转到执行图和层切分。

锐评

vLLM 这组数把本地多卡推理的脏活摊开了：异构卡不是不能跑大模型，是引擎别把流水线切烂。Qwen3.5-397B-A17B、75k tokens、7 卡混 Blackwell/Ada 下，vLLM 做到 9.8s TTFT、7683 t/s；llama.cpp 是 57.2s、1319 t/s，差距接近 6 倍。关键钩子不是“vLLM 更快”，而是 VLLM_PP_LAYER_PARTITION 手动层分配能吃掉 4090 FP4 emulation 的慢速段。SGLang 在纯 Blackwell 的 Qwen3.5-122B 上只慢 0.3s，但混入 Ada 直接崩，因为 FP4 没软件 fallback。这个结果很 Reddit，单作者、单拓扑、没复现实验；但对想拿二手 4090 拼 397B 的人，已经够刺耳。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:22

22d ago

FEATUREDr/LocalLLaMA· rssEN22:22 · 05·17

Android 上运行 LLM：Snapdragon 8 Elite 的 MoE 体验

Reddit 用户在 24GB RAM 的 Honor Magic 7 Pro 上测试 MoE LLM，Q4 量化下 LFM2-24b-a2b 约 24 token/s，Gemma 约 11 token/s，当前 CPU 推理仍快于 NPU/GPU。

#Inference-opt#Benchmarking#Qualcomm#Honor

精选理由

HKR 三项都命中：这是具名 Reddit 实测，有硬件、量化与 token/s 数字；但样本单一、来源权威性弱，压在精选低段。

一句话点评

只有摘要，没有原帖细节；24GB 安卓机上 Q4 MoE 跑到 24 tok/s，端侧 LLM 的瓶颈更像运行时，不是参数量。

锐评

24 tok/s 的 LFM2-24b-a2b 已经把安卓端侧推理拉进可用区，别再只拿“手机跑不动大模型”当默认前提。摘要给出的条件很硬：Honor Magic 7 Pro、Snapdragon 8 Elite、24GB RAM、Q4 量化，Gemma 约 11 tok/s，MoE 模型反而跑到约 24 tok/s。有意思的是 CPU 仍快过 NPU/GPU，这点比 token 数更刺眼。Qualcomm 的 AI Engine 卖点讲了很久，但 LocalLLaMA 这类实测常撞在内存调度、算子覆盖、runtime glue 上。原帖被 403，batch、上下文长度、温度、具体后端没披露；我会把它看成端侧 MoE 路线的正信号，也会对“NPU 会接管手机 LLM”这句营销话打个折。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:37

22d ago

FEATUREDHacker News 首页· rssEN15:37 · 05·17

Show HN：Semble，用于 Agent 的代码搜索比 grep 少用 98% token

MinishLab 开源 Semble，用 Model2Vec、BM25、RRF 和重排做代码搜索，在 63 个仓库基准中比 grep+read 少用 98% token，CPU 查询约 1.5ms。

#Agent#Code#Embedding#MinishLab

精选理由

Semble 不是常规代码搜索发布，98% token 降幅、63 仓库基准和 1.5ms CPU 查询给了可验证抓手；HKR 三项命中，但影响范围仍限于 agent 编码工具链，未到同日必写。

一句话点评

Semble 把 agent 代码检索问题从“大上下文硬塞”拉回信息检索；98% token 省幅很狠，但 grep 基线也太好打。

锐评

Semble 的价值不在“比 grep 聪明”，而在把代码 agent 的上下文预算砍到可控范围。它在 63 个仓库基准里报出 98% token 减少、0.854 NDCG@10、CPU 查询约 1.5ms，用的是 Model2Vec、BM25、RRF 和重排这套老派但稳的检索链。我不太买“grep+read”这个对手。Cursor、Claude Code、Sourcegraph Cody 早就不是裸 grep 路线，真实对比该打 repo map、AST 索引、LSP 符号检索。Semble 这条仍然有用：agent 写代码的瓶颈经常不是模型推理，而是每一步把垃圾上下文喂进去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:26

22d ago

FEATUREDr/LocalLLaMA· rssEN15:26 · 05·17

MiroThinker-1.7 开源权重深度研究 Agent，基于 Qwen3 MoE

MiroMindAI 发布 MiroThinker-1.7-deepresearch 与 mini API，mini 为 30B 总参数、3B 激活，权重已上 HuggingFace，并采用滑窗 K=5 加 episode 重启的上下文管理。

#Agent#Reasoning#Tools#MiroMindAI

精选理由

HKR 三项都成立，但来源是 Reddit 讨论且主体不是一线实验室；它有开源权重、MoE 参数与上下文管理机制，适合精选，不到同日必写。

一句话点评

只有标题和摘要；MiroThinker-1.7 mini 把 deep research 压到 30B/3B active，关键不在开源姿态，在家用卡 tok/s 是否够用。

锐评

MiroThinker-1.7 mini 的卖点很明确：30B 总参数、3B 激活、Qwen3 MoE 底座、权重上 HuggingFace。这个组合不是拼榜单，而是把 deep research agent 往本地可跑压。滑窗 K=5 加 episode 重启，也说明它承认长程任务会爆上下文，只是用工程手段续命。正文被 Reddit 403 挡住，没看到 benchmark、tool 成功率、显存占用和 tokens/s。LocalLLaMA 用户问消费级硬件速度，问到点上了。DeepSeek-R1-Distill、Qwen3 系列已经把“能跑”门槛打低；MiroThinker 要赢，不能只说 open-weight，得在 24GB/48GB 卡上证明 research loop 不会慢成演示视频。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:00

22d ago

● P1彭博科技· rssEN14:00 · 05·17

Apple新版Siri应用将支持自动删除聊天记录

标题已给出 Apple 类 ChatGPT Siri 应用将支持自动删除聊天，正文只披露 iOS 27 将有 Genmoji 升级，未披露保留周期、发布时间或功能细节。

#Agent#Multimodal#Apple#Siri

精选理由

Bloomberg 来源给了 Apple Siri 改造的可信度，H 与 R 成立；但正文关键参数缺失，K 不足，只能放在 72–77 的 featured 门槛。

一句话点评

3 家都只露标题，Apple 把 Siri 聊天做成可自动删除，我看更像隐私防守，不像模型能力追赶。

锐评

3 家同时跟进 Siri 自动删除聊天，但正文只剩 Bloomberg 标题，Verge 和 TechCrunch 也在标题里加了 reportedly / could。这个口径很像同一条供应链或爆料链扩散，不是三家独立拿到产品细节。我对这条的判断很冷：Apple 先把记忆风险关进笼子，再谈 ChatGPT-like Siri。自动删除能降低审计、家庭设备共用、企业合规的麻烦，却也会削弱长期个人化。OpenAI 和 Anthropic 都在把记忆、项目、历史上下文做成黏性，Apple 反着走，说明它还在用隐私品牌给 Siri 补位。pricing、上线日期、保留周期、是否默认开启，标题均未披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:18

22d ago

FEATUREDr/LocalLLaMA· rssEN11:18 · 05·17

85 GPU 小时对比 Qwen3.6-27B 的 5 种 abliteration 方法

Abliterlitics 用 85 GPU 小时对比 Qwen3.6-27B 的 5 个去审查变体；Huihui 基准跌幅最小，Heretic KL 散度最低，5 个变体都接近完全移除安全拒答。

#Safety#Benchmarking#Interpretability#Qwen

精选理由

HKR 三项命中：85 GPU 小时、5 种方法和 Qwen3.6-27B 提供可讨论证据。主题偏开源安全圈，未到模型发布级影响，落在精选门槛。

一句话点评

85 GPU 小时把“去审查”做成了可复现实验；开源安全现在怕的不是越狱提示词，是权重层面的批量拆闸。

锐评

Abliterlitics 这组实验刺痛点很准：安全拒答一旦能用 5 种方法批量移除，alignment 就从产品策略掉回权重治理。标题给出 85 GPU 小时、Qwen3.6-27B、HarmBench、KL 散度和 weight forensics；摘要还说 5 个变体都接近完全移除安全拒答，Huihui 基准跌幅最小，Heretic KL 最低。正文被 Reddit 403 拦住，我没看到具体分数、样本量和复现实验脚本。可这个方向已经够硬：比起讨论某个模型“拒不拒答”，社区正在比较哪把刀切得更干净。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:22

22d ago

● P1量子位 · 公众号· rssZH10:22 · 05·17

蔚蓝科技发布BabyAlpha A3四足机器人，搭载国产异构芯片

蔚蓝科技发布BabyAlpha A3，采用6芯片异构集群，本地运行70亿参数模型达280TPS，预计Q3上市。

#Robotics#Inference-opt#Multimodal#Weilan Technology

精选理由

这是带实测口径的边缘机器人产品更新，6芯片异构集群、7B本地280TPS、Q3上市给了可核对信息；但单源摘要未给价格、功耗与对照基准，分数压在featured下沿。

一句话点评

3 家都用“掀翻英伟达”叙事，但正文只剩微信验证页；70 亿模型、1000 倍算力、1/10 成本这组数先别照单全收。

锐评

3 家标题高度一致，都把 BabyAlpha A3 写成国产异构芯片对 Jetson Thor 的挑战，说明这更像统一传播口径，不是各家独立拆机结论。具体钩子很猛：70 亿模型跑通、算力提升 1000 倍、成本仅 1/10，但正文只有微信环境异常页，没给芯片型号、功耗、TOPS、内存带宽、端侧延迟。我不买“拱翻英伟达”这套标题。Jetson Thor 的难点从来不是峰值算力海报，而是 CUDA、TensorRT、驱动、传感器栈和量产稳定性。四足机器人能跑 7B 是进展；能不能替代 Jetson，要看同一任务、同一功耗、同一散热下的连续运行。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:22

22d ago

FEATURED量子位 · 公众号· rssZH10:22 · 05·17

无需构造偏好对：TGO 用标量反馈对齐视觉生成模型｜ICML 2026

NUS 提出 TGO，用分数分布阈值把标量反馈转成正负更新，并在 ICML 2026 接收；实验覆盖 Stable Diffusion v1.5、FLUX、Wan 1.3B 和 Meissonic。

#Fine-tuning#Alignment#Vision#NUS

精选理由

ICML’26 论文有明确机制与实验对象，且“标量反馈替代偏好对”对视觉生成对齐有实践吸引力；影响面仍偏研究圈，未到同日必写级别。

一句话点评

TGO 把视觉生成对齐从“造偏好对”拉回标量分数，但中位数阈值这类全局近似太粗，产品反馈一脏就会带偏。

锐评

TGO 的价值不在 ICML 2026 标签，而在它承认视觉生成的反馈天然是分数，不是 winner/loser。它用分数分布阈值定正负方向，再用离阈值距离定训练权重；实验覆盖 Stable Diffusion v1.5、FLUX、Wan 1.3B、Meissonic，比只在单个 diffusion backbone 上刷分更像真方法。我不太买账的是“新范式”这个说法。PMPO 已经在松开 unpaired positive/negative，QRPO 也在处理 pointwise absolute reward；TGO 更像视觉侧的工程化折中。全局 threshold 近似 oracle baseline 很省事，也会吃掉 prompt 难度、风格偏好、打分器偏差这些分布差异。分数源一偏，pseudo-negative 会把少数审美直接压掉。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:04

22d ago

FEATUREDAI HOT 精选· aihot-apiZH10:04 · 05·17

微软 AI CEO 预测 18 个月内 AI 自动化所有白领工作

Mustafa Suleyman 预测 AI 将在 18 个月内达到人类水平，并自动化会计、法律、营销和项目管理等多数专业任务。

#Agent#Reasoning#Microsoft AI#Mustafa Suleyman

精选理由

Mustafa Suleyman 的18个月白领自动化预测有强话题性，也给出可检验时间表；分数压在78–84档低位，因为正文只给判断，未披露能力证据、路径或基准。

一句话点评

Suleyman 把“18个月替代白领”喊满了，但正文没有评测、成本和部署条件；这更像 CEO 叙事压力测试，不像能力路线图。

锐评

Suleyman 的“18个月自动化所有坐电脑前工作”判断太满，证据链太短。正文只给出会计、法律、营销、项目管理四类任务，没有披露评测基准、错误率、责任边界、企业部署成本。白领工作最难的部分不是生成文档，而是拿上下文、背锅、跨系统执行。过去一年 agent demo 很多，真正卡住的仍是权限、审计、长程可靠性和组织接受度。微软 AI CEO 讲“超级智能”不奇怪，奇怪的是把时间压到 18 个月。OpenAI、Anthropic、Google 都在把模型塞进 Office、IDE、客服和数据分析流，但“任务自动化”到“岗位完全取代”中间隔着采购、合规和责任链。这个说法我不买账，除非他拿出可复现的企业级 agent 成功率。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:51

22d ago

FEATUREDAI HOT 精选· aihot-apiZH07:51 · 05·17

研究揭示 LLM 智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构发现，LLM 智能体反复重写记忆会损害可靠性，GPT-4 在小型 ARC-AGI 测试中由无记忆 100% 降至流式记忆约 54%。

#Agent#Memory#Reasoning#University of Illinois

精选理由

HKR 三项都命中：记忆越写越差有反直觉钩子，GPT-4 在小型 ARC-AGI 从 100% 跌到约 54% 给出可讨论数字。受限于单篇研究与小型测试，不到同日必写级别。

一句话点评

记忆层不是白送的上下文压缩；GPT-4 小型 ARC-AGI 从 100% 掉到 54%，说明“自我反思日志”会把智能体带偏。

锐评

智能体记忆这条路被包装得太顺了，伊利诺伊大学和清华这组结果直接打脸：LLM 把经历改写成“教训”后，可靠性下降，不是上升。具体钩子很硬，GPT-4 在小型 ARC-AGI 问题集里，无记忆是 100%，流式更新记忆后约 54%。问题不在“有记忆”，在用模型反复压缩原始经历。网页购物、模拟世界、ARC 风格任务里，错误分组、规则过度泛化、过拟合都会进记忆库。很多 agent 框架把 reflection 当默认模块，我一直不太买账；原始轨迹才是证据，摘要只是索引，反过来就会污染策略。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:23

22d ago

FEATUREDAI HOT 精选· aihot-apiZH07:23 · 05·17

Grok Imagine 图像生成功能正式发布

Grok Imagine 已在 X 上线，向所有用户开放，支持文本生成逼真图像和多种宽高比；正文未披露模型参数、价格和地区限制。

#Multimodal#Vision#Grok#X

精选理由

HKR 三项都过，但正文只给可用范围和基础能力，未披露模型、价格、地区限制；按中量级产品更新给 featured 门槛分。

一句话点评

Grok Imagine 面向 X 全量开放，但没给价格、地区和模型细节；这更像分发冲锋，不像能力摊牌。

锐评

Grok Imagine 先打的是 X 的入口，不是图像模型的技术牌。标题给出“所有人都可使用”，正文只说文本生成逼真图像和多种宽高比，没给参数、价格、地区限制，也没给和 Midjourney、GPT-4o image、Imagen 的可复现对比。对从业者来说，这种发布最该警惕：X 有默认流量和社交传播链，哪怕模型只到第一梯队尾部，也能靠一键生成和转发吃掉轻量需求。Musk 这套打法一直是先把按钮塞进主产品，再用用量反推叙事。能力强不强要看复杂提示、文字渲染、一致角色和商用版权边界。现在只看到入口，没看到护城河。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:35

22d ago

FEATUREDr/LocalLLaMA· rssEN06:35 · 05·17

DeepSeek V4 的 1M 上下文窗口：临界点

Reddit 用户用 DeepSeek V4 跑 45k、180k、520k 三个代码库，称 150-250k token 最适合编码；超过 300k 后行号精度下降，520k 时输出转向架构摘要。

#Code#Reasoning#Memory#DeepSeek

精选理由

Reddit 单帖来源限制了权威性，但它是带数字的一手实验：150-250k token 编码最稳、300k 后行号漂移、520k 转向架构摘要。HKR 三项都命中，落在 featured 门槛内。

一句话点评

只有摘要可用：DeepSeek V4 的 1M 窗口在编码上像营销上限，150k-250k 才像可用带宽。

锐评

1M context 在这条里没证明“整库编码”，只证明长上下文有工作区间。用户跑了 45k、180k、520k 三个代码库，结论是 150k-250k token 最适合编码；超过 300k 行号精度下降，520k 开始给架构摘要，跳过实现细节。我更信这个 Reddit 观察，而不是厂商的 1M 标题。代码任务吃的是定位、引用、局部修改，不是把仓库塞进窗口。Gemini 1.5 Pro 当年也把 1M context 打得很响，开发者最后还是在 chunk、检索、文件图谱里找稳定性。这里正文只有 403，没模型参数、prompt、DeepInfra 设置；但“长到一定程度后变成总结器”这个失真模式很熟。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

23d ago

FEATUREDFT · 科技· rssEN04:00 · 05·17

中国 AI 公司在视频生成竞赛中领先美国对手

FT 标题称中国 AI 公司在视频生成上领先美国对手，RSS 正文只提到 ByteDance 与 Kuaishou 在广告和娱乐视频质量上超过西方竞争者，未披露评测指标。

#Multimodal#Vision#ByteDance#Kuaishou

精选理由

FT 来源加中美视频生成位次之争，HKR-H 与 HKR-R 成立；正文缺少评测指标、样本与方法，HKR-K 失手，压在精选门槛低端。

一句话点评

只有 FT 标题和一句 RSS，没指标没模型名；但把 ByteDance、Kuaishou 点到广告和娱乐视频，说明视频战场先被分发端吃掉。

锐评

FT 这句判断偏重产品侧，不是模型侧。正文只给 ByteDance、Kuaishou 两个名字，场景限定在广告和娱乐视频，没给 benchmark、模型版本、人工盲测样本量，也没说对标 Sora、Veo 还是 Runway。这个信息量撑不起“领先美国”这种大标题。但方向我买一半。视频生成不是只拼单次 demo，最吃素材库、创作者反馈、投放转化和审核链路。抖音、快手每天都有短视频生产和广告测试闭环，迭代密度天然高过纯模型实验室。OpenAI Sora 的心智强在发布会，ByteDance 和 Kuaishou 的优势更像灰度 AB 跑出来的商业质量。没指标前，别把这条读成中国模型胜出；先读成短视频平台把生成视频拉进生产线。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:06

23d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

花了1000倍 token，效果可能没更好：AI Agent 的隐性账单

研究者用 OpenHands 分析 8 个模型在 500 个 swe-bench-verified 任务上的轨迹，发现 agentic coding 输入输出比达 154:1，Kendall tau 仅 0.32。

#Agent#Code#Benchmarking#OpenAI

精选理由

三项 HKR 都成立：标题有强成本反差，正文给出可检验的实验规模和相关性数字，议题正中 agentic coding 的隐性成本痛点。不是模型发布或平台级更新，落在 78–84 的优质推荐档。

一句话点评

只有摘要能读：OpenHands 跑 500 个 SWE-bench 任务，154:1 token 比把 agent coding 的成本幻觉撕开了。

锐评

Agent coding 的短板不是会不会写补丁，而是它把推理成本藏进轨迹里。摘要给的钩子很硬：8 个前沿模型、500 个 SWE-bench-verified 任务，输入输出 token 比到 154:1，人工难度标签和 token 使用的 Kendall tau 只有 0.32。也就是说，人觉得难的题不一定烧 token，烧 token 的题也未必真难。这会直接打到 Cursor、Devin、OpenHands 这类产品的毛利叙事。SWE-bench 分数涨一截，演示很好看；但如果每次修 bug 都先吞几百倍上下文，企业采购看的就不是 pass rate，而是每个 merged PR 的账单。正文被验证码挡住，没披露 8 个模型名单和计费口径，我会先把 154:1 当成警报，不当成定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

23d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

「世界模型」究竟是什么？一文看懂其前世今生与百亿赌局

机器之心编译 MoE Capital 博客，梳理世界模型两条脉络，称过去18个月超100亿美元涌入该概念，DreamDojo 用44711小时第一视角视频预训练并达到 r=0.995 策略评估相关性。

#Agent#Robotics#Multimodal#MoE Capital

精选理由

这不是新模型发布，而是机器之心编译的路线梳理；胜在有百亿美元资金流、DreamDojo训练规模和评估相关性等硬信息。按“优质观点/教程”进入精选下沿。

一句话点评

只有摘要，没有正文；“世界模型”现在像融资筛子，44,711小时视频和 r=0.995 很亮，但没评测细节我先不买满。

锐评

世界模型这波叙事有点被资本提前透支了：18个月超过100亿美元涌入，听起来像共识，实际更像把机器人、视频生成、仿真、agent 训练全塞进一个筐。摘要给的硬钩子是 DreamDojo：44,711小时第一视角视频预训练，策略评估和真实机器人结果达到 r=0.995。这个数如果成立很猛，因为它把“会预测视频”推进到“能筛策略”。但正文未披露评测集、任务分布、机器人形态和相关性计算方式。r=0.995 在机器人里高得反常，我会先怀疑数据闭环太窄。NVIDIA Cosmos、Genie、LeCun 那条路线都在押可交互环境模型，差别不在名字，在模型能不能跨 embodiment 和长时序失败。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

03:06

23d ago

FEATURED机器之心 · 公众号· rssZH03:06 · 05·17

一个月狂烧130万美元：Peter Steinberger 自曝 token 账单，OpenAI 全包

Peter Steinberger 30 天消耗 6030 亿 token、760 万次请求，账单超 130 万美元；他称关闭快速模式可降价 70%，OpenAI 不收取其 token 费用。

#Agent#Code#Tools#Peter Steinberger

精选理由

HKR 三项都命中：数字密集、反差强、贴近 Agent 编程成本。它是个人账单披露，不是 OpenAI 产品或定价发布，停在 featured 门槛上方。

一句话点评

6030亿 token、760万请求、130万美元账单，这不是个人玩具秀，是 OpenAI 在用少数极端用户测试 agent 经济账。

锐评

6030亿 token 的关键不是 Peter Steinberger 多能烧，而是 OpenAI 愿意替他吞掉 130 万美元账单。30 天 760 万次请求，平均每次约 7.9 万 token，这已经接近持续运行的代码 agent，而不是普通聊天流量。关闭 fast mode 可降价 70%，说明延迟溢价正在变成 agent 产品里的隐形税。我不把这当成 OpenAI 慷慨。更像是用“龙虾之父”这种高可见度用户，换一份真实 workload 的成本曲线。正文只有验证码页，没披露模型、缓存命中率、输入输出比例；少了这三项，130 万美元只能说明烧得猛，不能说明单位经济成立。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:50

23d ago

FEATUREDAI HOT 精选· aihot-apiZH02:50 · 05·17

Anthropic CEO谈AI双重影响：高增长与高失业并存

Dario Amodei称AI可能带来5%-10% GDP增长，同时推高失业与不平等，软件成本接近免费会冲击传统商业模式。

#Code#Anthropic#Dario Amodei#Commentary

精选理由

Anthropic CEO 给出 5%-10% GDP 增长和软件成本接近免费的判断，信息密度够高，且就业冲击有强讨论性；但来源是 X 摘要，缺少完整访谈与方法细节，压在 78。

一句话点评

Dario 把 5%-10% GDP 增长和高失业绑在一起讲，像是在提前给 Anthropic 的自动化路线买社会许可证。

锐评

Dario 这套话术很聪明：先承认高失业和不平等，再把 5%-10% GDP 增长摆上桌，Anthropic 就不用装成“只做安全模型”的旁观者。最硬的钩子是软件成本接近免费，这直接打到 SaaS 的席位收费、实施费、外包开发三层利润。但我不全买“工程师转向编辑或升级工作”这句。Claude Code、Cursor、Devin 这条线已经证明，编辑岗不会按被替代工程师一比一生成。AI 把交付单位从人天压到任务，工资谈判权先掉，新增岗位再说。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:43

23d ago

FEATUREDAI HOT 精选· aihot-apiZH02:43 · 05·17

Anthropic CEO预言软件免费化与职业结构巨变

Dario Amodei在《华尔街日报》YouTube采访中称软件成本将急降至基本免费，百万用户分摊成本的传统前提将不再成立。

#Anthropic#Dario Amodei#The Wall Street Journal#Commentary

精选理由

Dario Amodei 对软件成本和职业结构的判断有强话题性，HKR 三项都命中；但来源是二手 X 摘要，正文未披露完整论证、时间表与数据，压在 featured 低段。

一句话点评

Dario 又在讲“软件近乎免费”，但 Anthropic 自己还按百万 token 收钱；别把推理成本下降误读成软件公司消失。

锐评

Amodei 把“软件近乎免费”讲得太满了，我不太买账。正文只给出 WSJ YouTube 采访和“百万用户分摊成本失效”，没有价格曲线、时间表、哪类软件先归零。SaaS 成本里不只有代码，还有合规、销售、集成、运维和责任边界。 Anthropic 自己的 Claude 仍按 token 计费，企业版还要卖权限、审计和数据隔离。代码生成会压低 CRUD、内部工具、一次性脚本的价格，这块没悬念；但 Workday、ServiceNow、Salesforce 那类系统，客户买的是流程和风险转移。Amodei 的判断适合提醒职业冲击，不适合直接外推成“软件免费化”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

23d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·17

从可运行到可交付：多智能体测试驱动开发生成全栈 Web 应用

TDDev 将需求转为结构化测试、浏览器交互验证和修复报告，使 Web 应用生成质量提升34-48个百分点；协议不匹配会抵消TDD收益，并最多增加25倍Token消耗。

#Agent#Code#Tools#TDDev

精选理由

HKR 三项都成立：TDDev 有测试生成、浏览器验证、修复报告三段机制，并给出34-48个百分点提升与25倍Token代价。它是实用型研究，不是大厂模型发布，落在78-84档。

一句话点评

TDDev 把“能跑”拉到“可交付”，但最刺眼的是协议错配：TDD 不是免费午餐，错了能把 token 烧到 25 倍。

锐评

TDDev 这篇戳中了代码智能体的老问题：文件能生成，不代表应用能交付。论文把需求先转成验收测试，再部署应用，用浏览器交互跑验证，失败再变成修复报告；在两个 coding agents、两个 backbone models、两个 benchmarks 上，质量比 no-TDD 高 34–48 个百分点。但我更在意反面结果：协议和模型生成风格不匹配时，TDD 收益会归零，token 成本最高放大 25 倍。这和很多 agent demo 的问题一样，闭环不是越多越好，错误的闭环会把模型锁进昂贵的自我修补。正文摘要说用户研究把人工干预降到零，但样本规模没在摘要里给出，我会先信框架方向，不急着信“零人工”这个口径。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

23d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·17

OProver：统一的智能体化形式定理证明框架

OProver 将智能体化证明纳入训练流程，OProofs 含 177 万个 Lean 语句和 686 万个编译器验证证明。

#Agent#Reasoning#RAG#OProver

精选理由

OProver 有明确机制和数据集规模，HKR 三项都成立；题材偏 Lean 与形式化证明，读者面窄，按低位推荐档给 79。

一句话点评

OProver 把 agentic proving 塞回训练闭环，686 万条已验证证明比单纯刷 Pass@k 更像可复利资产。

锐评

OProver 最有杀伤力的地方，是把失败证明、Lean 编译器反馈、检索到的已验证证明都变成训练料，而不是只在推理时多试几次。OProofs 有 177 万个 Lean statements、686 万个 compiler-verified proofs，还存了失败、反馈、修复轨迹；这比只报 MiniF2F Pass@32 更硬。 OProver-32B 在 MiniF2F 到 93.3%，ProverBench 58.2%，PutnamBench 11.3%。我会警惕 PutnamBench 这个数仍很低，说明 agentic 闭环还没把高难数学吃下来，但路线比“更大模型 + 更多采样”干净。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

23d ago

FEATUREDComputing Life · Share · 鸭哥调研· rssZH00:00 · 05·17

Vibe Coding 的安全危机

AI 编程平台默认公开设置让数千个企业应用暴露敏感数据，正文点名医院排班表、银行财务和临床实验数据，核心机制是一键部署默认值而非 AI 代码本身。

#Code#Safety#Incident#Commentary

精选理由

数千企业应用暴露敏感数据，且问题落在一键部署默认值，HKR-H/K/R 都成立；来源不是一线安全通报，且正文未披露具体平台名单，压在优质推荐低段。

一句话点评

别把锅甩给“AI 写烂代码”：这次泄露点是 public-by-default 部署，vibe coding 最大风险在产品默认值。

锐评

Vibe coding 的安全坑不在生成代码，而在平台把一键部署做成 public-by-default。标题给出“数千个企业应用”，正文点名医院排班表、银行财务、临床实验数据，这些不是 demo 级泄露，是合规事故素材。我不买“用户自己没配权限”这套甩锅。Lovable、Replit Agent、Bolt 这类工具把非工程用户直接送到上线环节，默认权限就成了安全边界。正文没披露具体平台、暴露时长和修复机制，这三个缺口很关键。但机制已经够清楚：AI 代码审计抓不到部署默认值，企业采购也常漏掉这层。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-17

更多

频道

后台