热点聚合 · 2026-05-30

▸ 19 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-30 · 星期六2026年5月30日

21:09

9d ago

FEATUREDr/LocalLLaMA· rssEN21:09 · 05·30

我的 6400 美元本地 LLM 服务器成本分析

作者用 6406.45 美元硬件运行 4 路 MI100 本地 Qwen3.6 27B，日处理 20.4M 输入和 1.32M 输出 token，按 OpenRouter 价格首年成本 2992.72 美元，低于 API 的 3701.10 美元。

#Inference-opt#Qwen#OpenRouter#Z.AI

精选理由

第一手本地 LLM 成本账有具体硬件、token 量和 API 对照，HKR 三项都成立；来源是 Reddit 单帖，结论受个人负载约束，压在 featured 低段。

一句话点评

这台 6406 美元 MI100 盒子给本地推理党续了一口气，但它赢 API 的幅度只有 708 美元，别把折腾成本当免费。

锐评

6406.45 美元本地服务器跑赢 API，只赢了 708.38 美元首年差额，这个胜利很窄。作者用 4 路 MI100 跑 Qwen3.6 27B，每天 20.4M 输入 token、1.32M 输出 token；按 OpenRouter 价格，本地首年 2992.72 美元，对 API 3701.10 美元。算账里最硬的是高输入、低输出负载，刚好适合自托管摊平固定成本。问题也在这里：Reddit 正文 403，电价、折旧、停机、维护时间、并发延迟都没法核验。OpenRouter 给的是市场价，不是企业合约价；一旦输出占比升高，或者模型换到更大的 MoE，本地优势会被重新洗牌。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:02

9d ago

FEATUREDAI HOT 精选· aihot-apiZH21:02 · 05·30

在浏览器中通过 Pyodide 和 Service Worker 运行 Python ASGI 应用

Simon Willison 展示了用 Pyodide 和 Service Worker 在浏览器运行 Python ASGI 应用，Claude Opus 4.8 协助开发，已跑通 ASGI FastCGI 与 Datasette 1.0a31 演示。

#Code#Tools#Simon Willison#Claude

精选理由

Simon Willison 的实作教程有明确机制和 demo，HKR 三项都过；但它是开发者实验，不是模型或平台级发布，落在 72–77 的精选门槛。

一句话点评

Simon 这次把 ASGI 塞进浏览器，不是玩具炫技；Service Worker 补上了 Datasette Lite 四年前最烦的脚本执行洞。

锐评

Simon 这条最有价值的地方，是把 Pyodide 从“能跑 Python”推到“能承接 Web 请求”。机制很具体：Service Worker 拦截同源 `/app/` 请求，再按 ASGI 协议交给浏览器里的 Python 应用执行。旧版 Datasette Lite 用 Web Worker 抓导航，`<script>` 标签不执行，插件直接断一截；这次 FastAPI demo 和 Datasette 1.0a31 都跑通，说明不是只为一个页面打补丁。 Claude Opus 4.8 的角色也挺典型：不是生成一个 app，而是帮资深开发者钻 Service Worker、Pyodide、ASGI 的缝。这个方向比“AI 写全栈 CRUD”更像 2026 年代码模型的真实生产力。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:55

9d ago

FEATUREDAI HOT 精选· aihot-apiZH18:55 · 05·30

据报道：软银将在法国投资750亿欧元用于AI

软银集团计划在法国投资最高750亿欧元建设AI数据中心，消息来自《论坛报》和《金融时报》报道。

#SoftBank#La Tribune#Financial Times#Funding

精选理由

HKR 三项都命中，750亿欧元AI数据中心投资具备强数字和算力竞争话题；但正文信息很薄，交易结构、时间表和确认方未披露，低于必须当天重写的模型发布级别。

一句话点评

750亿欧元听着像SoftBank版星门，但正文只落到“报道称”，没有电力、GPU、租户，这更像欧洲AI主权叙事的期权。

锐评

软银这个750亿欧元数字很猛，但我先按“数据中心意向”打折看。正文只引用《论坛报》和《金融时报》说会在法国投AI数据中心，没披露电力容量、GPU采购、时间表、锚定客户，也没说是股权、债务还是项目融资。这和OpenAI/软银在美国讲Stargate时的套路很像：先用超大CAPEX数字占住政策和电力入口，再慢慢补供应链。法国有核电和主权AI叙事，适合讲这个故事；问题是AI数据中心的瓶颈早就不是地产，而是电网接入、H100/H200/B系列交付和长期算力合约。没有这些条款，750亿欧元只是一个很贵的占位符。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:39

9d ago

● P1FT · 科技· rssEN18:39 · 05·30

SoftBank承诺750亿欧元在法国建设欧洲最大AI设施

标题称SoftBank承诺750亿欧元在法国建设欧洲最大AI设施，正文仅返回FT 403安全验证页，未披露设施规模、时间表或合作方。

#SoftBank#Financial Times#Funding

精选理由

HKR 三项都成立，但正文只有 FT 403 验证页，设施规模、合作方和时间表缺失；按重大AI基础设施投资给 featured，因信息不足压在85以下。

一句话点评

三家都只给“最高750亿欧元”，正文又被 403 挡住；这更像 SoftBank 把法国电力和主权AI叙事打包成融资期权。

锐评

FT、Bloomberg、TechCrunch 都抓住“最高 750 亿欧元”和法国 AI 数据中心，口径高度一致，像官方主动放风，正文未披露电力、GPU、工期和资本结构。我不太买账“欧洲最大 AI 设施”这个标题。750 亿欧元若按训练集群算，关键不是钱，是法国能否给出连续电力、并网审批和长期购电合同。SoftBank 在 Stargate 叙事里也擅长把巨额承诺先打出去，再让合作方、债务和政策补贴慢慢补位。法国拿到的是政治胜利，AI 从业者该把它按数据中心融资案读。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:52

9d ago

FEATUREDAI HOT 精选· aihot-apiZH17:52 · 05·30

DynoSim：模拟驱动推理堆栈优化

NVIDIA 发布 DynoSim，用于 Dynamo 推理服务栈优化；它以虚拟时间线仿真数千种配置，测试速度达实时的 1500 倍。

#Inference-opt#NVIDIA#Product update

精选理由

NVIDIA 发布 DynoSim，事实点有 1500 倍实时仿真与数千配置测试，HKR 三项都成立。它仍是单源产品更新，未到模型发布或重大平台能力级别，落在 featured 门槛段。

一句话点评

NVIDIA 把推理优化推进到“先仿真再上机”，1500 倍实时速度很狠，但高保真边界没讲清就别急着省集群。

锐评

DynoSim 最硬的是把推理服务调参从实机试错挪到虚拟时间线，NVIDIA 给出的钩子是数千种配置筛查、Rust 实现、测试达到实时 1500 倍。对 Dynamo 这种服务栈，队列、KV cache、batching、并发路由一变，GPU 利用率和尾延迟会一起抖，仿真能先砍掉大量烂组合。我有点怀疑“高保真”这个词。正文没给误差范围、工作负载分布、GPU 型号，也没说 1500 倍是在多大 trace 上跑出来的。vLLM、TensorRT-LLM、Triton 这类栈过去一年都在卷在线调度，NVIDIA 这步更像把部署决策锁进 Dynamo 工具链。好用的话是工程杠杆，不好用就是漂亮的预筛器。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:30

9d ago

● P1TechCrunch AI· rssEN15:30 · 05·30

谷歌推出Gemini Spark 24/7 AI助手产品

TechCrunch 试用 Google Gemini Spark，称其可自动处理收件箱摘要和本地活动规划；正文未披露价格、发布时间或独立成品原因。

#Agent#Tools#Google#TechCrunch

精选理由

TechCrunch 实测 Google Gemini Spark，24/7 助手和收件箱/活动规划有点击点，也给从业者一个可讨论的 Agent 样本；但正文缺少价格、发布时间和产品定位，停在中量级产品试用。

一句话点评

3 家都在讲 Gemini Spark 上手体验，正文只有标题；我会先怀疑这是 Google 把“可用代理”叙事重新压回消费端。

锐评

3 家标题都把 Gemini Spark 写成“可用的 24/7 AI 助手”，分歧只在情绪：TechCrunch 偏实用，The Verge 贴近 demo，AIHot 直接说“可怕”。正文未披露价格、权限边界、任务成功率，这是判断代理产品最关键的三项。我不太买“体验评测”本身的热度，Google 的优势从来不是聊天，而是 Gmail、Calendar、Search、Android 这些默认入口。Spark 如果能稳定跨应用执行任务，威胁的不是 ChatGPT 聊天框，而是 Perplexity、Rabbit 这类靠代理想象力吃饭的产品。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:00

9d ago

FEATUREDThe Verge · AI· rssEN13:00 · 05·30

AI生成虚假黑人形象在社交媒体销售廉价商品

The Verge 披露 TikTok 卖家用 AI 生成黑人女性 Aliyah 带货，视频要求观众停留 13 秒，商品实际是 dropshipping 批量货。

#Multimodal#The Verge#TikTok#Shein

精选理由

Verge 报道把生成式视频、TikTok 带货和身份伪造连在一起，钩子强且有 13 秒停留话术等细节。它不是模型或产品大更新，但对 AI 滥用和平台治理有讨论价值，压在精选门槛。

一句话点评

AI 带货最脏的一面来了：生成黑人女性哭穷，再把 Shein / dropshipping 批量货包装成手作。平台别再装成只管工具。

锐评

这不是“虚拟网红”翻车，是生成式广告把身份、苦难和低质供应链焊在一起。The Verge 给出的钩子很具体：AI 黑人女性 Aliyah 在 TikTok 视频里要求观众停留 13 秒，哭着卖“手作”金属皮带扣；同款货却疑似来自批量 dropshipping。这里的作弊不在脸假，而在转化机制真——种族身份拿来做信任，眼泪拿来拖完停留时长，Shein 式供应链拿来吃差价。TikTok、Facebook、Instagram 如果只按“AI 内容是否标注”处理，会漏掉核心问题：这是自动化欺诈广告，不是创作者表达。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:17

9d ago

FEATUREDHacker News 首页· rssEN12:17 · 05·30

美国企业因成本飙升开始限制AI使用

WSJ 标题称美国企业因成本飙升开始限制 AI 使用；RSS 正文只披露 HN 41 分、37 条评论，未披露具体公司、成本数字或配额机制。

#Inference-opt#The Wall Street Journal#Hacker News#Commentary

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 缺失：标题有强趋势感，正文没有公司名单、成本数值或配给机制。按“泛行业报道”落在 60–71，WSJ 来源不足以把标题信息推到精选。

一句话点评

3 家都在讲“AI 配给”，但正文只剩标题级信息；企业不是不想用 AI，是开始把 token 当云账单审。

锐评

3 家标题高度一致，且都围绕 WSJ 的“成本飙升、企业配给 AI”叙事，像同一报道链被二次分发，不是独立采样。我的判断很简单：企业 AI 预算开始进入 FinOps 阶段，靠“人人开 Copilot、全员接模型”冲 adoption 的阶段收口了。正文没有披露具体公司、单价、用量阈值，这是硬伤；但“ration”这个词本身很重，说明限制不再只是安全审批，而是调用成本进了 CFO 视野。对做应用的人，这比又一个 benchmark 更刺耳：如果你的 agent 每次任务烧掉多轮推理、检索和工具调用，客户会先砍额度，再谈 ROI。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

08:12

9d ago

FEATUREDr/LocalLLaMA· rssEN08:12 · 05·30

Project Blackwell：让 RTX Pro 6000 在 Dell R730 上跑 650K 上下文

作者把 RTX Pro 6000 Blackwell 接入 2016 年 Dell PowerEdge R730，并称本地 AI 机器达到 650K 上下文，正文披露了风道改造、双 riser 供电、BAR/ACPI 调试等条件。

#Inference-opt#NVIDIA#Dell#Commentary

精选理由

原帖是带数字的第一人称硬件实验，650K context 与 R730 改造给足 HKR-H/K/R；它仍是小众本地部署案例，涉及供电和 BIOS 调试，影响面不够进 78+。

一句话点评

650K 本地上下文听着炸，但正文只剩 Reddit 403；这类硬改帖的价值在失败清单，不在截图数字。

锐评

650K 本地上下文这条先别急着封神，正文可核验内容只有 Reddit 403 和摘要里的改造条件。摘要说 RTX Pro 6000 Blackwell 塞进 2016 Dell R730，还动了风道、双 riser 供电、BAR/ACPI、MMIO aperture、Linux PCIe boot flag；这不像消费级装机炫技，更像把旧双路服务器逼到平台边界。我看重的是 650K 背后的工程摩擦。24GB/48GB 卡跑长上下文早被 KV cache 卡死，Blackwell Pro 如果真能在二手 R730 上稳定跑到 650K，本地推理的门槛会被旧机架库存拉低一截。但正文未披露显存容量、量化方案、模型名和吞吐，650K 现在只能当可疑上限，不能当能力基准。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:00

9d ago

FEATURED新智元 · 公众号· rssZH07:00 · 05·30

Claude AI 流利度评分标准曝光：优秀用户得 7.5 分

Anthropic 在 Claude 灰度测试 AI Fluency 评分卡，按 11 项可观测行为分析 Chat、Cowork、Claude Code 历史对话，满分 11 分。研究样本含 9,830 段匿名多轮对话，迭代行为出现在 85.7% 高质量对话中。

#Benchmarking#Tools#Safety#Anthropic

精选理由

Anthropic 灰度测试 Claude AI Fluency 评分卡，信息量集中在评分机制与样本数字；不是模型发布，放在 78–84 档。HKR 三项都成立，未触发硬排除，给 featured 而非 p1。

一句话点评

Anthropic 把“会用 Claude”产品化成 11 分评分卡，聪明但危险：它在训练用户，也在定义谁算合格用户。

锐评

Anthropic 这张 AI Fluency 评分卡，最锋利的地方不是给人打 7.5 分，而是把“好用户”做成产品指标。它用 Chat、Cowork、Claude Code 历史对话，对 11 项可观测行为打分；底层研究扫了 9,830 段匿名多轮对话，高质量对话里 85.7% 出现迭代行为。我买“迭代是核心技能”这个判断，但不买它天然中立。评分卡会把用户往 Anthropic 偏好的工作流里训：多轮修正、补上下文、质疑推理、评估结果。对 Claude 留存和企业培训都很香，对用户则是另一层行为规训。更尴尬的是 Artifact 样本里，产物越像完成品，事实核查和推理质疑越少。漂亮 UI 正在麻痹审稿人。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

07:00

9d ago

FEATURED新智元 · 公众号· rssZH07:00 · 05·30

Opus 4.8 生成 1170 亿人历史投胎模拟器

Ethan Mollick 用 Claude Opus 4.8 生成 The Veil of History 网站，按1170亿历史出生人口加权，并称模型用4000轮蒙特卡洛模拟估算地区与时代分布。

#Agent#Code#Reasoning#Anthropic

精选理由

Ethan Mollick用Claude Opus 4.8做出带1170亿人口加权与4000轮蒙特卡洛的网站实验，HKR三项都命中。它是有传播性的能力样例，不是Anthropic正式发布，停在 featured 低段。

一句话点评

Mollick 这站点能火，不是因为 1170 亿人有多新，而是 Opus 4.8 把研究、建模、D3、叙事一次性缝到可传播产品里。

锐评

Opus 4.8 的信号不是“AI 算尽人类命运”，而是单人 prompt 到可上线叙事产品的摩擦又降了一截。正文给了几个硬钩子：1170 亿历史出生人口、4000 轮蒙特卡洛、12 个时代、D3 + Natural Earth、Artificial Analysis 61.4 分、SWE-Bench Pro 69.2%。这些数字拼起来，像一次端到端 agent 演示，而非单纯网页生成。我对新智元的王座叙事不太买账。榜单领先 GPT-5.5 十个百分点很亮眼，但 The Veil of History 的关键质量仍取决于人口假设、地区权重和引用链。Mollick 的强项一直是把模型能力压成可感知 demo；这次 Anthropic 占了便宜，但别把一个好 demo 直接读成自动研究员已到岗。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:48

10d ago

FEATURED彭博科技· rssEN04:48 · 05·30

MiniMax考虑在中国上市，对标DeepSeek等AI对手

MiniMax Group已按监管文件启动境内上市准备，正文只披露其竞争对手包括DeepSeek，未披露估值、时间表或募资规模。

#MiniMax#DeepSeek#Funding

精选理由

Bloomberg确认MiniMax已按监管文件启动境内上市准备，HKR三项都成立；但正文缺估值、时间表和募资规模，只能放在高质量推荐而非P1。

一句话点评

MiniMax 想上境内市场，但估值、募资、时间表都空着；这更像抢窗口，不像证明它已打赢 DeepSeek。

锐评

MiniMax 现在冲境内上市，我看着像融资窗口管理，不像模型竞争胜利。正文只给了“已按监管文件启动准备”和竞争对手 DeepSeek，估值、募资规模、交易所、时间表都没披露，这些才决定它是补血、退出，还是借政策红利抢先挂牌。 MiniMax 的问题不缺故事，缺可被二级市场定价的硬指标。DeepSeek 用低成本开源和推理价格把中国模型叙事压扁后，闭源玩家再讲“通用模型公司”会很吃力。若 MiniMax 不能把海螺、多模态、Agent 收入拆出来，A 股投资人买到的还是一张大模型牌照感的期权。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

10d ago

FEATUREDFT · 科技· rssEN04:00 · 05·30

英国军方研究允许无人工批准的致命打击

FT 标题称英国军方研究允许无人工批准的致命打击，正文为订阅页，未披露适用武器、审批机制或时间表。

#Robotics#Agent#Safety#UK military

精选理由

HKR-H 与 HKR-R 很强，FT 标题指向自主致命武器政策红线；HKR-K 失手，因为可读正文只有订阅页，缺少机制、时间表与适用范围，压在 featured 低段。

一句话点评

只有 FT 标题说英国军方在研究“无人工批准致命打击”；正文没武器、阈值、时间表，这类标题最容易把 autonomy 和 targeting 混成一锅。

锐评

这条先别跟着标题跑：FT 只露出“英国军方研究无人工批准致命打击”，订阅页没给武器类型、审批链、法务阈值、部署时间表。对 AI 从业者，关键不是“杀手机器人”四个字，而是 kill chain 哪一段被自动化：目标识别、交战授权、火控执行，风险完全不同。我更警惕的是政策语言会借乌克兰战场经验滑坡。俄乌无人机战已经把人类审批压到秒级，电子战又让通信链断得很频繁。军方很容易把“human-on-the-loop”包装成效率升级。可没有适用条件和审计机制，这就是把责任从指挥官手里挪到系统日志里。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

10d ago

FEATUREDAI HOT 精选· aihot-apiZH04:00 · 05·30

xAI 放弃 JAX GPU，转向自研训练框架

SemiAnalysis 称 xAI 放弃 JAX GPU，转向用 Grok Build 写 C 训练框架；正文称其 JAX 栈 MFU 低于 10%，未披露复现实验条件。

#Code#Inference-opt#xAI#JAX

精选理由

HKR三项都成立：xAI训练栈换线有点击钩子，MFU<10%提供具体信息，也会引发框架党和训练成本讨论。受限于来源是单条SemiAnalysis动态且未披露复现实验条件，停在80分精选。

一句话点评

xAI 若真把 JAX GPU 换成 Grok Build 写的 C 框架，丢脸的不只是 JAX；但 MFU<10% 没条件，先别把段子当判决。

锐评

xAI 这条像一记重拳，但 SemiAnalysis 给的是判词，不是可复现实验。钩子很硬：xAI 放弃 JAX GPU，改用 Grok Build 写 C 训练框架；帖里还说 JAX 栈 MFU 低于 10%。问题也在这里，MFU 没给模型规模、GPU 型号、并行策略、batch、通信拓扑，没法判断是 XLA/JAX 问题，还是 xAI 自己的系统工程没压住。我对“氛围编程 C 训练框架”更怀疑。训练栈不是 demo，错一个 collective 就烧千万美元级集群。PyTorch/XLA、Megatron、Triton 这几年都证明过，框架输赢常卡在 kernel、调度和通信，不是语言姿势。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

10d ago

FEATURED量子位 · 公众号· rssZH04:00 · 05·30

人大、至知研究院开源 Claw Agent 数据、训练与评测全链条

中国人民大学与至知研究院开源 ClawGym，包含13.5K个合成任务、200个评测任务、模型检查点、训练数据与代码，ClawGym-30B-A3B 在 ClawGym-Bench 得分56.82。

#Agent#Tools#Benchmarking#Renmin University of China

精选理由

HKR 三项都命中：ClawGym 不是单个榜单，而是把数据、代码、检查点和评测任务一起放出；影响面偏开发者社区，未到大厂模型发布或行业级事件。

一句话点评

ClawGym 的硬点不是“30B赢235B”，而是把 Agent 训练从聊天轨迹拖进可执行工作区；但 200 题 benchmark 还太窄。

锐评

ClawGym 这次把 Agent 评测往正确方向推了一步：任务必须落到文件、路径、表格、脚本和最终产物，而不是让模型在对话里自称完成。13.5K 个合成可执行任务、200 个评测任务、平均 13 轮轨迹、18.67K tokens、15.82 次工具调用，这些钩子比“会用工具”更接近办公 Agent 的硬问题。我对“30B 超越 235B”这句要打折。ClawGym-30B-A3B 在 ClawGym-Bench 得 56.82，高过 Qwen3-235B-A23B；但评测集来自同一套框架，只有 200 题，迁移到 PinchBench 的 86.00 才更能撑叙事。和 SWE-bench 一样，Agent benchmark 最怕变成训练路线的广告牌。开源数据、代码、checkpoint 是加分项，下一刀该切在第三方复现。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

10d ago

FEATURED量子位 · 公众号· rssZH04:00 · 05·30

帮Gemini拿下IMO金牌的关键先生，差点成了职业钢琴家

Yi Tay作为Gemini Deep Think建模co-captain参与IMO金牌成果，并在2023年联合创办Reka AI、639天后重返Google DeepMind。

#Reasoning#Multimodal#RAG#Yi Tay

精选理由

HKR 三项都命中，但这是人物侧写，不是Gemini新能力发布；新信息集中在Yi Tay的角色、Reka经历和639天回归，落在72–77精选阈值。

一句话点评

别把这篇看成天才传记；Yi Tay 的来回跳槽说明顶级 reasoning 人才最后还是被 TPU、团队密度和后训练管线吸回大厂。

锐评

Yi Tay 回 Google DeepMind 这件事，比钢琴故事扎眼：639 天创业后回到 TPU 和 Gemini 核心后训练，说明顶级研究员离开大厂可以做模型，但很难复制基础设施密度。正文给的钩子很实：Reka AI 2023 年约 20 人起步，不到一年冲到 LMSYS 前五；他回谷歌后又参与 Gemini Deep Think 的 IMO 金牌、Gemini 3 Deep Think 的物理和化学奥赛笔试金牌水准。我不太买“个人传奇”包装。Reka 的故事反而像一个边界测试：小团队能把多模态模型打到前排，但 reasoning/RL 后训练一旦接上奥赛级目标，就开始吃 TPU、数据管线、评测闭环和长期 captain 制。OpenAI、Anthropic 也一样，最贵的不是聪明人，是聪明人旁边那套机器。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:30

10d ago

FEATURED机器之心 · 公众号· rssZH02:30 · 05·30

AdamW和Muon的失稳根源有解了，港中文新优化器Pion在等谱流形上更新大模型

港中文等团队提出Pion优化器，通过正交等价变换保持权重奇异值不变，并在60M无归一化LLaMA-like模型9.6B token训练中避免AdamW和Muon的NaN崩溃。

#Fine-tuning#Alignment#Benchmarking#CUHK

精选理由

HKR三项都过：Pion把AdamW/Muon失稳归到奇异值动态，并给出9.6B token无NaN训练结果。题材偏底层优化器，受众窄，放在78–84研究发布档。

一句话点评

Pion 把稳定性从归一化层拉回优化器，但 60M 无归一化跑通 9.6B tokens，还不能证明它能吃下千亿参数训练。

锐评

Pion 最硬的点不是“新优化器”，是它把权重奇异值锁死，直接切断 AdamW / Muon 加法更新带来的谱漂移。正文给了一个很干的压力测试：60M 无归一化 LLaMA-like 模型训练 9.6B tokens，AdamW 和 Muon 都 NaN，Pion 跑完并收敛。我买这个方向，但不买“根源有解了”的口径。1.3B 预训练、60M 去 norm、200 层 60M 深网，都是验证机制的好实验，不是生产级证据。Pion 还要付矩阵指数、正交群更新、谱归一化这些系统成本；在 Qwen / LLaMA 的后训练收益也没给出足够清楚的 wall-clock 账。它更像 Muon 之后的稳定性路线，而不是 AdamW 的即时替代品。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:30

10d ago

FEATURED机器之心 · 公众号· rssZH02:30 · 05·30

英伟达清华团队 Gamma-World 登顶 Hugging Face 日榜

NVIDIA、清华等发布 Gamma-World，用正单纯形位置编码和 hub token，把多智能体世界模型计算从平方增长压到线性增长，8 个玩家延迟从 17.6ms 降至 4.5ms。

#Agent#Robotics#Multimodal#NVIDIA

精选理由

NVIDIA、清华的Gamma-World有清楚机制和可量化收益，属于高质量研究发布；HKR三项都命中，但影响仍偏多智能体世界模型圈层，未到同日必写的大模型发布级别。

一句话点评

Gamma-World 的亮点不是“多人世界模型”，而是把 8 人延迟打到 4.5ms；但零样本四人到真实双臂，中间还缺硬验证。

锐评

Gamma-World 最狠的是把多人交互从演示问题改成复杂度问题。它用正单纯形位置编码去掉固定玩家槽位，再用 hub token 把全连接注意力改成两跳通信；8 个玩家延迟从 17.6ms 降到 4.5ms，算力消耗降到全连接的八分之一，这个钩子比“登顶 HuggingFace 日榜”硬多了。我不太买文章后半段的 Physical AI 飞轮叙事。Minecraft 零样本四人生成很漂亮，双臂桌面实验也有信号，但正文没给物理一致性指标、长时 rollout 崩坏率、真实 policy 训练增益。Solaris 卡在两人扩展，Gamma-World 确实补了一刀；可从“实时联机”跳到“机器人数据工厂”，还差一组能复现实验。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:30

10d ago

FEATURED机器之心 · 公众号· rssZH02:30 · 05·30

苹果用 AI 重新发明图像压缩：同样画质，文件只要三分之一

苹果团队发布 PICO 感知图像编解码器，在同等主观画质下比 AV1、VVC、JPEG AI 少用 57%-70% 比特，iPhone 17 Pro Max 编码 12MP 照片需 230 毫秒。

#Vision#Multimodal#Inference-opt#Apple

精选理由

HKR-H/K/R 都成立：苹果 PICO 不是常规论文标题党，正文给出57%-70%省比特与230毫秒端侧编码数据。它偏研究发布，离系统级落地还有距离，所以落在78-84档。

一句话点评

苹果 PICO 最狠的不是“AI 压缩”，而是 12MP 编码 230ms 这个手机端数字；JPEG AI 刚标准化就被产品级研究卡住喉咙。

锐评

PICO 把学习型压缩从论文秀拉到手机预算里，这比 57%-70% 省码率更刺眼。苹果给出的钩子很硬：610 名评测者、74,925 次盲测配对、同等主观画质下只用 AV1、VVC、JPEG AI 的 30%-43% 比特，iPhone 17 Pro Max 编码 12MP 照片 230ms、解码 150ms。我不太买“重新发明图像压缩”这种标题，但苹果这次确实打到了标准组织的慢点。JPEG AI 2025 年 2 月才发布，PICO 已经用 TextFidelityLoss、TilingArtifactLoss 和 one-shot context model 解决文字、分块、熵编码三个工程坑。短板也清楚：卡通、示意图不占优，PSNR 还输给 VVC / DCVC-RT。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-30

更多

频道

后台