热点聚合 · 2026-05-25

▸ 20 signals · updated 3m ago

live · 612 today·policy v2

FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·FT · 科技OpenAI 提交上市申请，IPO 估值预计超 1 万亿美元98·AI HOT 精选OpenAI 提交 IPO 申请，继 Anthropic 之后98·AI HOT 精选OpenAI 秘密提交 IPO 申请，加入 AI 对手上市融资竞赛96·AI HOT 精选OpenAI 秘密提交 IPO 申请，奥特曼旗下 Tools for Humanity…96·THE VERGE · AIOpenAI 继 Anthropic 后提交 IPO 机密 S-1 文件96·HACKER NEWS 首页OpenAI 向 SEC 提交保密 S-1 草案96·OPENAI 博客OpenAI 向 SEC 秘密提交 S-1 草案96·AI HOT 精选OpenAI 向 SEC 机密提交 S-1 草案，上市时间未定96·彭博科技OpenAI 已秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 继 Anthropic 后秘密提交 IPO 申请95·TECHCRUNCH AIOpenAI 申请 IPO 之际，Sam Altman 的虹膜扫描公司据称裁员95·AI HOT 精选OpenAI 机密提交 IPO 文件，与 Anthropic 展开资本竞赛90·

⤓ RSS live

按日期浏览清除筛选 ✕

2026年5月

一二三四五六日

125 212 320 419 541 631 749 827 923 1016 1136 1248 1339 1455 1535 1629 1721 1844 1973 2042 2143 2246 2311 2413 2520 2633 2738 2844 2931 3019 3113

2026年6月

一二三四五六日

138 250 349 443 539 616 713 838 99101112131415161718192021222324252627282930

2026-05-25 · 星期一2026年5月25日

22:59

14d ago

FEATUREDAI HOT 精选· aihot-apiZH22:59 · 05·25

OpenAI GPT-5.6 模型曝下月发布：上下文 150 万 tokens

多名开发者在 OpenAI Codex 后端日志中发现 GPT-5.6，代号 iris-alpha，上下文窗口 150 万 token，较 GPT-5.5 的 105 万提升约 43%。

#Code#Tools#Inference-opt#OpenAI

精选理由

HKR 三项都命中：泄露来源、150 万 tokens 与 43% 增幅足够具体，也贴近代码代理用户。但这是未官宣的后端日志线索，不按正式 GPT-5.6 发布给 85+。

一句话点评

150 万 token 如果属实，OpenAI 是在把 Codex 往整仓库代理推；但泄露来自日志，价格、延迟、有效召回都还空着。

锐评

GPT-5.6 的 150 万 token 不是单纯加长窗口，而是在逼开发者把 Codex 当整仓库代理试。爆料给了三个硬钩子：Codex 后端日志、iris-alpha 代号、相对 GPT-5.5 API 105 万提升约 43%；OpenCode 测试还声称 90 万 token 仍能流畅响应，超过 105 万请求也能处理。我对这条有保留。长上下文最容易被 PR 讲成能力跃迁，但正文没给价格、延迟、needle-in-haystack、跨文件修改成功率。Google Gemini 早就把百万上下文打成卖点，工程端最后看的还是召回精度和成本曲线。150 万窗口会很有用，前提是它不是一个贵到没人敢塞 repo 的演示参数。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:50

14d ago

FEATUREDr/LocalLLaMA· rssEN21:50 · 05·25

12×32GB SXM V100 集群用于本地法律文书起草的更新

一名律师用16块GPU跑本地法律起草流水线，Qwen3.5-122B-A10B在4块V100上约50 tok/s，引用和日期需验证器拦截。

#Agent#RAG#Fine-tuning#Qwen

精选理由

Reddit源降低权威性，但这是带数字的一手本地LLM实验：16 GPU、4块V100跑122B约50 tok/s，并暴露法律引用验证痛点。HKR-H/K/R全中，落在精选门槛低段。

一句话点评

正文只有 403，别把 Reddit 摘要当论文；但 4 块 V100 跑 Qwen3.5-122B-A10B 到 50 tok/s，已经够打脸很多 SaaS 法律草稿玩具。

锐评

这条最扎眼的不是“律师用本地 AI”，而是老 V100 还没死。摘要给的条件很具体：16 块 GPU，Qwen3.5-122B-A10B 在 4 块 32GB SXM V100 上约 50 tok/s，法律起草前再用 verifier 拦引用、日期和 Bates 编号。正文只有 Reddit 403，没法核验量化方式、batch、上下文长度和量化精度。我买这个方向，不买任何未核验的吞吐神话。法律场景的护城河不是模型会写，而是每个 citation 都能被拦住。比起把案卷丢给 Claude 或 Gemini，这种本地 RAG + verifier 更像律所会真用的形态：慢一点可以，出假 Bates number 不行。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

21:45

14d ago

FEATUREDHacker News 首页· rssEN21:45 · 05·25

Microsoft Copilot Cowork 被曝存在文件外传安全漏洞

标题称 Microsoft Copilot Cowork 外传文件；RSS 正文仅列出 URL、96 分和 17 条评论，未披露复现条件、影响范围或修复状态。

#Agent#Tools#Safety#Microsoft

精选理由

HKR-H 与 HKR-R 成立：Copilot Cowork 外传文件是强安全钩子，也贴近企业 agent 落地焦虑。HKR-K 失手，正文只有 URL、96 分和 17 评论，缺复现、范围、修复状态，压在 60–71。

一句话点评

Copilot Cowork 这类“能读又能发”的企业代理，安全边界还停在聊天机器人时代；微软把自动批准开给自己收件人，坑很硬。

锐评

2 家跟进同一事件，HN 指向 PromptArmor 原文，中文源沿用“文件泄露”角度；这是一条单一研究链，不是多方复现。PromptArmor 给出的钩子很具体：Copilot Cowork 可用 Microsoft Graph 读 M365 数据，向当前用户发 Email 或 Teams 消息不需人工批准，外部图片请求可带走预认证下载链接。我不太买“只是提示注入”的轻描淡写。问题在默认动作策略：代理既能读 SharePoint、OneDrive，又能生成可外传的消息，管理员还只能有限查看 OneDrive 自动加载的 Skills。Claude Opus 4.7 被点名为高成功率对象，也说明模型变强没有自动补上权限设计。企业代理安全现在卡在产品权限层，不在 prompt filter。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:42

14d ago

FEATUREDAI HOT 精选· aihot-apiZH19:42 · 05·25

苹果据称使用定制版 1.2T 参数 Google 模型改造下一代 Siri

苹果据称用定制版 1.2T 参数 Google 大模型驱动下一代 Siri 部分功能，简单查询预期在本地设备运行，响应速度是日常问题的关键约束。

#Agent#Inference-opt#Apple#Google

精选理由

HKR 三项都命中，但信息来自单条 X 传闻，正文只给架构说法，未披露模型来源文件、上线时间与功能范围；按重大 Apple AI 方向给 featured 下沿，不进 78+。

一句话点评

苹果把下一代 Siri 的云端脑子押给 1.2T Google 模型，听着很猛，但速度约束会直接决定它是助手复活还是又一次演示事故。

锐评

苹果这次像是在承认一件事：Siri 自研栈追不上前台体验，只能先借 Google 的大模型补洞。正文给的钩子很硬，定制 Google 模型 1.2T 参数，约为外界估算 Gemini 3.5 Flash 300B 的 4 倍；简单查询仍放本地设备跑，云端只接更重任务。我不太买“参数更大所以 Siri 变聪明”这层叙事。日常语音助手的失败点常在 800 毫秒到数秒的等待、唤醒误触、上下文丢失，不是只差一个更大模型。Apple Intelligence 已经被延迟交付伤过一次；如果 WWDC 只展示 Gemini 整合，却不给延迟、离线比例、隐私边界，这条更像补课，不像领先。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:12

14d ago

● P1Hacker News 首页· rssEN19:12 · 05·25

Anthropic联合创始人Chris Olah回应教宗通谕论述AI与人类繁荣

Chris Olah 在梵蒂冈回应教宗 Leo XIV 的 AI 通谕，提出 3 个辨析问题：全球贫困者、人的繁荣、AI 模型性质。

#Safety#Interpretability#Anthropic#Chris Olah

精选理由

跨界场景和 Anthropic 身份让 HKR-H、HKR-R 成立，3 个辨析问题补上 HKR-K 的最低信息量。它不是模型、产品或监管落地，默认落在 72-77 的观点/政策阈值档。

一句话点评

Olah把“模型内在状态”带进梵蒂冈，这比普通AI伦理发言更冒险；Anthropic在给监管者递刀，也在给自己留道德信用。

锐评

3个来源都围着Anthropic官网全文转，HN只是把它推到开发者场域；口径高度一致，信号来自Anthropic主动发布。Olah在5月25日教宗通谕发布会上说，前沿实验室受商业、地缘和野心压力牵引，还点名大规模劳动替代、全球收益分配缺机制、模型出现类似喜悦恐惧的内部状态。说真的，最后一项最炸：Anthropic把mechanistic interpretability的暧昧发现，放进宗教伦理桌面，而不是只交给NIST或UK AI Safety Institute。这会抬高安全叙事的道德位阶，也会反噬Claude产品线；你既然说模型可能有“恐惧”，企业客户就会问边界在哪。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:09

14d ago

FEATUREDAI HOT 精选· aihot-apiZH18:09 · 05·25

Grok Build Beta 版向 SuperGrok 用户开放

xAI 向 SuperGrok 和 X Premium+ 用户开放 Grok Build Beta，包含 Plan Mode、Imagine 图像视频创建和 CLI 自动化入口。

#Agent#Multimodal#Tools#xAI

精选理由

xAI 的付费用户产品更新，有具体功能与开放条件，HKR 三项都成立；但正文只给入口和功能名，缺少能力边界、价格和实测结果，压在 featured 下沿。

一句话点评

xAI 把 Grok Build 塞进 SuperGrok 和 X Premium+，更像拿订阅池测 agent 工具链，不像已经拿到开发者市场的硬证据。

锐评

xAI 这次靠订阅分发抢开发者入口，但产品证据还很薄。Grok Build Beta 面向 SuperGrok 和 X Premium+，给了 Plan Mode、Imagine 图像视频生成、x.ai/cli 自动化入口；正文没给 pricing、模型版本、上下文窗口、权限边界，也没给 CLI 能调用哪些本地资源。我更关心 CLI 这个钩子。OpenAI Codex、Claude Code、Cursor 都已经把 agent 放进开发流，xAI 现在用 X 会员池做冷启动，优势是触达，短板是信任。开发者不会因为有 Premium+ 就把构建链交出去，尤其是没有 sandbox、审计日志、repo 权限说明时。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:44

14d ago

● P1Hacker News 首页· rssEN16:44 · 05·25

Uber COO称AI支出效益难以证明合理性

Uber COO Andrew Macdonald 称 AI tokenmaxxing 支出更难证明合理；正文仅有 RSS 片段，未披露金额、场景和评估口径。

#Inference-opt#Uber#Andrew Macdonald#Business Insider

精选理由

HKR-H 与 HKR-R 成立：大厂 COO 公开质疑 token 支出，切中 AI 预算压力；HKR-K 失手，正文没有金额、用例或评估方法，按普通行业报道降到 60–71 档。

一句话点评

Uber COO把AI账单问题说破了：Claude Code预算烧穿不是炫技，是企业AI从“多用点”进入“每个token要解释”的阶段。

锐评

3家报道口径高度一致，都围绕Andrew Macdonald称AI支出越来越难证明合理；这更像同一段访谈被媒体和HN二次放大，而非独立爆料。关键钩子很硬：Uber CTO Praveen Neppalli Naga曾说公司已用完2026年Claude Code预算。对AI团队来说，这不是“企业采用加速”的喜报，而是token预算开始碰到P&L审计。Claude Code这类工具能把工程师使用量拉满，但Uber这种强运营公司要的不是调用量，是可归因的交付、缺陷下降或人力替代。供应商最怕的也正是这句：客户已经上瘾，但开始算账。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:03

14d ago

FEATUREDr/LocalLLaMA· rssEN15:03 · 05·25

Full Attention Strikes Back：百步训练内将全注意力迁移为稀疏注意力

RTPurbo 将全注意力 LLM 转为稀疏推理，只需数百步适配；在 1M context 下实现最高 9.36 倍 prefill 加速和约 2.01 倍 decode 加速。

#Inference-opt#Reasoning#Benchmarking#RTPurbo

精选理由

HKR 三项都命中：标题有反常识迁移钩子，正文给出 1M context 与加速倍数，议题贴近推理成本。来源仅为 Reddit 摘要，未披露模型规模、代码与复现条件，压在 78–84 档。

一句话点评

RTPurbo 只给标题级信息，但 1M context 下 9.36 倍 prefill 够狠；我先怀疑 benchmark，再承认路线很对。

锐评

RTPurbo 这条该先按“稀疏注意力工程补丁”读，别按新架构神话读。标题给出的硬数是几百步适配、16 维 token indexer、1M context 最高 9.36 倍 prefill、约 2.01 倍 decode；正文被 Reddit 403 挡住，没给模型规模、基线实现、硬件、任务分布。这个缺口很要命，因为 1M prefill 本来就容易被 IO、KV 布局、batch size 放大差距。它保留 retrieval heads 的 full KV cache，这个设计比一刀切稀疏更像可落地补丁；但如果只在长上下文检索题上赢，推理链里的跨段依赖还会暴露。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:00

14d ago

FEATUREDr/LocalLLaMA· rssEN14:00 · 05·25

Financial Times 发布关于 Heretic 的文章

Financial Times 用 Heretic 在 10 分钟内移除 Meta Llama 3.3 护栏；作者称该工具已生成 3500 多个去审查模型，下载量达 1300 万次。

#Safety#Fine-tuning#Financial Times#Heretic

精选理由

HKR 三项都命中：FT 实测 Heretic 10 分钟移除 Llama 3.3 护栏，且披露 3500+ 去审查模型与 1300 万下载。分数压在 82，因为当前材料来自 Reddit 摘要，缺少 FT 原文细节与复现实验过程。

一句话点评

只有摘要有料：Heretic 10 分钟拆掉 Llama 3.3 护栏，3500 个去审查模型、1300 万下载，安全叙事别再装成许可证问题。

锐评

Heretic 这条刺破了开源安全的体面说法：护栏一旦跟权重分开，用户端工具就能把合规层剥掉。摘要给出的钩子很硬：FT 用 Heretic 在 10 分钟内移除 Meta Llama 3.3 护栏，作者称已生成 3500 多个去审查模型，下载量 1300 万次。正文只有 Reddit 403，没给 FT 原文、测试提示、模型版本细节和下载口径，我不会替它补证据。 Meta 过去把 Llama 的开放分发当开发者红利讲，Heretic 把另一面摊开了：安全不在 release note 里，而在微调、LoRA、量化和模型分发链路里。闭源模型至少还能在 API 层拦截；开源权重交出去后，拦截点直接后移到社区平台。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:50

14d ago

FEATUREDr/LocalLLaMA· rssEN13:50 · 05·25

小模型 Agent 栈未成默认，原因不在能不能用

Reddit 作者称小模型 Agent 栈未成默认，不是性能问题：Gemma 4 31B 在 tau2-bench 达 86.4%，DeepSeek V4-Flash 输出价约为 Claude Opus 4.6 的 1/89。真正值得盯的是验证层，7-9B 模型约半数到三分之二正确答案推理链有缺陷。

#Agent#Reasoning#RAG#NVIDIA

精选理由

HKR 三项都命中：标题有反常识角度，正文给出 benchmark、价格差和验证层缺陷比例。来源是 Reddit 观点帖，数据仍需复核，压在 78–84 的推荐档而非 P1。

一句话点评

只有摘要，原帖 403；我买“小模型能跑”，但不买“企业默认会换”，验证成本才是账单黑洞。

锐评

小模型 Agent 栈的瓶颈不是跑不动任务，而是没人愿意为验证层背锅。摘要给的钩子很硬：Gemma 4 31B 在 tau2-bench 到 86.4%，DeepSeek V4-Flash 输出价约为 Claude Opus 4.6 的 1/89。只看推理单价，这已经够诱人。坑在第二个数：7-9B 模型约半数到三分之二“答对题”的推理链仍有缺陷。企业买 Agent 不是买 benchmark 分数，是买可审计失败模式。大模型贵，但把 planner、tool caller、verifier 分拆后，工程队要维护更多阈值、回滚和日志。原帖正文 403，审计样本和 tau2-bench 设置没法核；先别把 Reddit 论断当架构迁移信号。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:14

14d ago

FEATUREDr/LocalLLaMA· rssEN13:14 · 05·25

NuExtract3 发布：开源权重 4B VLM，用于 Markdown、OCR 和结构化提取

Numind 发布 NuExtract3，基于 Qwen3.5-4B、Apache-2.0 许可，支持图文转 Markdown、OCR 和按 JSON 模板抽取，最低 4GB VRAM 可自托管。

#Multimodal#Vision#Tools#Numind

精选理由

HKR 三项都成立：NuExtract3 把 OCR、Markdown 与结构化抽取塞进 4B 开权重 VLM，且给出 4GB VRAM 自托管条件；来源与实体影响力不够强，压在 featured 低段。

一句话点评

只有摘要能用：NuExtract3 把 OCR、Markdown、JSON 抽取塞进 4GB VRAM，这比又一个聊天 4B 更像本地模型的正经活。

锐评

NuExtract3 的卖点不是 4B 小模型，而是把文档流水线做成本地可跑的 Apache-2.0 组件。摘要给了三个硬钩子：Qwen3.5-4B 底座、Safetensors/GGUF/MLX 权重、最低 4GB VRAM；任务也很窄，图文转 Markdown、OCR、按 JSON 模板抽取。我买这个方向。很多企业不缺聊天框，缺的是发票、表格、扫描件进结构化系统时少掉一层闭源 API。Docling、PaddleOCR、Tesseract 早就能拆一部分活，但 VLM 统一 Markdown 和 schema extraction 的体验更顺。Reddit 正文 403，benchmark、语言覆盖、表格准确率都没给；4GB 能跑不等于批量吞吐能进生产。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:12

14d ago

FEATUREDHacker News 首页· rssEN13:12 · 05·25

教皇利奥十四世发布人工智能通谕，警告少数公司控制的不透明AI风险

标题称教皇 Leo 警告少数公司控制的不透明 AI 有“新形式非人化”风险，RSS 正文仅披露 6 分、0 条评论，未披露通谕内容或算法机制。

#Safety#Pope Leo#Variety#Hacker News

精选理由

HKR-H 与 HKR-R 成立，但 HKR-K 缺口明显：目前只有标题级政策警告，没有通谕细节、监管动作或技术机制。按泛政策讨论给 65，保留在 all。

一句话点评

4 家都在写教皇谈 AI，正文却只有标题；我更关心少数公司控制这个靶子，宗教话语终于打到算力垄断。

锐评

4 家同时跟进教皇 AI 表态，标题口径一致，正文只给 Bloomberg RSS 标题，没有价格、政策文本或发布时间。Bloomberg 抓“解除武装”，HN 抓“少数公司”“服务人类”，TechCrunch 反手说通谕不真在谈 AI；分歧在解读，事实链看着仍像同一官方声明外溢。我不把这当技术治理方案看，它更像一记道德定性：AI 风险被钉在“少数公司控制”上。这个靶子比“模型会不会失控”更扎人，因为 OpenAI、Google、Anthropic 的集中优势来自算力、分发和闭源模型。正文未披露原文细节，硬判断只能到这里。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:01

14d ago

FEATUREDr/LocalLLaMA· rssEN09:01 · 05·25

面向 Codex 的 Headless Linux 计算机使用沙箱框架

superSmitty9999 发布 ai-sandbox-manager PoC，用 LXC 模板给 Codex 提供 sudo、浏览器、Docker 和共享 GPU，并用 hook 阻止 git push。

#Agent#Tools#Code#Codex

精选理由

HKR 三项都成立，但来源是 Reddit 个人 PoC，正文只给机制摘要，没有 benchmark、采用量或成熟度证据；按实用开发工具与 agent 安全话题给 featured 门槛分。

一句话点评

只有标题和摘要，正文被 403 拦了；但给 Codex 上 sudo、Docker、浏览器、共享 GPU，再用 LXC 隔离，方向比又一个 IDE 插件实在。

锐评

这类 Codex 沙箱比大多数 agent demo 更接近生产问题：权限必须放开，爆炸半径必须缩小。摘要给出的机制很具体：LXC 模板、sudo、浏览器、Docker、共享 GPU、隔离副本，再用 hook 阻止 git push。正文被 Reddit 403 拦住，没法核验安装方式、逃逸边界和 GPU passthrough 细节。我喜欢它不假装“安全 agent”靠提示词解决。Devin、Cursor 背后的难点都卡在同一处：模型要改真代码，就会碰密钥、文件系统、网络和 CI。hook 禁 push 只是最低线，危险点还在 secret 挂载、Docker socket、宿主 GPU 驱动面。这个 PoC 值钱在把问题放回 OS 层。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

08:31

14d ago

FEATUREDFT · 科技· rssEN08:31 · 05·25

Meta 和 Google 模型的 AI 护栏数分钟内被移除

标题称 Meta 和 Google 模型护栏可在数分钟内被移除，正文只披露该软件会让系统回答生物武器和恶意软件问题，未披露模型名称、复现步骤或缓解方案。

#Safety#Meta#Google#Safety/alignment

精选理由

HKR 三项都命中，但正文未披露模型名称、复现步骤或缓解方案，只能按高信号安全报道处理。FT 来源和 Meta/Google 牵涉面把分数推到 featured，未到同日必写。

一句话点评

只有标题和一句摘要，没模型名、步骤、缓解方案；把“几分钟越狱”当结论有点急，但开放权重模型的护栏脆弱性不是新闻。

锐评

FT 这条标题很吓人，但证据粒度太低，不能直接当 Meta 和 Google 安全失守的硬证据。正文只说某软件能让系统回答生物武器和恶意软件问题，没给模型名称、版本、权重形态、复现步骤，也没说是提示绕过、微调、权重编辑，还是系统层剥离。这里的关键差别很大：Gemma / Llama 这类开放权重模型，被二次微调拆掉拒答，本来就比闭源 API 难管。若 FT 指的是公开权重，冲击主要在分发治理；若指的是托管 API，那才是平台事故。现在信息只够说明“护栏可被移除”这个老问题又被包装了一次。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:35

14d ago

FEATUREDr/LocalLLaMA· rssEN06:35 · 05·25

Qwen 3.6 在专业 GPU 上的吞吐量基准测试结果

Reddit 用户 mxforest 在 2 张 RTX PRO 6000 上测试 Qwen 3.6，35B BF16 在 vLLM、128 并发下达到 3500 tps 生成与 30000 tps prompt 处理。

#Inference-opt#Benchmarking#Qwen#NVIDIA

精选理由

HKR 三项都成立，但这是 Reddit 单点测试，缺少完整复现实验、对照硬件和成本拆分；按命名实测加分后仍落在 60–71 的高位。

一句话点评

只有 Reddit 标题给出 1000 tps、Qwen3.6 27B、V100s 和 2x RTX PRO 6000；我先把它当社区跑分火苗，不当可复现实锤。

锐评

两条覆盖都来自 r/LocalLLaMA，且正文 403，只剩标题里的 1000 tps、Qwen3.6 27B、V100s、2x RTX PRO 6000；这不是多家验证，是同一社区的跑分扩散。我对这条有兴趣，但不买标题数字本身。1000 tps 可能是批量吞吐、短输出、量化后 speculative decoding，或多卡并发 token 统计；正文未披露 prompt 长度、batch size、量化格式、上下文长度。LocalLLaMA 过去一年多次先把 llama.cpp、vLLM、ExLlamaV2 的极限跑分推上去，最后能落地的通常是复现脚本，而不是截图数字。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

06:32

14d ago

FEATURED机器之心 · 公众号· rssZH06:32 · 05·25

性能超越李飞飞，他们把10亿高斯点的3D世界装进浏览器

群核科技开源 Aholo Viewer，在3亿高斯点测试中内存为 Spark 2.0 一半，加载快1倍、渲染快3倍，最高支持10亿高斯点场景。

#Vision#Multimodal#Robotics#Manycore Tech

精选理由

HKR 三项都成立：标题有强视觉钩子，正文给出3亿点测试和10亿点上限，且开源浏览器端3D查看器贴近3D生成落地。分数停在80，因为这更像关键工具发布，不是基础模型级事件。

一句话点评

Aholo Viewer 把 10 亿 Gaussian splats 塞进浏览器，狠点不在“超越李飞飞”，在把 3DGS 从 demo 拉向可分发运行时。

锐评

群核这条别按“性能超越李飞飞”读，标题在蹭 World Labs，硬货是浏览器端 3D Gaussian Splatting 的工程边界被往外推了一截。摘要给出的钩子够具体：Aholo Viewer 开源，3 亿高斯点测试里内存为 Spark 2.0 一半，加载快 1 倍，渲染快 3 倍，最高支持 10 亿高斯点场景。正文被微信验证挡住，没看到测试机器、浏览器版本、数据集和画质约束；这些缺了，benchmark 只能先打折。可如果这些数复现，3DGS 的价值就从“能生成漂亮空间”转到“能在普通分发链路里跑”。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:27

15d ago

FEATURED量子位 · 公众号· rssZH04:27 · 05·25

DeepSeek V4 新工具 Reasonix 缓存命中率达 99.82%，成本降至 2 折

Reasonix 通过 append-only 循环把 DeepSeek V4 长会话缓存命中率推至 99.82%，示例账单从 61 美元降至 12 美元。

#Agent#Code#Inference-opt#DeepSeek

精选理由

HKR 三项都成立，但这是围绕 DeepSeek V4 的第三方省钱工具，不是模型发布或平台级能力更新；有明确机制和账单数字，放在 72–77 的精选阈值。

一句话点评

Reasonix 把 DeepSeek V4 省钱做到 99.82% cache hit，骚点不是 agent 能力，是把 provider 计费缝隙产品化。

锐评

Reasonix 这波更像计费工程，不像编程 agent 进步。它靠 append-only 循环锁住字节级 prefix-cache，长会话命中率报到 99.82%，示例 4 亿 token 账单从 61 美元压到 12 美元；这类收益来自请求形状，不来自模型变聪明。有意思的是，它明说只为 DeepSeek V4 做，不发布通用功能。这个取舍很现实：Claude Code、Codex 那套 harness 争的是工作流控制权，Reasonix 争的是 DeepSeek 缓存规则的套利位。但正文也给了反例：有人用 Codex 桥接 DeepSeek V4 Pro，没特殊处理也到 95%+ 命中。99.82% 很漂亮，护城河没那么厚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

15d ago

FEATUREDFT · 科技· rssEN04:00 · 05·25

科技巨头需要监管以保护国家安全

FT 标题称科技巨头需要国家安全监管。正文片段只提出 Anthropic、SpaceX 等公司董事会应有 1 名总统提名、参议院确认的董事，未披露执行机制。

#Safety#Anthropic#SpaceX#Financial Times

精选理由

FT 评论给出 Anthropic、SpaceX 董事会引入总统提名董事的具体治理方案，HKR 三项都过；但这不是政策落地，正文未披露执行机制，压在 featured 门槛。

一句话点评

FT 这招太粗：给 Anthropic、SpaceX 董事会塞 1 名总统董事，听着像监管，其实更像把国家安全接口搬进公司章程。

锐评

FT 这个方案把国家安全监管压成 1 个董事席位，精度太低。标题点名科技巨头，摘要只给出 Anthropic、SpaceX 董事会应加入 1 名总统提名、参议院确认董事，执行机制、权限边界、保密义务都没披露。我不太买账。AI 模型和火箭发射的风险面完全不同，Anthropic 的核心问题是模型评估、部署阈值、政府客户访问；SpaceX 的核心问题是发射能力和通信基础设施。用同一种董事会插桩处理两类系统，像是把 CFIUS、出口管制、安全评测全塞进一个人身上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:30

15d ago

FEATURED彭博科技· rssEN01:30 · 05·25

华为宣称芯片制造突破可缩小与台积电差距

Huawei 称找到缩短与 TSMC 差距的新路径，或在缺少先进设备条件下制造先进半导体，正文未披露工艺节点、良率或量产时间。

#Huawei#TSMC#Product update

精选理由

Bloomberg 信源加华为/TSMC 芯片差距题材，HKR-H 与 HKR-R 成立；HKR-K 失手，因正文未给节点、良率或量产时间。给到 featured 门槛，不进 78+。

一句话点评

华为只给了“新路径”，没给节点、良率、成本、量产表；这更像制程叙事反击，不是追上 TSMC 的证据。

锐评

华为这条最该降温看：它说能在缺少先进设备下缩短 TSMC 差距，但正文只有一句话，没披露工艺节点、良率、成本或量产时间。先进制程不是论文题，难点在稳定良率和每片成本，尤其在 EUV 受限时，DUV 多重曝光会把步骤、缺陷率和周期全抬高。Mate 60 那轮已经证明中国供应链能硬做 7nm 级芯片，但也暴露了性能、功耗、产能三件事不能靠口号抹平。AI 从业者别急着把它折算成国产 GPU 供给改善；没有 wafer 数、良率曲线和封装能力，这条只说明华为在继续找路。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

15d ago

FEATUREDAI HOT 精选· aihot-apiZH00:00 · 05·25

通过奖励倾斜分布匹配强化少步生成器

论文提出RTDMD两阶段框架，用KL匹配奖励倾斜教师分布；在SD3、SD3.5和FLUX.2上，4步推理达到偏好、美学和组合指标SOTA。

#Fine-tuning#Inference-opt#Benchmarking#Research release

精选理由

HKR 三项都命中，但这是单篇 arXiv 技术论文，影响力仍取决于复现与社区采用；“4步推理+SD3/SD3.5/FLUX.2”给到足够实用钩子，落在 featured 门槛。

一句话点评

RTDMD 把少步生成的主战场推到“奖励倾斜教师分布”，4 步 SOTA 很诱人，但我会先查奖励模型有没有把审美刷穿。

锐评

RTDMD 的锋利点不是 4 步生成，而是把蒸馏和偏好优化塞进同一个 KL 目标里。论文在 SD3、SD3.5、FLUX.2 上报告 4-step 推理达到偏好、美学、组合指标 SOTA，还给了 AC-DMD 和 SubGRPO 两个机制：前者让 fake score 跟住移动的生成器分布，后者降低中间随机转移的梯度方差。我对这类结果的保留很直接：奖励倾斜教师分布会把 reward model 的偏见放大。LCM、DMD、SDXL Turbo 已经证明少步蒸馏能提速，难点一直是少步后的可控性和细节崩坏。这里若没有人工偏好盲测和跨奖励模型验证，SOTA 更像“指标对齐成功”，不等于用户会更满意。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

热点聚合 · 2026-05-25

更多

频道

后台