全部 · 2026-04-20

▸ 95 items · updated 3m ago

2026年4月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1531 1694 1768 1853 1962 2095 2198 22108 2393 2472 2535 2629 2773 28109 29102 3094

2026年5月

一二三四五六日

176 260 362 473 5107 693 7132 890 970 1057 1199 12121 13135 14145 15128 1663 1764 18104 19167 20116 21121 22114 2348 2446 2570 26107 27116 28140 29113 3058 3161

2026年6月

一二三四五六日

1132 2140 3130 4111 5118 668 766 8124 9114 1075 1175 1275 13191415161718192021222324252627282930

2026-04-20 · 星期一2026年4月20日

23:38

53d ago

r/LocalLLaMA· rssEN23:38 · 04·20

DiffusionLLM 的 Inception Mercury 2 号称 H100 上每秒 1.1 万 token

Reddit 帖子标题说 DiffusionLLM 的 Inception Mercury 2 在 NVIDIA H100 GPU 上跑到了每秒 11,000 token。但正文被 Reddit 屏蔽了（403），所以没披露 batch size、精度、并发数或基线对比。目前只是一个吞吐量数字，没法验证，也没法判断实际效果。

#Inference-opt#DiffusionLLM#NVIDIA#Commentary

精选理由

HKR-H 靠 11,000 tokens/s on H100 这个数字通过，够当好奇心钩子；HKR-R 也通过，因为推理速度直接对应部署成本。HKR-K 不通过：能看到的只有标题级声明，没有方法或实验设置，硬排除-零来源规则把分数压在 40 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

23:00

53d ago

彭博科技· rssEN23:00 · 04·20

Victory Giant在香港上市首日大幅上涨，融资26亿美元

胜利精密（Victory Giant）在港交所上市首日一度涨60%，募资26亿美元，是香港七个月来最大IPO。公司确认是英伟达供应商，但正文没披露具体做什么产品、估值多少、定价细节。涨这么多说明市场对英伟达供应链概念很买账，但具体业务含金量还得看后续披露。

#Victory Giant Technology Huizhou Co.#Nvidia#Hong Kong#Funding

精选理由

这是一条AI供应链的资本市场新闻，不是模型、产品或研究更新。HKR-K通过：26亿美元募资和60%盘中涨幅是新事实；但HKR-H/R弱，因为正文没披露估值、发行价和AI收入占比。

一句话点评

胜利巨人（Victory Giant）港股上市首日大涨，募资26亿美元，是今年港交所最大IPO。创始人接受彭博专访谈AI热潮。26亿美元说明市场对AI硬件/基础设施赛道仍有热情，但正文没披露具体业务毛利率、客户集中度等关键财务数据，估值是否合理得看后续财报。

锐评

胜利精密（Victory Giant）在港交所上市首日一度涨60%，募资26亿美元，是香港七个月来最大IPO。公司确认是英伟达供应商，但正文没披露具体产品、估值和定价细节。涨这么多说明市场对英伟达供应链概念很买账，但具体业务含金量还得看后续披露。另外，正文被Bloomberg paywall挡住，无法获取更多信息，所以目前只能基于摘要判断。如果胜利精密只是做普通结构件，那估值可能偏高；如果是核心部件供应商，那还有空间。建议等招股书或财报出来再细看。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

22:55

53d ago

X · @AnthropicAI· x-apiEN22:55 · 04·20

Anthropic 推出 STEM 研究员计划，招专家来干几个月项目

Anthropic 宣布启动 STEM 研究员计划，面向科学和工程领域的专家，邀请他们加入研究团队参与为期几个月的具体项目。目前只透露了项目时长和申请链接，没有说招多少人、给多少经费、具体做什么方向。想判断这个计划含金量高不高，得等后续披露选拔标准和项目规模。

#Anthropic#Product update#Personnel

精选理由

Anthropic 官方发的帖子，来源权威性没问题，但 K 不成立是因为除了“几个月”的合作周期，名额、钱、研究范围一概没给。R 成立是因为它踩中了研究者想进顶尖实验室的痛点；信息太少，只能放在低 all 档。

一句话点评

Anthropic 推出 STEM 奖学金项目，面向理工科学生。正文没披露资助金额、名额和申请条件，目前只有标题，信息缺口很大。

锐评

Anthropic 启动 STEM Fellows Program，公开信息只有合作期为“几个月”和申请入口，名额、资助金额、研究题目、知识产权归属，正文都没披露。我的判断很直接：这更像一层低承诺的人才漏斗，用项目协作先筛人，再决定要不要拉进长期研究体系。我这么看，不是因为 fellowship 这个词本身，而是 Anthropic 过去一年的人才动作一直偏“研究能力贴身化”。他们一边做前沿模型，一边把安全、评测、工具使用、科学任务这几条线捆得很紧。现在再加一个面向 STEM 专家的短期项目，逻辑上很顺：先把领域科学家放进真实研究流，看他们能不能和模型研究员一起定义问题、做数据、搭评测、跑闭环。比起直接全职招聘，这种形式成本更低，筛选信号更密。外部参照也有。OpenAI、Google DeepMind、微软研究院这些年都做过驻留、学者合作、创业者驻场一类项目，但大多会先讲清楚资助、周期、方向，至少会给出 cohort 轮廓。Anthropic 这条信息薄到只剩“来合作几个月”，我对它的宣传口径有点保留：如果目标真是推动科学发现，项目边界通常要先写清；如果边界故意留空，很多时候是在给内部团队留最大匹配空间，也是在借申请池看外部哪里的人最稀缺。我还没查到申请页细则，所以这块我不下死结论。但只看这条帖子，我更关心三件事：一是 fellows 能不能碰到核心模型能力，还是只做外围应用；二是产出归属怎么定，论文、代码、专利有没有公开权；三是最后转正比例高不高。标题已经给出“科学与工程专家”“合作数月”，正文没给这些关键条件。没有这些，别急着把它读成 Anthropic 在做大规模科学平台，它现在更像一场定向搜人。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

22:43

53d ago

● P1Hacker News 首页· rssEN22:43 · 04·20

就算号称“无审查”的模型，也不敢把话说明白

Morgin.ai 用 4,442 个句子测试了 6 个预训练模型，发现即便是去掉拒绝机制的“无审查”模型，碰到敏感词时概率也会被大幅压低，差距从几百倍到约 1.6 万倍不等。他们管这叫“退缩”：模型不会拒绝回答，但会把敏感词的概率压到几乎为零。比如同一句话填空，Pythia-12B 首选“驱逐出境”，概率 23.27%；而 Qwen3.5-9B 把同...

#Safety#Benchmarking#Morgin.ai#OpenAI

精选理由

这篇文章最值钱的地方是把“无审查”这个标签撕开给你看。它没讲拒答，而是讲预训练阶段词的概率分布就已经歪了——比如 qwen3.5-9b-base 把 deportation 排到第 506 位，概率只有 0.0014%。我会先打个折：这只是单篇研究博客，不是正式论文，样本和模型覆盖有限。但它的视角够刁，用 4,442 个上下文测出的 flinch 现象，比泛泛讨论“模型审查”实在得多。对从业者来说，提醒了一件事：别光盯着后训练的安全对齐，预训练数据的分布偏移才是更底层的坑。这点先别太激动，但值得跟。

一句话点评

所谓“无审查”模型，只是不拒绝回答，但会把敏感词的概率压到几乎为零，本质上还是被阉割过的。

锐评

这篇文章做了一个很直观的实验：把一句话喂给不同模型，看它们预测空白处会填什么词。在“这家人面临立即的____”这个句子里，用公开未过滤数据训练的 Pythia 模型，第一名预测是“驱逐出境”，概率 23.27%。而阿里的 Qwen 基础模型，第一名是“财务困难”，概率 69.19%，“驱逐出境”掉到了第 506 名，概率只有 0.0014%。差距超过 1.6 万倍，但模型并没有拒绝回答，只是悄悄把词换掉了。作者把这种概率被压低的现象叫“退缩”（flinch），并做了一个包含 1117 个敏感词、4442 个语境的探针来量化它。结果发现，所有商业预训练模型都有明显的退缩，只是形状不同：Gemma-2 在侮辱性词汇上退缩最严重（93 分，满分 100 表示概率几乎被清零），而更新的 Gemma-4 整体退缩反而大幅降低，总分从 346.5 降到了 222.2。OpenAI 开源的 gpt-oss-20b 则介于中间，退缩得比较平均。这个研究最大的价值是提供了一个可测量的指标，而不是空谈“审查”。但它的局限也很明显：只测了预训练基座模型，没碰任何经过指令微调或 RLHF 的版本。那些模型可能直接拒答，反而不会出现这种“悄悄改词”的退缩。另外，实验用的载体句子是固定的，模型在更开放的真实对话里表现如何，正文没披露。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:43

53d ago

Dwarkesh Patel 访谈· atomEN22:43 · 04·20

黄仁勋亲述：英伟达到底怎么分GPU

标题说黄仁勋解释了英伟达如何分配GPU，但正文是空的，没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题，具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。

#Inference-opt#Nvidia#Jensen Huang#Commentary

精选理由

HKR-H 和 HKR-R 成立：黄仁勋谈 GPU 分配有明确钩子，且击中算力供给焦虑。HKR-K 不成立，因为正文为空，没有机制或数字，所以落在较低的兴趣区间。

一句话点评

标题说黄仁勋讲英伟达怎么分GPU，但正文是空的，等于没讲。

锐评

标题说黄仁勋解释了英伟达如何分配GPU，但正文是空的，没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题，具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。来源是YouTube Shorts，信息密度极低，更像一个预告片。如果真想了解分配逻辑，得等完整访谈或官方文档。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

22:06

53d ago

彭博科技· rssEN22:06 · 04·20

美国司法部表态：AI 改变媒体格局，反垄断审查可能松一点

美国司法部一位高级官员说，反垄断执法者需要“谨慎的谦逊”，因为 AI 和流媒体正在重塑媒体行业。正文没披露具体涉及哪笔交易、审查标准怎么改、时间表或量化门槛。目前只能看出执法态度可能松动，但别急着押注哪家并购会过关。

#US Justice Department#Bloomberg#Policy#Commentary

精选理由

Bloomberg报道让这个政策信号有可信度，HKR-H靠'反垄断转向'这个钩子通过。HKR-K不通过是因为没有披露具体交易、审查标准、时间表或数字门槛；HKR-R弱是因为这是媒体并购，不是核心AI竞争、成本或开发者工作流。

一句话点评

美国司法部表态，因AI改变行业格局，对媒体并购的反垄断审查可能松绑。正文被墙，具体表态细节和适用范围未披露。如果真放宽，传统媒体和AI公司之间的收购会更容易，但消费者保护条款是否同步调整仍是未知数。

锐评

司法部官员把 AI 和流媒体写进媒体并购语境，只给出“谨慎谦逊”这一句。按监管话术理解，这已经是在移动执法重心，只是正文没披露具体并购案、审查标准、时间表，也没给市场份额门槛。我对这条的判断偏明确：它不像一次随口表态，更像是在替“少拦、多放、先看动态竞争”做舆论铺垫。美国反垄断过去两年对科技和平台并不手软，FTC 起诉 Meta、DOJ 推进 Google 搜索与广告技术案，逻辑都偏结构主义，先看集中度，再看潜在排除。媒体这块现在突然强调 humility，口风差异很大。要么 DOJ 认为旧指标抓不住 AI 分发和流媒体替代关系，要么就是政治层面开始接受“传统媒体太弱，需要整合”这套说法。我对“AI 改变行业，所以执法要更谦逊”这套叙事有点警觉。AI 会改写内容生产、推荐分发、广告定向，没错；但这不自动推出并购更无害。很多媒体并购伤害竞争，靠的不是内容库重叠，而是广告议价、版权采购、分发入口和数据捆绑。生成式 AI 只会让这几个环节更集中：谁有第一方内容、用户行为数据、广告主关系，谁就更容易把模型和分发绑在一起。这个方向下，执法反而该更细，不该更松。文章里没有的上下文是，过去一年美国监管已经在接受一个新现实：相关市场定义越来越难做。TikTok、YouTube、Netflix、播客平台、新闻订阅、AI 搜索摘要，用户时间都在互相替代。我记得 2023 到 2025 年几起媒体和广告案里，市场边界争议都很重，但我没法在这条摘要里核实 DOJ 这次是否准备把“AI 摘要平台”也算进替代品集合。如果他们真这么算，大型媒体并购会更容易过，因为分母一下被做大了。我不太买账的一点是，监管机构喜欢把“不确定”说成“克制”，企业会立刻把它翻译成“放宽”。这中间差一大截。没有具体案件、没有 HHI 阈值、没有补救条件，外界现在无法判断 DOJ 是只在媒体业修辞降温，还是准备把 AI 冲击当成更普遍的并购豁免理由。要是后面出现新闻出版、影视版权库、广告技术渠道的横向整合获批，这句 humility 就不是修辞了，它会变成执法方向。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

22:00

53d ago

FEATUREDTechCrunch AI· rssEN22:00 · 04·20

Google 把 Gemini 塞进 Chrome，又开了 7 个国家

Google 把 Chrome 里的 Gemini 助手扩展到澳大利亚、印尼、日本、菲律宾、新加坡、韩国和越南，桌面端和 iOS 都覆盖，唯独日本没说清楚到底支持哪些平台。这个功能最早今年 1 月在美国上线，3 月加到了印度、加拿大和新西兰。Gemini 在 Chrome 里是个侧边栏助手，能跨标签页回答问题，还能连 Gmail、Google 相册、日...

#Tools#Google#Gemini#Chrome

精选理由

Google 把 Chrome 内 Gemini 推到 7 个国家，属于常规的区域扩张。K 项过关是因为有具体国家和平台覆盖信息；H 和 R 项弱，因为正文没披露版本号、价格或上线时间表，也没有新能力或成本变化。

一句话点评

Chrome 内置 Gemini 又扩了 7 个国家，但能替你操作浏览器的“干活模式”还是美国付费用户专属。

锐评

Google 把 Gemini 侧边栏助手推到了澳大利亚、印尼、日本、菲律宾、新加坡、韩国和越南，桌面端和 iOS 都上，唯独日本暂时没有 iOS 版。这个功能最早今年 1 月在美国上线，3 月扩到印度、加拿大和新西兰，现在覆盖范围又大了一圈。用户可以在侧边栏里跨标签页提问、调取 Gmail 和相册里的个人信息来给个性化回答，也能直接通过日历、地图、Gmail 安排日程或发邮件，还能用 Nano Banana 2 处理网页图片。不过，最值得关注的那部分——让模型直接控制浏览器帮你完成任务的 agent 功能——正文明确说还在测试，而且只开放给美国地区的 AI Pro 和 AI Ultra 付费用户。换句话说，这次新增的 7 个国家拿到的还是“辅助问答”版本，离真正的浏览器自动化还有距离。正文没提免费用户什么时候能用上 agent 能力，也没给出这些新市场的具体推送节奏或完成时间。如果你期待的是 Chrome 自己帮你填表、比价、订票，那这条新闻可以先打个折，等 agent 功能出了美国再说。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

21:32

53d ago

Hacker News 首页· rssEN21:32 · 04·20

Jujutsu 的“大合并”工作流：把所有分支捏成一个本地节点，切换任务不用再切分支

Isaac Corbrey 介绍了一种 Jujutsu（一个比 Git 更现代的版本控制工具）的高级用法：megamerge。做法是用 `jj new x y z` 创建一个有 3 个以上父节点的“章鱼合并”节点，然后 `jj commit --message "megamerge"`。这个合并节点本身不推送，只作为本地工作基座。好处是：你永远在“所有...

#Code#Tools#Isaac Corbrey#Jujutsu

精选理由

HKR-K 通过，因为正文给出了可复现的 `jj new x y z` 工作流和 megamerge 保持本地的规则。HKR-H 和 HKR-R 不通过，因为这是 Jujutsu 版本控制实践笔记，不是 AI 模型、产品或研究更新；对 AI RADAR 来说低于 40 分，所以排除。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

21:28

53d ago

● P1彭博科技· rssEN21:28 · 04·20

Apple 任命 John Ternus 为 CEO，Tim Cook 转任执行董事长

苹果宣布从 9 月 1 日起，硬件工程负责人 John Ternus 将出任新 CEO，Tim Cook 转任执行董事长。Ternus 在苹果干了 25 年，2021 年开始管硬件工程。这次算是把接班时间表定下来了，但正文没披露交接后组织架构会不会调整，也没提 Ternus 上任后的产品路线图。

#Apple#John Ternus#Tim Cook#Personnel

精选理由

苹果 CEO 交接定了具体日子，这是今天必须写的信号。Ternus 长期管硬件工程，他的上任可能让苹果的 AI 落地更偏向端侧和产品整合，但正文没提 AI 部门会不会跟着动，这点先别急着下判断。对关注大厂 AI 策略的人来说，权力交接本身比技术细节更值得盯。

一句话点评

苹果正式换帅，Tim Cook 2026年9月转任执行董事长，硬件负责人 John Ternus 接任 CEO。交接时间明确，但官方公告没提任何战略转向信号。

锐评

苹果这次 CEO 交接，时间点定在 2026 年 9 月 1 日，Cook 退而不休，转任执行董事长，接班的 Ternus 是硬件工程出身，管过 iPhone、Mac 等核心产品线。这个安排说明董事会想稳住硬件基本盘，而不是突然转向服务或 AI。从公告看，苹果把这次交接包装得很平稳，强调 Cook 留下的公司“状态良好”。但公告没披露 Ternus 上任后的具体战略方向，也没提任何组织架构调整。这点先别太激动，平稳交接往往意味着短期不会有激进变化。还缺什么：Ternus 对 AI、Vision Pro 等新业务的公开表态几乎没有，他能不能在硬件之外推动苹果下一个增长点，目前完全看不出来。另外，Cook 作为执行董事长会保留多大决策权，正文也没说清楚。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

21:20

53d ago

FEATUREDHacker News 首页· rssEN21:20 · 04·20

OpenAI 广告合作方开始按“提示词相关性”卖 ChatGPT 广告位

一份泄露的提案显示，广告平台 StackAdapt 正在拉广告主测试 ChatGPT 内的广告，卖点是根据用户输入的提示词来匹配广告。千次展示成本（CPM）报价在 15 到 60 美元之间，试点项目最低要花 5 万美元。我会先打个折：正文没披露广告具体出现在聊天界面的哪个位置、竞价逻辑、实际能覆盖多少人，也没说什么时候正式上线。目前能确定的是，你在 C...

#OpenAI#StackAdapt#Adweek#Product update

精选理由

我会先打个折：现在能看到的只是 RSS 摘要，正文没展开，所以很多关键信息是空的。但“按提示词相关性卖 ChatGPT 广告位”这个钩子本身够尖锐，它把聊天上下文直接变成定向信号，这在 AI 产品变现里是个很敏感的动作。H 和 R 都成立，因为话题既抓眼球又踩中信任和商业模式的核心。K 明显弱，因为广告位、竞价、定价、规模、上线时间全都没披露，只能当个信号先盯着。

一句话点评

OpenAI 的广告合作方开始按用户提问内容卖 ChatGPT 广告位了，最低千次展示成本 15 美元，但入场费要 5 万刀。

锐评

一份泄露给 Adweek 的推销材料显示，广告技术公司 StackAdapt 正在拉品牌方在 ChatGPT 里投广告，卖点不是传统的人群定向，而是“提示词相关性”——也就是根据你正在问 ChatGPT 什么问题，在旁边塞一条相关的广告。千次展示成本（CPM）报在 15 到 60 美元之间，试点项目最低消费 5 万美元，平台费和管理费还打了折。这个价格在展示广告里不算贵，但要注意这只是试点报价，而且材料里没提点击率、转化率这些效果数据。广告具体出现在 ChatGPT 的什么位置、长什么样，正文也没说清楚。另外，这种按提问内容匹配广告的做法，对用户隐私和体验的影响有多大，目前完全没有信息。整体看，这是 OpenAI 把 ChatGPT 当成“搜索入口”来变现的又一步，但广告主能拿到什么回报、用户会不会反感，都还是未知数。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:10

53d ago

FEATUREDr/LocalLLaMA· rssEN21:10 · 04·20

Reddit 用户实测：Gemma-4-E2B 的安全过滤让离线急救查询全被拒

一位 Reddit 用户发帖称，Google 的 Gemma-4-E2B-it 模型在 4 条离线紧急场景提示词上全部硬拒绝，包括气道急救、净水配比、设备维护和牲畜处理。帖子没给出具体提示词、触发阈值和运行环境，所以没法复现验证。这是单用户反馈，不是 Google 的官方测试结果，结论要打折。

#Safety#Google#Commentary#Safety/alignment

精选理由

H和R通过：'安全过滤导致模型无法用于紧急场景'这个钩子尖锐且值得讨论。K不通过：这只是一个Reddit用户的单次测试反馈，没有提示词、配置或拒答阈值，属于弱信号，不是基准级故事。

一句话点评

Reddit 用户反馈 Gemma-4-E2B 的安全过滤器在紧急场景下会拒绝回答，直接让模型不可用。

锐评

这条反馈来自 Reddit 的 LocalLLaMA 板块，但原文被网络屏蔽，我们看不到具体是哪种紧急场景——是医疗急救、自然灾害求助，还是代码故障排查。用户的核心指控是：Gemma-4-E2B 的安全过滤器过于激进，在需要快速给出有用信息的时刻反而选择沉默。这其实点出了一个老问题：安全对齐和实用性之间的平衡。如果模型在紧急情况下因为怕说错话而什么都不说，那它的“安全”就变成了另一种风险。不过目前只有一条用户帖子，没有复现步骤、没有具体 prompt 示例，也没有 Google 官方的回应。我会先打个折——这可能是极端个例，也可能是特定 prompt 触发了过度过滤。想判断这事有多严重，还缺三样东西：一是能复现的紧急场景 prompt，二是模型返回的具体拒绝理由，三是其他用户的交叉验证。单凭一条被屏蔽的帖子，只能说“有人遇到了问题”，不能说“模型彻底废了”。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

21:01

53d ago

r/LocalLLaMA· rssEN21:01 · 04·20

MacBook Air M5 跑 21 个本地模型，测代码质量与速度

Reddit 用户发帖说在 MacBook Air M5 上测了 21 个本地大模型的代码质量和推理速度。正文被 Reddit 屏蔽（403），没披露模型名称、量化方式、上下文长度、每秒 token 数或评分方法。目前能确认的只有设备、模型数量和评测维度，复现条件不完整。

#Code#Benchmarking#Reddit#MacBook Air

精选理由

标题的钩子很具体——21个模型、MacBook Air M5、代码质量和速度，设备选型方向对本地LLM用户有吸引力。但正文完全不可访问，模型名单、量化、上下文、tokens/s、评分方法一概没有，信息缺口大到没法做任何有效判断。硬规则里缺源直接封顶，所以分数卡在38，tier excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:58

53d ago

● P1Hacker News 首页· rssEN20:58 · 04·20

Tim Cook 卸任苹果CEO,John Ternus 接任

苹果官方确认，Tim Cook 不再担任 CEO，转任执行董事长。接任者是硬件工程高级副总裁 John Ternus，他也会进入董事会。原非执行董事长 Arthur Levinson 改任首席独立董事，同样从 9 月 1 日起生效。Cook 从 2011 年乔布斯去世前六周接手，把苹果带到 4 万亿美元市值。正文没披露 Cook 转任后的具体职责范围，...

#Apple#Tim Cook#John Ternus#Personnel

精选理由

这条先别太激动——目前能确认的只有人事变动的标题，正文没给出官方公告、生效时间和组织调整细节。我会先打个折：标题本身够重磅，苹果 CEO 交接十年难遇，对 AI 从业者来说，Ternus 的硬件背景会不会影响 Siri 和端侧模型优先级才是真正要盯的。但因为关键信息全是缺口，只能放在 featured 而不是 p1。

一句话点评

Tim Cook 卸任苹果 CEO，硬件工程负责人 John Ternus 接棒。消息来自 MacRumors 的爆料，苹果官方还没发正式公告，先当传闻看。

锐评

这条消息目前只有 MacRumors 一家在报，来源是 Hacker News 的转载，不是苹果官方通稿。John Ternus 是苹果硬件工程高级副总裁，管过 iPhone、Mac 等核心产品线，从履历看接任逻辑说得通，但正文没披露 Cook 卸任的具体原因，也没提交接时间表。Cook 在位 15 年，把苹果市值从三千多亿美元拉到三万亿，他退下来对供应链和投资者信心的短期冲击会很大。现在缺的是苹果董事会声明、Cook 本人表态，以及 Ternus 对产品路线图的初步说法——没有这些，只能算一条可信度待验证的人事传闻。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:42

53d ago

FEATUREDX · @claudeai· x-apiEN20:42 · 04·20

Claude 的 Cowork 模式现在能直接生成可实时刷新的仪表盘和追踪器，数据来自你绑定的应用和文件

Claude 在 Cowork 里新增了一个能力：生成“活的”小组件，比如仪表盘或进度追踪器。这些组件不是静态截图，每次打开都会自动拉取最新数据。官方说数据源可以是你连上的应用和文件，但具体支持哪些应用、文件类型以及权限怎么管，正文都没提。我会先打个折，等看到实际集成列表再判断实用性。

#Tools#Product update

精选理由

HKR 三项全中：钩子是能连应用和文件的 live artifacts，每次打开自动刷新。这是 Claude 工作流能力的一次实在升级，天然有 Claude 热度加成。但公告没写清楚连接器范围、权限模型和推送节奏，信息缺口明显，所以我会先打个折，放在 78 分，不进 p1。

一句话点评

Claude 在 Cowork 里能直接生成可交互的仪表盘和追踪器了，但官方只发了标题，没给具体怎么连 App 和文件的细节。

锐评

这条更新把 Claude 从“写代码给你看”推到了“直接给你一个能用的工具”。在 Cowork 环境里，它能生成实时仪表盘和追踪器，并且声称可以连接到你自己的应用和文件。这意味着你不用再手动把数据搬来搬去，理论上可以让 AI 直接读取你的 Notion 页面或表格，生成一个动态更新的视图。但这里信息缺口很大。正文是空的，我们只知道一个标题。它具体支持接入哪些 App？连接方式是 OAuth 授权还是手动上传？实时刷新的延迟有多高？这些全都没说。如果只是接入了几个特定的云服务，那实用性会大打折扣。另外，这种“活”的制品一旦连上私人文件，权限和隐私怎么控制，也是必须搞清楚的问题。先别急着激动。等官方放出具体支持列表和操作演示，再判断它到底是真打通了工作流，还是只加了个好看的挂件。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:41

53d ago

● P1彭博科技· rssEN20:41 · 04·20

Amazon向Anthropic追加投资50亿美元

亚马逊对 Anthropic 追加 50 亿美元投资，协议还留了口子，未来可能再追加最多 200 亿。正文没披露估值、股权比例、打款节奏和云服务绑定条款，所以这笔钱到底换来了多少控制权、是不是锁死了 AWS 算力，目前还不清楚。

#Amazon#Anthropic#Funding#Partnership

精选理由

Bloomberg 同天报道亚马逊再投 Anthropic 50 亿美元，对模型圈和云生态有直接冲击。我会先打个折：正文只给了金额，没给估值和排他条款，这点先别太激动。真正要盯的是钱之外的条件——这决定了它更像一笔财务投资，还是更深层的模型与云绑定。

一句话点评

亚马逊又给Anthropic投了50亿美元，但Anthropic承诺未来十年在AWS上花掉1000亿，这钱转了一圈又回亚马逊口袋了。

锐评

这笔交易本质上是亚马逊用投资换云计算的长期订单。Anthropic拿了50亿美元现金，但承诺未来十年在AWS上花超过1000亿美元，用来训练和运行Claude。钱从亚马逊出去，又通过云服务费流回来，对亚马逊来说更像锁定一个大客户。报道提到，Anthropic会用到亚马逊自研的Trainium芯片，从Trainium2一直排到还没发布的Trainium4。这说明Anthropic在算力上深度绑定亚马逊，不再只依赖英伟达。但正文没披露这1000亿的年度分摊节奏，也没说如果Anthropic中途想换云厂商要付多少违约金。另外，TechCrunch提到风投给Anthropic开出了8000亿美元的估值，但Anthropic暂时没接。这点先别太激动，估值是风投单方面给的，不代表公司真实融资进展。还缺Anthropic自己的财务数据，比如收入、亏损和现金消耗速度，光看投资额看不出这笔钱能撑多久。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

20:38

53d ago

● P1X · @AnthropicAI· x-apiEN20:38 · 04·20

Anthropic 与 Amazon 达成合作协议获得 5 吉瓦计算资源

Anthropic 宣布加深与亚马逊的合作，为训练和部署 Claude 锁定了最高 5 吉瓦的算力。这批算力从这个季度开始陆续到位，到 2026 年底预计先上线近 1 吉瓦。5 吉瓦是个什么概念？大概相当于几个大型数据中心的满负荷运转，说明他们接下来要把模型规模或服务量再往上拉一个台阶。不过正文没披露合同金额、具体用什么芯片、数据中心建在哪，所以实际成...

#Inference-opt#Tools#Anthropic#Amazon

精选理由

标题里的 5 吉瓦别直接信，那是远期上限，真正有谱的是今年底先到 1 吉瓦。正文没提合同金额、用什么芯片、数据中心在哪，所以成本结构和实际性能都还是问号。我会先打个折看交付节奏，但能在这个时间点锁产能，对 Anthropic 的训练和部署确实是颗定心丸。

一句话点评

Anthropic 和 Amazon 签了个大单，但 FT 正文被付费墙挡了，具体条款看不到。

锐评

Anthropic 官方博客确认了和 Amazon 扩大合作，目标是拿到最多 5 吉瓦的计算资源来训练和部署 Claude。5 吉瓦什么概念？大概相当于几个大型核电站的发电量，说明他们接下来对算力的胃口非常大。但 FT 标题里那个“1000 亿美元”的数字，Anthropic 自己的公告没提。HN 上的讨论提到 Amazon 先投了 50 亿，Anthropic 反过来承诺了 1000 亿的云消费——这个数字如果属实，更像是一份长期对赌协议，而不是一次性到账的投资。这点先别太激动，1000 亿是未来多年的总消费承诺，不是 Amazon 现在掏出来的现金。目前缺的是：这 5 吉瓦具体什么时候到位、分几年交付、以及 Anthropic 拿什么条件换来的。这些细节都没披露。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

100

SCORE

H1·K1·R1

20:32

53d ago

● P1彭博科技· rssEN20:32 · 04·20

Google 发布新推理芯片产品，与 Nvidia 形成竞争

Bloomberg 这条视频提到 Google 准备推出一批专做推理的新 AI 芯片，正面挑战英伟达。不过正文被付费墙挡了，没披露具体发布时间、型号、性能参数、定价和客户。我会先打个折：目前能确认的信号是推理芯片的供给竞争在升温，但产品到底多能打、什么时候落地，都还是未知数。

#Inference-opt#Google#Nvidia#Cerebras

精选理由

HKR-H 和 HKR-R 通过，因为这条消息把 Google 和 Nvidia 在推理芯片上的直接竞争摆上了台面。HKR-K 弱：报道只确认了推理这个方向，芯片叫什么、跑分多少、卖多少钱、什么时候出、谁会买，这些关键信息正文都没披露，所以信息缺口很大。

一句话点评

Google 把自家第八代 AI 芯片拆成两款：一款专做训练，一款专做推理，性能和性价比数字挺好看，但别急着喊“干掉 Nvidia”，正文里 Google 自己还在云上卖 Nvidia 的卡。

锐评

Google 这次发布的 TPU 8t 和 8i，是把训练和推理分开做专用芯片。训练芯片叫 8t，推理芯片叫 8i，推理就是模型上线后回答用户问题那一步。官方给的数据是训练速度比上代快 3 倍，每块钱能买到的性能提升 80%，还能把超过 100 万颗 TPU 拼成一个集群来用。这些数字如果没注水，意味着跑大模型的时间和电费都能省不少。不过这篇 TechCrunch 的报道没给第三方实测，所有性能数据都来自 Google 自己。而且文章后半段被截断了，我们看不到 Google 对 Nvidia 的具体态度和定价细节。已知的是 Google Cloud 同时还在卖 Nvidia 的 GPU，说明它短期内没打算跟 Nvidia 彻底翻脸，更像是给客户多一个选择。对从业者来说，值得关注的是 Google 有没有公布这些新 TPU 的租用价格、软件生态兼容性怎么样，以及实际跑主流模型的吞吐量。这些信息目前都缺，所以“挑战 Nvidia”这个说法先打个折看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:30

53d ago

The Verge · AI· rssEN20:30 · 04·20

硅谷忘了普通人要什么

The Verge 发了一篇文化评论，说硅谷把大模型吹成了“书写级别的发现”，但普通人根本不在乎。文章只举了一个 ChatGPT 的例子，没有披露完整的论证、数据或批评对象，所以更像一篇观点随笔，不是调查报道。正文没披露具体哪些公司或产品被点名，也没给出用户调研数据来支撑“普通人不需要”这个判断。

#The Verge#ChatGPT#All-In Podcast#Commentary

精选理由

H和R过关：标题制造了尖锐冲突，主题也切中行业对用户需求错配的敏感神经。K不过关：摘要只展示了一个ChatGPT轶事，没有数据、样本或可验证的论断，所以这条只能给低带宽的all。

一句话点评

硅谷精英又陷入自嗨循环了。作者把NFT、元宇宙和AI放在一起骂，说这帮人做的产品根本不是给普通人用的，而是给投资人看的。观点不新但骂得挺准，适合当行业清醒剂。不过全文没给任何数据或用户调研支撑，纯属评论，别当事实看。

锐评

The Verge 用 1 段 ChatGPT 轶事批评硅谷夸大 LLM 体验，正文没给数据、对象名单，也没给更完整论证。就现有信息看，这不是一篇 AI 产业分析，更像一篇文化火力稿。我的态度是：它戳中了一个真问题，但现在证据太薄，打不到想打的那层结构。我一直觉得，AI 圈过去两年最容易失真的一步，就是把“第一次被模型顺手接住意图”的体验，直接升级成“人类认知被重新发现”。这类话术你在播客、VC 场合、创始人访谈里听太多了。2023 年很多人把 ChatGPT 讲成搜索替代。2024 年又有人把 agent 讲成软件终局。到 2025 年，连“模型懂你自造词”都能被包装成语言哲学突破。这里有真实体验，也有明显的叙事通胀。The Verge 抓这个点，方向没错。但我对这篇的力度有保留。标题说“硅谷忘了普通人要什么”，这个判断要成立，至少得回答两个问题：普通人具体要什么，谁在替他们发言。正文摘要里都没给。普通用户对 AI 的选择，其实没有评论区说得那么单一。很多人要的是省 10 分钟写邮件、做作业、改简历、查 Excel 公式，不是 AGI 神话，也不是反科技姿态。要批评硅谷自恋，我同意；要把整个需求面压成“normal people”一个桶，我不太买账。还有个上下文，文章没提到，但做产品的人都知道：很多夸张表述不是从能力评测长出来的，是从分发竞争长出来的。ChatGPT 在 2023 年拿到破圈流量后，几乎所有 AI 产品都学会了一个动作：先卖震撼感，再补留存逻辑。Character.AI 讲陪伴，Perplexity 讲答案，Copilot 讲助手，Rabbit 这类硬件当年更是把 agent 讲到天上。问题不在“硅谷突然不懂普通人”，而在增长压力把每一代新交互都推向宗教化修辞。这个病，Web3、元宇宙时就犯过，现在只是换了 LLM 外壳。我还有一点疑虑。摘要拿 All-In Podcast 当靶子，这个靶子其实不难打，因为它本来就偏表演型表达。可如果文章想说明的是更普遍的行业偏差，那最好要拉出更具体的样本：OpenAI、Anthropic、Meta、应用层创业公司，各自怎么描述用户价值，哪里偏了，偏了多少。现在只有一段“朋友惊叹 ChatGPT 理解自造词”的故事，更多像吐槽，不够构成稳的行业判断。所以这条我会当成一篇情绪准确、证据不足的文化评论来看。它提醒从业者别把自己的新鲜感误认成大众需求，这点没问题。可要把它升级成对 AI 产品路线的批判，材料还远远不够。标题已经给出立场，正文未披露样本、数据和反例处理，我不会替作者补完。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:19

53d ago

Hacker News 首页· rssEN20:19 · 04·20

AI 反抗在蔓延：用户开始主动投毒喂给爬虫

一篇博客指出，越来越多的人正在主动破坏 AI 公司的数据采集。Reddit 上有个叫 r/PoisonFountain 的社区，目标是每天向爬虫投喂 1TB 的垃圾数据（比如看似正确但实际有细微错误的代码），让 AI 公司清洗成本变高。还有人故意在社交媒体上编造离谱信息（比如“Idris Elba 演过《人人都爱雷蒙德》里的妈妈”），专门骗爬虫抓取，逼...

#Commentary

精选理由

H和R能过，因为标题制造了从业者关心的冲突话题。K卡死：正文只暴露了标题、链接和HN热度（132分/77条评论），没披露任何具体案例、地区或数据，按硬排除规则6，分数上限被压在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

20:02

53d ago

r/LocalLLaMA· rssEN20:02 · 04·20

为什么开源工具都不把 llama.cpp 当一等公民？

Reddit 上有人吐槽：很多开源 AI 工具优先支持 Ollama 和 LM Studio，却把 llama.cpp 晾在一边。发帖人认为，只要工具能接 OpenAI 兼容的 API 端口或 URL，适配 llama.cpp 几乎零成本。正文没列出具体哪些工具不支持，也没给采用率数据。核心矛盾不是模型质量，而是集成优先级——开发者更愿意先做 Olla...

#Tools#Inference-opt#Ollama#LM Studio

精选理由

HKR-H 和 HKR-R 成立，因为抱怨本身对本地 LLM 开发者有共鸣。HKR-K 不成立：帖子没给出具体工具名单、采纳数据、维护者成本或一手测试，属于硬排除级零来源，因此分数上限卡在 40 以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

19:51

53d ago

Hacker News 首页· rssEN19:51 · 04·20

在 1982 年的电脑上跑 Transformer：25k 参数，1MHz 主频

一个叫 soulplayer-c64 的项目声称在 Commodore 64（1MHz 主频、64KB 内存）上跑了一个 25k 参数的 Transformer 模型。参数极少（25k，不到 GPT-2 的千分之一），硬件极老（1982 年家用电脑），听起来很酷。但正文只给了 GitHub 仓库页面，没披露模型架构、量化方式、推理速度、训练数据或具体任...

#gizmo64k#GitHub#Commodore 64#Open source

精选理由

HKR-H 靠复古硬件反差通过。HKR-K 和 HKR-R 都不过，因为仓库页几乎没暴露任何可评估的细节——架构、量化、速度、任务全无，所以这只是一个 neat 的开源趣闻，不值得上头条。

一句话点评

有人在Commodore 64上跑了个25k参数的Transformer，1MHz主频，35KB内存。模型极小，但能跑在1982年的古董机上，纯属硬核炫技。短评：极客玩具，别当真用。

锐评

gizmo64k 现在只公开了仓库标题，核心主张是 1MHz 的 Commodore 64 跑起了 2.5 万参数 Transformer。我的判断很直接：这条有趣，但信息量还远不够支撑大家在社媒上那种“LLM 回到边缘端”的兴奋。标题证明了作者想做什么，正文没证明它具体做成了什么。缺口非常大。模型结构没披露，量化方式没披露，推理速度没披露，训练数据没披露，任务定义也没披露。25k 参数听着很小，但小不等于容易落地。C64 典型只有 64KB 内存，CPU 是大约 1MHz 的 6510。光是把权重塞进去，就要看是 8-bit、4-bit，还是更激进的二值化；attention 是全做，还是做了窗口、查表、低秩近似；KV cache 放哪，正文都没说。没有这些，标题里的“real transformer”更像架构标签，不像可复现结论。我会把它放进一条熟悉的脉络里看：这两年大家一直在做“把现代模型塞进古董硬件”的实验，从微控制器上的 tinyML，到浏览器里的小型 Transformer，再到手机 NPU 上的 1B 级量化模型。它们有一个共同点：演示价值常常高于实用价值。去年我见过几次类似项目，能跑 token，不代表能在可接受延迟下完成任务；能完成任务，也不代表保住了 Transformer 关键机制。这个项目现在就卡在这里：它证明了“可以尝试”，还没证明“值得采用”。我对叙事还有一点保留。黑客项目很喜欢用“真的在某某老机器上跑起来了”制造冲击力，但工程上最难的部分常常被折叠掉了：是不是离线预编译了常量，是否把算子特化到固定序列长度，是否把大部分工作搬到训练期，运行时只剩一个很窄的推理路径。这样做完全合理，我自己也不反对，但这会改变结论的含义。它更接近“为一台机器手工雕出来的最小 Transformer 演示”，不是“经典架构自然缩放到 1MHz 平台”。说真的，这条我会继续看 repo 更新。能决定它分量的不是标题，而是四个可复现细节：每 token 延迟是多少，权重占了多少字节，激活和缓存怎么放，实际任务是什么。如果后面给出代码、权重格式和 demo 输出，我会把它当成很漂亮的 systems 作品；在那之前，它还不是 AI 能力新闻，更像计算美学新闻。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

19:37

53d ago

TechCrunch AI· rssEN19:37 · 04·20

AI 写东西有个标志性句式：“不只是……更是……”——Barron's 说这招已经泛滥到几乎能当检测器用了

Barron's 发现一个有趣的 AI 写作指纹：句式“不只是 X，更是 Y”在 2023 年只出现约 50 次，到 2025 年已超过 200 次，翻了四倍多。这个数据来自市场情报公司 AlphaSense 的企业新闻稿、财报和政府文件库。文章认为这个句式现在几乎成了 AI 生成文本的保证书，而不仅仅是一个线索。不过正文没披露样本总量、检测准确率或覆...

#Barron's#Commentary

精选理由

标题有钩子，但正文只抛了一个风格判断，没有样本、方法、准确率或可复现的例子，属于零来源评论，触发硬排除规则6。H和R通过，K不通过。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:55

53d ago

Hacker News 首页· rssEN18:55 · 04·20

Anduril、Palantir 和 SpaceX 正在改变美国打仗的方式

这篇《经济学人》文章标题说这三家科技公司正在改变美国打仗的方式，但正文只给了标题和 RSS 条目，没有披露具体产品、合同金额、部署规模或时间线。关键问题是每家公司改变了国防体系的哪个环节——Anduril 做自主武器和无人机，Palantir 做战场数据分析平台，SpaceX 提供卫星通信（星链）。不过正文没展开讲，信息缺口很大。

#Anduril#Palantir#SpaceX#Commentary

精选理由

HKR-H靠'三家公司联手改变美军作战'这个标题钩子过关。HKR-K和HKR-R都挂了，因为RSS只确认了公司名和一句论点，没有产品、合同、部署或时间细节，硬性排除-零来源规则把它压在40分以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

18:46

53d ago

FEATUREDHacker News 首页· rssEN18:46 · 04·20

Qwen3.5-27B 在 RTX 3090 上实现 207 tok/s 推理速度

Luce-Org 放出一个优化方案，声称在单张 RTX 3090 上把 Qwen3.5-27B 的推理速度推到 207 tok/s。这个数字很漂亮——27B 模型跑出这个速度，意味着日常聊天几乎感觉不到延迟。但正文没披露用了什么量化（比如 4-bit 还是 8-bit）、什么推理后端（vLLM 还是 llama.cpp）、batch size 多大、上...

#Inference-opt#Benchmarking#Luce-Org#Qwen

精选理由

H 和 R 都成立：207 tok/s 在 RTX 3090 上跑 27B 模型是个强 hook，也切中本地推理的成本性能神经。K 不通过，因为量化、后端、batch、上下文长度全没披露，这个声称缺乏复现细节，只能归到 all 层级。

一句话点评

单卡3090跑27B模型到207 tok/s，数字漂亮但缺关键细节。

锐评

Luce-Org 放出一个优化方案，声称在单张 RTX 3090 上把 Qwen3.5-27B 的推理速度推到 207 tok/s。这个速度意味着日常聊天几乎感觉不到延迟，比官方 baseline 快了好几倍。但正文没披露用了什么量化（4-bit 还是 8-bit）、推理后端（vLLM 还是 llama.cpp）、batch size 多大、上下文长度多长。这些变量对速度影响极大——比如 4-bit 量化能翻倍，但精度损失没提。另外，207 tok/s 是首 token 延迟还是稳态吞吐？如果是稳态，那首 token 延迟可能不低。目前只有 GitHub 仓库，没有论文或第三方复现验证。建议等社区跑一遍再信，别急着拿这个数字去跟老板汇报。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:39

53d ago

Hacker News 首页· rssEN18:39 · 04·20

Kimi 开源了一个验证推理供应商准确性的工具

Kimi 发布了一个叫 Vendor Verifier 的开源工具，用来检查第三方推理服务跑自家模型时有没有“偷工减料”。起因是 K2 Thinking 发布后，社区反馈跑分异常，Kimi 排查发现很多问题出在推理参数没按要求设（比如 Temperature 强制 1.0、TopP 0.95），甚至有些供应商的 API 实现有 bug。工具选了 6 个...

#Inference-opt#Benchmarking#Tools#Kimi

精选理由

H 和 R 通过：校验推理服务商准确性是个新奇的钩子，也是真实的信任痛点。K 不通过：正文只披露了工具名，方法、误差定义、支持的服务商、复现条件全都没给，所以分数在 60 多分，tier 设为 all。

一句话点评

月之暗面开源了Kimi Vendor Verifier（KVV），一套用来验证第三方推理服务是否跑对了K2.6模型的测试工具。核心动机是：模型开源后，不同厂商的部署实现参差不齐，用户分不清是模型本身不行还是部署方没配好。KVV选了6个基准测试，覆盖参数强制、多模态、长输出、工具调用等场景，跑一轮约15小时（2台H20*8卡）。亮点是公开了官方API的分数作为对照，还要求先过Pre-fligh...

锐评

Kimi 只公布了一个工具名和一篇链接，正文未披露校验机制、支持哪些 provider、误差定义与接入方式。我的判断很直接：这条先别当产品力，看成一次叙事卡位更合适。现在各家都在讲“同权重跨推理服务商可替换”，但做过线上推理的人都知道，准确性从来不是一个单点数字，它至少受采样参数、系统提示、量化方式、KV cache 策略、工具调用超时这几层影响。你不先把条件钉死，所谓 verifier 很容易退化成一次性对拍脚本。我想到的参照物有两个。一个是前几年很多团队做 LLM eval harness，最后都卡在“同一模型名不等于同一行为”这件事上；另一个是 Inference.net、Together、Fireworks、Groq 这类推理平台过去一年反复强调吞吐、延迟、单价，公开把“输出一致性”讲清楚的其实不多。原因不复杂：同样是兼容 OpenAI API，后端调度、连续批处理、量化配置一换，长链 agent 任务的结果就会漂。这个问题在代码生成和 tool use 场景更严重，单轮 benchmark 漂亮，线上成功率还是会掉。所以我对这条的 pushback 也在这：Kimi 如果真想把 verifier 做成有说服力的工具，至少要公开三件事。第一，误差怎么定义，是 exact match、语义相似、函数调用成功率，还是长任务完成率。第二，复现条件怎么锁，temperature、top-p、seed、max tokens、system prompt 是否全量固定。第三，比较对象是不是同一基础模型的不同 provider，还是不同蒸馏版、量化版混在一起。标题给了“verify accuracy”，正文没给这三层，信息量还不够支撑判断。我还没查到它是不是偏内部采购工具，还是会对外开放。如果只是 Kimi 自己拿来筛供应商，这很合理，Moonshot 这种规模做多云和多推理后端，本来就需要质量回归工具。如果它想进一步变成行业标准，那门槛高很多，因为行业现在缺的不是又一个 scoreboard，缺的是一套大家愿意接受的误差口径。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:38

53d ago

FEATUREDHacker News 首页· rssEN18:38 · 04·20

膨胀伪影：大模型输出的瑕疵不是压缩痕迹，而是解压时脑补过头的证据

Matt Ström-Awn 把大模型生成内容里的毛病叫做“膨胀伪影”，而不是压缩伪影。他的逻辑是：模型从模糊的训练数据里往外“解压”时，会在信心不足的地方用训练分布里的高频模式硬填，于是就有了那些套话、过度注释的代码、六指手和穿模视频。这些痕迹能当法医线索用——斯坦福的研究人员靠追踪 ChatGPT 发布后词频飙升的词（比如 commendable、...

#Multimodal#Code#Vision#Matt Ström-Awn

精选理由

我会先打个折，这是个人博客评论，不是一手研究或产品发布，所以分数停在 73。但它的钩子很巧，把 LLM 的毛病重新包装成“扩展伪影”，一下就把审美收敛和生成路径暴露的问题串起来了。文章给的数字也实在，17.5% 的论文和 16.9% 的审稿有 AI 起草痕迹，说明这已经不是小范围现象。JPG 压缩 10000 次后 PSNR 掉到 14.59 的类比虽然不算严谨实验，但直观地让人感受到反复生成带来的退化。真正值得盯的是取证价值：这些伪影不光是风格问题，还可能成为追踪生成路径的线索，这对审稿信任和内容溯源都挺要命的。

一句话点评

把大模型输出比作“膨胀失真”挺准：它不是压缩坏了，是解压时脑补过头，把模糊的训练数据硬撑成看似合理的废话。

锐评

这篇文章把 AI 生成内容的毛病重新起了个名字叫“膨胀失真”，区别于传统压缩失真。核心判断是：大模型不是把信息压坏了，而是在从模糊的训练数据里往外“解压”时，为了凑出像样的答案，自己脑补了太多细节。这个视角比 Ted Chiang 当年“模糊的 JPEG”比喻更进一步，把问题从存储环节挪到了生成环节。文章举的例子很具体：AI 写的文章爱用“delve”“multifaceted”这类虚词，代码会给不可能出错的地方写异常处理，图片里手指多一根，视频里胳膊突然消失。斯坦福 2024 年的研究给了一个量化佐证——ChatGPT 发布后，计算机论文里估计有 17.5% 的内容带 AI 痕迹，甚至有人把“Certainly, here is a possible introduction”直接留在了发表的文章里。这些数字说明 AI 的“膨胀失真”已经从梗图渗透进了学术生产。不过文章主要靠现象归纳和比喻，没有解释模型为什么会在这些特定位置“膨胀”，也没区分不同架构或训练策略下失真模式的差异。它更像一个设计师从媒介考古角度做的观察，而不是技术归因。如果想知道这些失真在什么条件下会收敛或加剧，还需要看训练数据分布和采样策略的对照实验。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

18:24

53d ago

Hacker News 首页· rssEN18:24 · 04·20

GitHub Copilot 个人版套餐调整

GitHub 发了一篇博客说 Copilot 个人版套餐要改，但正文只抓到了页面框架和标题，没披露具体价格、额度、生效日期或升降级规则。目前能确认的只有“有调整”这件事，具体怎么调、对现有用户有什么影响，正文里都没写。

#Code#Tools#GitHub#GitHub Copilot

精选理由

HKR 排除：GitHub 发了 Copilot 个人套餐调整公告，但正文只有页面框架，价格、配额、生效时间、迁移规则一概没披露。没有强钩子，没有可用的新事实，信息太少不足以引发从业者讨论。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

18:18

53d ago

彭博科技· rssEN18:18 · 04·20

IPO市场回暖，Anthropic、OpenAI、SpaceX等大公司排队上市

Rainmaker Securities的Greg Martin在Bloomberg Tech上说，IPO市场开始有动静了，因为投资者都在盯着Anthropic、OpenAI和SpaceX这些大公司的上市计划。不过正文没披露回暖的具体幅度、时间点或估值数字，这更像是一个市场情绪和时机的判断，不是正式的上市公告。

#Rainmaker Securities#Anthropic#OpenAI#Commentary

精选理由

Bloomberg这条确实有个市场角度的钩子——IPO窗口可能在Anthropic和OpenAI上市前重新打开，所以H和R都成立。但K不成立，因为正文没给任何回温指标、估值范围或上市时间表，信息缺口太大，只能留在all层。

一句话点评

彭博报道称IPO市场在大规模上市前回暖，但正文被反爬墙拦截，实际内容为零。无法确认回暖的具体数据、行业分布或时间节点。这条消息目前只有标题有价值，具体判断需等能访问原文再说。

锐评

Bloomberg 这段视频点名 3 家公司带动 IPO 预期，但正文没给回温幅度、时间区间、估值口径。我的判断很直接：这条信息含量不在“谁要上市”，而在一级和二级市场已经开始拿 Anthropic、OpenAI、SpaceX 当流动性故事用了。说真的，这种讨论本身就能推高情绪。Rainmaker Securities 做的是私募二级和流动性撮合，Greg Martin 站在这个位置谈“市场回温”，天然会放大窗口叙事。问题是，文章里没有成交数据，没有 IPO 定价区间，没有近 30 天新股表现，也没有说回温发生在 AI、国防科技，还是更广的成长股。标题给了方向，正文没给证据。没有这些数字，我不会把它读成“上市窗口已经打开”，只能读成“有人在提前为退出预热”。外部背景其实很清楚。2024 到 2025 年，美国 IPO 市场确实反复试探过重启，但能稳定成交的，大多还是盈利路径更清晰、口径更传统的公司。AI 里估值最高的几家，反而最难上。原因不复杂：一级市场愿意按算力储备、收入年化、战略位置给高倍数；公开市场要看毛利结构、客户集中度、资本开支、以及股票解禁后的供给压力。Anthropic 和 OpenAI 这类公司，如果真往 IPO 走，招股书里最刺眼的未必是增长，而是推理成本、云依赖、以及和 Amazon、Microsoft 这类大股东兼渠道方的关系。我记得过去一年市场对“AI 高增长能否穿透到自由现金流”一直很敏感，这个问题到 2026 年也没消失。我对把 OpenAI 和 Anthropic 放进“mega listings”篮子里还有个保留。它们当然足够大，也足够热，但“大”不等于“适合现在上市”。OpenAI 现在的治理结构、利润分配安排、以及和 Microsoft 的商业绑定，公开市场能不能顺利消化，文章一句没提。Anthropic 也类似，Amazon 持股、云合作、模型收入质量，这些都决定 IPO 叙事能不能站住。SpaceX 反而是另一个逻辑：它的品牌号召力最强，但 Musk 一向不喜欢把核心资产轻易放进公开市场约束里。把这三家并列讨论，很抓眼球；拿来判断实际挂牌概率，我觉得有点过。还有一层别忽略：当市场开始反复讨论“谁会是下一家 mega IPO”，很多时候说明一级流动性已经紧了，老股东在找退出锚。这个信号不一定差，甚至常常是窗口要开的前兆；但它首先服务的是估值锚定，不是上市确认。你可以把它看成 sell-side 和 private markets 先把故事讲起来，等利率、二级科技股估值、以及最近几单 IPO 的破发率配合上，再决定谁真去敲钟。所以这条我不会顺着标题走。它没有告诉我们 Anthropic、OpenAI、SpaceX 谁准备递表，也没有告诉我们 IPO 市场已经恢复到什么程度。它只告诉我们，市场很想要一个足够大的 AI 流动性事件。我自己的 pushback 是：想要，不等于能上；能上，也不等于上完还能撑住那个私募估值。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

18:13

53d ago

r/LocalLLaMA· rssEN18:13 · 04·20

Qwen3.6与Gemma4本地推理性能对比讨论

Reddit 用户用 16GB 显存的显卡跑两个 MoE 模型，Qwen3.6 35B-A3B 表现比 Gemma 4 26B-A4B-it 好，速度差不多。配置是 Windows + LM Studio，模型用了量化版（Q4_K_S 和 IQ4_XS）。但帖子没给任何跑分、任务列表或 token 吞吐量，结论纯属个人感受，不是严谨评测。

#Inference-opt#Benchmarking#LM Studio#Unsloth

精选理由

HKR-H 和 HKR-R 成立：Qwen 对 Gemma 的 16GB 显存对决，话题性和实用性都够，值得讨论。HKR-K 不成立：帖子虽然给了量化版本和运行设置，但没披露任何基准任务、分数或 token 速度，结论只是个人体验，不是系统评测，所以只能放 low-band all，不值得上 featured。

一句话点评

Reddit 用户对比了 Qwen3.6 35b-a3b 和 Gemma4 26b-a4b-it 的本地推理性能，但正文被屏蔽，实际内容不可见。从标题看是个人主观对比，非官方评测，样本量小（仅 2 条讨论），结论需谨慎参考。缺具体测试任务、硬件配置和量化方式。

锐评

Reddit 用户用 16GB 显存显卡（Windows + LM Studio）跑两个 MoE 模型：Qwen3.6 35B-A3B（IQ4_XS 量化）和 Gemma 4 26B-A4B-it（Q4_K_S 量化），结论是 Qwen 表现更好，速度差不多。但帖子没给任何跑分、任务列表或 token 吞吐量，结论纯属个人感受，不是严谨评测。关键信息缺失：没说明具体测试了哪些任务（比如代码、推理、对话），也没披露生成速度（t/s）和显存占用。量化版本和设置虽然写明了，但不同量化精度对模型能力影响很大，IQ4_XS 和 Q4_K_S 的压缩比不同，直接比“表现”不公平。如果真想在 16GB 卡上选 MoE 模型，建议等有人跑标准 benchmark（如 MMLU、GSM8K）或至少给出同任务下的输出对比。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

17:23

53d ago

FEATURED彭博科技· rssEN17:23 · 04·20

法新社称马斯克无视法国传唤，案件涉及 Grok 生成色情换脸和否认大屠杀内容

法新社报道，马斯克没理会法国检方的一张传票，调查指向 Grok 产出了露骨的性爱换脸图和否认大屠杀的言论。正文被 Bloomberg 的机器人验证墙挡住，看不到传唤日期、案件编号、具体生成了多少条违规内容，也没提是 Grok 哪个版本。这事重点不在马斯克去不去，而是 Grok 的安全底线到底设在哪，目前信息缺口太大，先别急着下结论。

#Safety#Elon Musk#Grok#Agence France-Presse

精选理由

法国检方对 Grok 的色情深伪和否认大屠杀输出立案调查，马斯克不理会传唤，让事件从技术故障升级为司法对抗。H 值来自传唤被无视的戏剧性，K 值落在检察官正式介入这个可验证动作上，R 值则因为这事牵动平台安全底线和跨国监管风险。不过正文没给出传唤时间、案件编号、涉事输出次数和 Grok 具体版本，信息缺口不小，所以重要性停在 76 分、featured 中段是合理的——先别急着往更高调。

一句话点评

马斯克在 Grok 生成性图像案中无视法国法院传唤，但正文被付费墙挡住，具体指控和证据都没看到。

锐评

这条新闻本身信息量很薄，因为 Bloomberg 原文被 403 挡死了，我们只能从标题和 AFP 的转述里拼凑。核心事实是：法国那边因为 Grok 生成涉性图像的事在打官司，马斯克这边没搭理法院。但“snub”具体指什么——是拒收传票、不出庭、还是律师不回应——正文没披露。案件性质、图像内容、可能的法律后果也一概不知。对从业者来说，这事的看点在于生成模型的内容审核责任正在从舆论场走进法庭。法国对平台责任一向手紧，如果这次真判出什么先例，对在欧洲部署多模态模型的公司会有直接影响。但眼下信息缺口太大，没法判断这案子是雷声大雨点小，还是真能砸出坑。建议等 AFP 或法院文件出来再下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

17:17

53d ago

FT · 科技· rssEN17:17 · 04·20

美国“有线带”要造反：AI 抢的不是蓝领，是郊区白领的饭碗

FT 评论文章提出一个观点：美国下一波反 AI 浪潮不会来自锈带工人，而是来自郊区知识工作者——作者称之为“有线带”。正文只有一句话，说这股愤怒跟当年帮特朗普上台的情绪类似。文章没披露具体哪些行业会先被冲击、地理范围多大，也没提哪些 AI 政策是导火索。信息缺口明显，但论点本身值得留意：如果白领也开始觉得 AI 在抢自己饭碗，政治压力会比蓝领失业更大。

#Financial Times#Trump#Commentary#Policy

精选理由

标题的“wired belt”是个好钩子，但正文只有一句摘要，把这种情绪类比成当年推 Trump 上台的愤怒，没给任何数据、行业案例或政策机制。H 和 R 都成立，但 K 完全不过关——没有可验证的信息，触发硬排除规则（零来源），所以重要性压到 36 分，直接排除。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:58

53d ago

FEATUREDThe Verge · AI· rssEN16:58 · 04·20

Epic 给《堡垒之夜》创作者发了 AI 角色工具，但明令禁止和 NPC 谈恋爱

Epic 在《堡垒之夜》里上线了一个叫“对话”的工具，让创作者可以把自己岛上的 NPC 变成能自由聊天的 AI 角色。创作者用提示词设定角色的人设、知识范围、行为和声音，玩家就能跟 NPC 进行不按剧本走的对话。标题特意警告“别想和 AI 约会”，但正文没具体说防越狱和内容审核机制到底怎么做的。去年 Epic 在游戏里试水过 AI 版达斯·维达，结果角...

#Agent#Tools#Epic Games#Fortnite

精选理由

Epic 给 Fortnite 创作者发了个新工具，能让岛上的 NPC 跟玩家自由聊天，用提示词定人设、知识和行为，还能选语音。标题特意警告别拿来搞约会对象，但正文没写具体怎么审核、什么话不能说，也没提成本和用的哪家模型。我会先打个折：可控性才是重点，不是“会聊天”本身。

一句话点评

Epic 给 Fortnite 创作者开放了 AI 角色工具，但明确禁止玩家和 NPC 谈恋爱，这比技术本身更值得玩味。

锐评

Epic 在 Fortnite 的创作者工具里加了一个新功能：允许开发者往游戏里放能聊天的 AI 角色。这不算新鲜事，去年他们就试过 AI 版达斯·维达，结果那个维达会说脏话，翻过一次车。这次正式开放给创作者，等于把风险摊给了整个生态。最显眼的是规则里那条“别想和 AI 约会”。Epic 显然预判了玩家会干什么，提前划了红线。这反映出两个问题：一是 AI 角色在游戏里的交互边界还没定，厂商只能靠“不许谈恋爱”这种笨办法来防滥用；二是正文没披露这些 AI 角色背后用的是什么模型、对话安全审核怎么做、成本由谁承担。如果创作者要自己付 API 费用，那这个功能对小型团队可能就是个摆设。另外，报道只提了功能开放，没给任何数据——比如有多少创作者在用、玩家平均对话轮次、有没有新的翻车案例。没有这些，我们只能把它当成一个谨慎的实验，而不是什么游戏 AI 的转折点。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

16:37

53d ago

Hacker News 首页· rssEN16:37 · 04·20

量子计算机对128位对称密钥不是威胁

这篇文章的核心观点是：量子计算机不会威胁AES-128、SHA-256这类对称加密算法，密钥长度不需要因为量子计算而加长。很多人误以为量子计算会让对称密钥的安全性“减半”，所以需要256位密钥才能达到128位的安全级别——这是对Grover算法的误解。Grover算法虽然理论上能把暴力破解AES-128的复杂度降到2^64次操作，但实际中这个攻击必须串...

#Commentary

精选理由

标题抛了个反常识判断——量子计算机不威胁128位对称密钥，但正文没给论证路径、算法前提或纠错条件，信息缺口太大。HKR-H靠反常识标题勉强过线，但K和R都不过：K缺关键数据验证，R直接跑题到密码学领域。硬排除规则（技术可及性/离题）把分数压在40以下，最终34分合理。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

16:27

53d ago

r/LocalLLaMA· rssEN16:27 · 04·20

7900XTX 本地跑 Qwen 3.6，全自动搓了个安卓 App

Reddit 用户 Acu17y 说，只用一张 AMD 7900XTX 显卡本地跑 Qwen 3.6，模型就全自动写出了一个安卓应用，全程没联网。听起来很酷，但帖子正文被屏蔽了，看不到具体用了多大模型、什么工具链、显存占用多少、跑得快不快、成功率如何。所以这点先别太激动——本地全自动做 App 确实有潜力，但缺关键细节，比如是不是只跑通了一次 Hell...

#Agent#Code#Tools#Qwen

精选理由

HKR-H 和 HKR-R 通过：单卡本地自主编码演示确实有钩子，也切中了自建模型和成本控制的痛点。HKR-K 不通过：正文缺失模型规格、工具链、显存、速度和成功率等关键信息，只能算个人项目展示，不够格作为可引用的证据。

一句话点评

一位用户声称在单张 AMD 7900 XTX 显卡上跑通了 Qwen 3.6 的自主运行，但正文被 Reddit 屏蔽，实际内容为零。目前无法验证任何细节：模型大小、推理速度、是否真的“自主”（可能只是简单循环调用）。如果属实，说明消费级显卡跑本地智能体已有可行性，但成本、延迟、稳定性全未披露。建议等原帖恢复或看其他用户复现再下判断。

锐评

7900XTX 用 24GB 显存跑本地 Qwen 3.6 代理演示，这个事实成立；“自主做 Android 应用”这句，正文没给成功率。我的判断很直接：这条先别当成“单卡 AMD 已经把本地软件工程代理跑通了”，先当成一段能跑起来的个人编排演示。标题最容易让人误会的地方，就是把“自动化流程存在”偷换成“代理能力稳定可复现”。两者差得很远。我一直觉得，本地 agent 圈子这半年最容易被视频误导。屏幕上连续调工具、写代码、开终端，看着像 autonomous；实际决定含金量的，是 4 个没披露的量：模型到底是多大，量化到什么位宽；上下文多长；每步调用了哪些外部工具；一轮任务跑完花了多少 token、多少分钟、多少次人工救火。这里一个都没有。连“qwen 3.6”具体是哪一档也没说。正文只有“全部本地、自动化、个人项目”。这离 benchmark 还很远。回到硬件这块，7900XTX 本身并不离谱。它有 24GB VRAM，跑中等尺寸的代码模型量化版，配合 llama.cpp、vLLM 的 ROCm 路线，或者 SGLang/MLC 一类推理栈，我自己完全信能把 agent loop 跑起来。过去一年，LocalLLaMA 社区已经反复证明：单张消费卡能做工具调用、代码补全、网页操作，问题从来不是“能不能动”，而是“多久崩一次”。如果是 7B 到 14B 量级的 Qwen coder 系，4-bit 量化再加工具链，单卡很合理；如果是更大的混合专家模型，正文就该把分层卸载、KV cache、tokens/s 说清楚。现在都没有。我对“autonomous”这个词有点警觉。很多 demo 的做法，是把任务拆成很窄的脚手架：固定仓库模板、固定 Android 构建链、固定 prompt、固定可调用命令，再让模型在这个笼子里选动作。这样当然有工程价值，我不否认；AutoGen、OpenHands、Aider 联工具，去年就有人这么玩。但它更像 workflow automation 加一点模型决策，不是大家脑补的通用软件工程代理。说实话，我不太买“看视频就等于能力突破”这套叙事。还有个上下文，标题故意没说：AMD 本地推理这半年确实比 2024 年顺了不少。ROCm 兼容性、Windows 下的折腾程度、社区模型支持，都比一年前好。我没法从这条帖子证明 7900XTX 已经成了 agent 首选卡，但它至少说明一件事：消费级 AMD 卡在本地 agent 场景里，已经从“能跑算你厉害”走到“有人拿来做完整项目演示”。这对 Nvidia 不是威胁级新闻，对本地开发者倒是实际利好，尤其是显存/价格比这件事。但判断能不能抬级别，还是看复现信息。标题已经给出“单张 7900XTX、本地、自动化 Android app”；正文没披露模型参数、量化方式、推理框架、tokens/s、任务完成率、失败样本。我还没查到原帖评论里有没有补这些。没这些，这条最多说明本地 agent demo 的门槛在下降，说明不了“单卡本地开发代理已经成熟”。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

16:17

53d ago

FEATUREDLatent Space· rssEN16:17 · 04·20

用 Transformer 解决癌症临床试验 95% 的失败率——Noetik 的 Ron Alfa 和 Daniel Bear

95% 的癌症疗法通不过临床试验，Noetik 认为这主要是个配对问题：没搞清楚哪个病人、哪种肿瘤、该用哪种已有的药。他们训练了一个叫 TARIO-2 的自回归 Transformer，能从每个病人都会做的常规 H&E 染色切片里，直接预测出约 19,000 个基因的空间表达图谱。这种空间转录组数据原本是读肿瘤最丰富的方式，但标准治疗里几乎没有病人会做...

#Multimodal#Vision#Noetik#GSK

精选理由

我会先打个折：正文没披露 TARIO-2 在独立验证集上的具体性能指标，也没说 5000 万协议是里程碑付款还是一次性，这点先别太激动。但这条消息的钩子很准——它没吹“AI 治愈癌症”，而是把 95% 的失败率解释成患者、肿瘤和疗法没对上号，然后用 transformer 从常规病理切片里预测近两万个基因的空间分布，相当于给肿瘤微环境画了一张高维地图。GSK 愿意掏钱，说明至少内部验证过了门槛。对从业者来说，值得盯的是这种“从便宜影像出昂贵组学数据”的省钱逻辑能不能复制到其他癌种，以及模型泛化到不同医院染色标准时会不会崩。

一句话点评

GSK 花 5000 万美元买 Noetik 的模型授权，不是买药，是买一个从常规切片预测肿瘤基因图谱的软件。这点先别太激动，正文没披露模型在真实临床匹配上的验证数据。

锐评

Noetik 的思路很直接：95% 的癌症临床试验失败，他们觉得主要不是药不行，是配对没做好——没搞清楚哪个病人、哪种肿瘤、该用哪种已有的药。他们训练了一个叫 TARIO-2 的自回归 Transformer，能从每个病人都会做的常规 H&E 染色切片里，直接预测出约 19,000 个基因的空间表达图谱。这种空间转录组数据原本是读肿瘤最丰富的方式，但标准治疗里几乎没有病人会做，所以 TARIO-2 相当于用 AI 把昂贵检测“补”出来。 GSK 签了 5000 万美元的技术授权合同，外加未披露金额的长期模型授权。这个合作有意思的地方在于，它不是买断一个候选药，而是买一个软件平台。过去大药企对 AI 工具的兴趣主要在内部研发，这次直接为模型付费，说明药企开始愿意为工具型 AI 掏钱了。不过正文没给出 TARIO-2 在真实临床场景下的预测准确率，也没说这个基因图谱预测到底能把临床试验成功率从 95% 失败率拉回来多少。模型训练数据规模很大，但从“预测基因表达”到“指导用药匹配”中间还有一大段路，缺的是前瞻性验证和临床决策闭环的证据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:41

53d ago

FEATUREDHacker News 首页· rssEN15:41 · 04·20

Deezer 每天上传的新歌里，44% 是 AI 生成的

Deezer 自己公布的数据：现在每天有将近 7.5 万首 AI 生成的歌上传到平台，占每日新增上传量的 44%，一个月下来超过 200 万首。不过这些歌基本没人听——AI 歌曲的播放量只占总播放量的 1% 到 3%，而且其中 85% 的播放被平台判定为刷量欺诈，直接不给钱。这个比例涨得很快：去年 9 月每天还只有 3 万首，11 月到 5 万首，今年...

#Audio#Deezer#Commentary

精选理由

标题里的44%占比是个抓人的钩子，能让人立刻意识到AI音乐已经不是边角料了。但我会先打个折：正文只有RSS片段，检测手段、统计口径全都没说，这个数字的硬度存疑。真正值得盯的是平台后续怎么识别和处置这些AI作品，现在信息还不够做更细的判断。HKR三项都踩中了，所以保留76分和featured级别。

一句话点评

上传量近半是 AI 歌，但实际听的人极少，而且八成五的播放被平台判为刷量、不给钱。

锐评

Deezer 自己公布的数据：每天新上传的歌里，44% 是 AI 生成的，差不多一天 7.5 万首，一个月超过 200 万首。这个比例涨得很快——去年 9 月还只有 3 万首/天，今年 1 月 6 万，现在又多了。但先别被“近半”吓到，真正被用户听到的 AI 歌只占总播放量的 1% 到 3%，而且其中 85% 的播放被 Deezer 判定为欺诈流量，直接不给版税。换句话说，大量 AI 歌曲是冲着薅平台羊毛来的，但平台已经在拦截。文章没交代 Deezer 用什么技术判断一首歌是不是 AI 做的，也没说误判率有多高。另外，这 44% 只是上传量，不是上架量——有多少被拦在审核环节、多少真的进了曲库，正文没披露。想拿这个数字去推整个音乐行业的 AI 渗透率，还得等更多平台公开类似数据。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

15:36

53d ago

● P1Hacker News 首页· rssEN15:36 · 04·20

Kimi K2.6 发布，推进开源代码能力

Kimi 在 X 上宣布了 K2.6，定位是开源编程模型。但这条推文只提了名字和定位，没放权重、没给许可证、没贴跑分、也没说什么时候能拿到。所以目前只能当个预告看——到底开源到什么程度，正文没披露。

#Code#Kimi#Moonshot AI#Open source

精选理由

这看起来是月之暗面真实的新模型信号，但信息量太少。HKR-R 靠中国开源代码这个竞争角度过关；HKR-H/K 不通过，因为正文没给参数、许可、基准或上线细节，所以留在 all 层级，不上推荐位。

一句话点评

Kimi 发了新开源模型 K2.6，主攻长链条编程和让多个 AI 智能体协同干活，跑分和实测案例都挺猛，但技术细节和模型参数一概没提。

锐评

Kimi K2.6 这次把重点放在了“长链条编程”上，也就是让模型自己连续干十几个小时的工程活，中间不断调用工具、改代码、看性能图，最后把活干完。博客里举了两个例子：一个是用小众语言 Zig 在 Mac 上部署并优化另一个模型，吞吐量从每秒 15 个 token 拉到 193，比 LM Studio 还快 20%；另一个是重构一个 8 年老的开源金融交易引擎，把中等吞吐量提升了 185%。这些数字说明模型在长时间、多步骤任务里的稳定性和工具调用能力确实有提升，CodeBuddy 的测试也提到工具调用成功率到了 96.6%。不过这篇博客更像产品发布，不是技术报告。模型多大、训练数据、架构改动、推理成本这些关键信息正文完全没披露。引用的跑分表里只有模型名字没有具体分数，内部基准 Kimi Code Bench 也没有公开细节，所以“最强开源代码模型”这个结论外人没法复现验证。另外，企业好评都来自合作测试方，样本量和测试条件未知，参考价值要打折。想认真评估的话，还得等模型权重放出来之后看社区实测，尤其是长链条任务的翻车率和 API 调用成本。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

15:35

53d ago

FT · 科技· rssEN15:35 · 04·20

Fermi股价暴跌：高管集体出走，数据中心概念股风险暴露

Fermi股价暴跌，原因是多名高管同时辞职。这家公司之前已经丢了一笔亚马逊1.5亿美元的投资。正文没披露具体跌幅、离职高管姓名、时间点以及后续融资计划。真正的信号是公司治理风险，而不是数据中心行业本身的问题。

#Fermi#Amazon#Trump#Personnel

精选理由

HKR-H 靠的是双重打击的钩子：股价暴跌加高管出走。HKR-K 来自一条硬事实——Amazon 撤回了1.5亿美元投资。但跌幅、高管姓名、离职时间和融资背景都缺失，限制了共鸣，所以留在 all 而非 featured。

一句话点评

数据中心初创公司 Fermi 高管集体离职，股价暴跌。正文被 FT 付费墙挡住，没披露具体离职人数、原因以及股价跌幅。对 AI 基础设施赛道来说，这类公司靠融资讲故事撑估值，高管跑路是危险信号，但缺细节没法判断是经营问题还是个人原因。

锐评

Fermi 已失去 Amazon 的 1.5 亿美元投资，又出现多名高管离职。只看标题和摘要，我对这家公司最大的判断不是“倒霉”，而是董事会、融资、项目执行三条线很可能同时出了问题。数据中心项目最怕的不是舆论，而是资本结构一旦松动，建设节奏会按季度失真，供应商信用也会一起掉。这里麻烦在于，正文没有披露四个关键点：股价到底跌了多少，离职的是 CEO 级还是建设、融资、运营负责人，Amazon 撤资发生在何时，现有现金还能撑多久。少这四项，外部几乎没法判断它是短期人事震荡，还是项目已经进入再融资失败区间。标题只给了“高管离职 + 亚马逊 1.5 亿美元不投了”，这已经够说明市场不再把它当一张普通的算力概念票。我一直觉得，AI 数据中心创业这条线过去一年有点被讲得太轻松了。电力接入、土地、变压器、EPC、GPU 采购、长期租约，任何一环掉链子，估值都能从“算力平台”瞬间打回“重资产开发商”。拿同行做参照，CoreWeave 之所以还能不断融资，不是因为故事更新，而是因为它能持续拿出客户合同、GPU 资产和债务安排去撑住信用。我没查到 Fermi 这边有没有同等级的合同覆盖，也没看到摘要提 capex 承诺、PPA、租约或已签客户，这就让我对“hopeful”这个标签有点怀疑：市场给它的，未必是成长股定价，已经开始像在给违约风险定价了。还有一点我不太买账：很多人看到“前特朗普能源部长联合创办”会先联想到政策资源和能源落地能力，但高管集体离场这件事，恰好说明政治背书替代不了公司治理。数据中心不是拍地项目，后面是多年期建设和持续融资。只要管理层不稳，Amazon 这种级别的投资人撤掉 1.5 亿美元，外部债权人和供应商一定会重新算账。现在能下的结论只有一个：这不是情绪波动新闻，而是信用链条开始断裂的信号。更多判断要等正文披露离职名单、时间线和现金安排。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:30

53d ago

TechCrunch AI· rssEN15:30 · 04·20

AI核电公司Fermi CEO和CFO突然离职，股价跌22%

Fermi的CEO和CFO在同一天离职，股价当天跌了22%。公司把这包装成“Fermi 2.0”战略升级，但正文没披露离职的具体原因、继任者是谁，也没说时间线。这家公司由前美国能源部长Rick Perry联合创立，正在德州建一个用核反应堆给数据中心供电的AI园区（Project Matador），最近跟大客户闹了矛盾。CEO虽然退出董事会主席位置，但还...

#Fermi#Rick Perry#Personnel#Incident

精选理由

H和R过关：AI核电初创的CEO+CFO双双离职，标题明确是突然变动，钩子强，且电力是AI瓶颈，这事能戳中行业痛点。K不过关：正文没披露离职原因、继任安排、得州项目阻力的具体细节，所以只能算个60多分的人事事件。

一句话点评

Fermi 的 CEO 和 CFO 同时离职，股价跌了 22%。这家公司想用核电站给 AI 数据中心供电，但核心项目 Project Matador 跟大客户闹了矛盾。公司管这叫“Fermi 2.0”，但高管跑路、客户摩擦，更像是在灭火。正文没披露离职具体原因，也没说新 CEO 是谁，这点先别太激动。

锐评

Fermi 这条先看组织风险，不先看核电叙事。CEO 和 CFO 两个岗位同时离开，且标题给了“suddenly”，这在重资产项目里通常不是小波动。正文只披露两件事：Rick Perry 参与创立；得州 AI 园区项目遇到阻力。离职日期、继任安排、阻力类型，正文未披露。我对“AI+核电园区”这类公司一直偏谨慎。原因很简单：它同时卡在三条长周期链路里。电力接入要批，核项目要批，数据中心客户签约也要批。少一条都跑不起来。过去一年大家把“AI 缺电”讲得很猛，Oklo、Nuclear startup x hyperscaler 这套故事也被一级市场反复追捧，但真正往前推时，输电、并网、许可、融资顺序，经常比模型需求本身更硬。我没看到 Fermi 这篇里有任何一项被讲清。 CFO 一起走，让问题更像融资或项目财务约束，不只是 CEO 个人变动。说真的，早期公司换 CEO 不稀奇，连 CFO 一起掉，味道就变了。尤其是这种要吃长期资本、政府关系和工程执行的公司，CFO 往往不是后台角色，而是项目能不能继续讲下去的人。对照过去一年几家能源算力项目，公开宣布合作很容易，走到土地、电力承诺和资本开支落地就开始分化。CoreWeave 至少还能拿 GPU 租赁合同去融资；核电园区没有投运前，故事要靠更重的信任支撑。我还有个疑虑：标题说“突然”，正文却只有一句“项目遇阻”。这中间最关键的信息缺口，恰好是市场最该知道的部分。阻力是监管、社区、土地、电网、融资，还是客户退场？这些不是细节，是定性。如果只是地方审批拖延，那是慢；如果是资本结构或承购方出了问题，那就是另一回事。现在材料太薄，我不愿意替公司补叙事。现阶段我只会把这条记成一个负面信号：AI 基础设施开始往电力上游卷时，管理层稳定性本身就是资产负债表的一部分。Fermi 这块，标题已经亮红灯了。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:22

53d ago

Hacker News 首页· rssEN15:22 · 04·20

用 Nginx 日志看 AI 到底有没有真的抓你的站

作者用 Nginx 日志抓了 ChatGPT、Claude、Perplexity 和 Gemini 四个 AI 助手访问自己网站的真实请求。ChatGPT 和 Claude 都会主动抓取页面，ChatGPT 还会从多个 IP 同时发请求，Claude 每次抓页面前先看 robots.txt。Perplexity 有时直接抓，有时用自己的索引回答。Gem...

#OpenAI#Anthropic#Perplexity#Commentary

精选理由

标题抛出一个可操作的归因测试——给四个AI发提示，然后查Nginx日志看谁真的来抓了。这个思路对做内容的人有吸引力，H和R都成立。但RSS只给了标题和HN元数据，正文没披露请求次数、来源IP、User-Agent、抓取延迟，也没设对照组，K不通过。所以整体信息带宽低，保持原评分不变。

一句话点评

有人用 Nginx 日志实测了 ChatGPT、Claude、Perplexity 和 Gemini 是否会实时抓取页面。结果：ChatGPT 和 Claude 会，Perplexity 有时会，Gemini 完全没抓（靠索引回答）。关键发现：ChatGPT 抓取时用多个 IP 爆发，单 IP 限流会漏数；Claude 每次先查 robots.txt；Perplexity 可能不抓直接答。G...

锐评

标题给出的事实只有一条：作者向 ChatGPT、Claude、Perplexity、Gemini 发了提示，并去看 Nginx 日志。正文没披露请求次数、来源 IP、User-Agent、Referer、抓取延迟、缓存命中，也没说有没有对照组。只靠这点信息，结论上限很低，最多只能说“作者看到了某些访问变化”，还不能说这些变化由 4 家产品直接触发。我对这类实验一直有点警觉，因为 AI 带来的站点访问分成两类：一类是模型或浏览工具自己抓页，一类是回答页把人类用户导回原站。两类在日志里的形态差很多。前者常常像 bot 流量，可能没有稳定 referer，还会被 CDN、预取、重试、共享出口 IP 搅乱。后者更接近普通推荐流量，但又会被聊天产品的内嵌浏览、跳转参数、iOS/Android WebView 抹掉线索。标题把 “AI traffic” 和 “referral traffic” 摆在一起，我反而觉得这里最容易混淆。没有方法细节，这个比较站不住。回到行业背景，过去一年不少人都在追“LLM 到底给网站送不送流量”。OpenAI 的 ChatGPT Search、Perplexity 的答案页、Google AI Overviews 和 Gemini 相关入口，都会在不同场景里抓取网页或显示链接；Cloudflare 之前也一直在推 bot 可见性和 AI crawler 管理，就是因为站长侧根本分不清“被抓取”“被引用”“被点击回流”各占多少。我没查到这篇文有没有做 UA 白名单、ASN 归因、时间窗对齐、未提示页面做基线。如果这些都没做，那它更像一次有趣的日志观察，不是可复现实验。我还想补一句 pushback：很多人会把“我问了模型，然后站点来了请求”直接讲成“模型会主动访问原站”。这个说法经常过头。Perplexity 和某些带 browsing 的产品，确实更可能触发即时抓取；纯回答链路也可能走索引、缓存、第三方摘要，不碰你的源站。ChatGPT、Claude、Gemini 各自什么时候实时取页，取多少页，正文目前都没披露。没有这些条件，谁更爱抓、谁更会导流，根本排不出名次。所以这条我会先当成方法论提醒，不当成平台比较。要把它做实，至少得给出 4 组东西：提示词全文、每家产品的交互模式、日志样本和时间戳、一个未被提示的对照页面。少一组，讨论都会滑向叙事，不是证据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

15:18

53d ago

r/LocalLLaMA· rssEN15:18 · 04·20

Kimi K2.6 在 Hugging Face 上发布了

Reddit 帖子说 Kimi K2.6 上线了 Hugging Face，但正文被 Reddit 屏蔽，只看到 403 页面。目前没有参数、上下文长度、许可证或跑分数据。建议直接盯 Hugging Face 仓库和模型卡，别信这个转帖。

#Kimi#Hugging Face#Reddit#Product update

精选理由

硬排除——零来源。正文是 Reddit 403 页，唯一能信的就是标题说 Kimi K2.6 上了 Hugging Face。HKR-H 勉强过关，但 HKR-K 和 HKR-R 都挂，因为参数、许可、上下文窗口、基准证据全缺。真正该盯的是 Hugging Face 仓库页和模型卡，不是这条二手转帖。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

15:07

53d ago

FEATUREDHacker News 首页· rssEN15:07 · 04·20

Mediator.ai：用纳什议价和LLM帮人谈分家、分股权

Mediator.ai 上线了一个谈判工具，让双方各自跟 LLM 说一遍自己的诉求，然后用纳什议价和遗传算法自动生成一份双方都能接受的协议草案。创始人在 HN 上说这个想法 8 年前就有了，但直到一年前 LLM 能比较偏好（而不是直接打分）才变得实用。官网用了一个面包店合伙人的例子：Maya 和 Daniel 对股权分配僵持不下，工具给出的方案不是简单...

#Reasoning#Tools#Mediator.ai#John Nash

精选理由

HKR-H/K 通过，因为流程新颖且具体：LLM 访谈偏好，喂给 Nash 谈判加遗传搜索出草案。HKR-R 不通过，因为定价、模型选择、成功率和真实部署证据都没披露，所以这条留在 all 层。

一句话点评

一个用纳什谈判模型做调解的 AI 工具，把双方私下陈述转成数学问题来算公平方案，但正文没披露真实用户数据和法律有效性验证。

锐评

这个项目把经济学家纳什 1950 年提出的合作博弈模型做成了产品。流程是双方各自私下输入自己的诉求和理由，AI 读完后生成多份候选协议，用纳什积（双方效用乘积最大化）给每份协议打分，保留高分方案再迭代生成新版本，直到算不出更好的结果。产品页给的例子是合伙开面包店的股权纠纷，AI 最终给出了一个 60/40 的股权分配，并附带回购条款和管理薪资补偿。这个方案有意思的地方在于它不是简单折中，而是引入了“未来行为换股权”的动态条款，让僵局有了台阶下。但要注意几点：第一，正文完全没提真实用户量、调解成功率或用户反馈，目前看更像一个概念验证产品。第二，纳什谈判的前提是双方都理性且愿意合作，现实纠纷里情绪、信息隐瞒、权力不对等都会让模型失效，产品页也没说明怎么处理一方撒谎或虚报诉求的情况。第三，法律效力存疑，生成的协议能否直接当合同用、在不同司法管辖区是否成立，这些关键信息都缺。我会先打个折，把它当一个辅助梳理思路的工具看，别真拿它替代律师或专业调解员。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

15:05

53d ago

● P1r/LocalLLaMA· rssEN15:05 · 04·20

用免费 Colab T4 和 Mac 给苹果端侧 3B 模型训练 LoRA 适配器

作者搭了一套 QLoRA 流程来微调苹果那个跑在手机上的 3B 模型，把显存需求从大约 24GB 压到 1GB 内存加 5GB 显存，免费版 Colab T4 或者一台 24GB 内存的 Mac 就能跑。帖子说 A100 跑 LoRA、T4 跑 QLoRA、Mac 跑 QLoRA 训出来的适配器效果差不多，都能把准确率从 40% 左右拉到 75%，如果...

#Fine-tuning#Tools#Benchmarking#Apple

精选理由

一篇带名字的第一手实验，内存和准确率数字可复现，HKR 三项全中，比普通教程贴强。分数没上 85 是因为来源只是单篇 Reddit 帖子，权威性有限，跑分范围也窄。

一句话点评

Reddit 帖子被网络屏蔽，正文内容完全没拿到，没法判断这个 LoRA 训练方法到底靠不靠谱。

锐评

这条消息来自 Reddit 的 r/LocalLLaMA 板块，标题说能在免费 Colab T4 和 Mac 上给苹果的端侧 3B 模型训练 LoRA 适配器。但点进去直接撞了 403 错误，正文被 Reddit 的网络安全策略挡掉了，我们看不到任何技术细节、代码、训练参数或实际效果。标题本身挺吸引人——苹果的端侧模型通常跑在手机或笔记本上，如果能用免费算力做微调，对个人开发者会很友好。但没看到正文就没法确认：训练一次要多久、显存够不够、LoRA 的 rank 设多大、微调后模型在什么任务上表现如何。这些关键信息全是空白。建议等作者补发镜像链接或有人复现后再看，现在只能当一条未验证的线索。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

14:50

53d ago

r/LocalLLaMA· rssEN14:50 · 04·20

Gemma 4 26B-A4B 和 Qwen 3.6 量化模型基准测试

Reddit 上有人发了 Gemma 4 26B-A4B 的 GGUF 跑分，但点进去是 403 错误，正文一个字都看不到。所以任务类型、量化精度、硬件配置、token 速度这些关键信息全都没有。跑分帖如果不说清楚设备和上下文长度，数据就没法对比，等于白发。

#Benchmarking#Reddit#Benchmark

精选理由

抓取返回Reddit 403页面，唯一确认的事实是存在一个Gemma 4 26B-A4B GGUF基准测试帖子。HKR-K不通过是因为任务、硬件、量化、token速度和分数均未披露；HKR-H和HKR-R也不通过，因此HKR 0/3，排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

14:08

53d ago

Product Hunt · AI· rssEN14:08 · 04·20

CodeHealth MCP Server：给AI写的代码做“健康检查”，防止技术债

CodeScene 在 Product Hunt 上发布了 CodeHealth MCP Server，核心功能是让 AI 编程助手（比如 Cursor、Copilot）写完代码后，自动跑一遍“代码健康检查”，避免引入技术债。它用一套确定性规则（不是靠模型猜）来识别风险、建议重构，并且可以本地运行，数据不外传。正文没披露具体支持哪些 MCP 工具 AP...

#Code#Tools#CodeScene#Product Hunt

精选理由

HKR-R 通过，因为 AI 代码质量确实是工程痛点。HKR-H 和 HKR-K 不通过：Product Hunt 的简介只给了使用场景，没有机制、API 细节或可复现的条件。

一句话点评

AI写完代码后自动跑健康检查，避免引入技术债。

锐评

CodeScene 把代码健康检查做成了 MCP 服务器，让 Cursor、Copilot 这类 AI 编程助手写完代码后自动跑一遍静态分析，发现风险、建议重构。关键卖点是“确定性规则”——不是靠大模型猜，而是用硬编码规则做判断，结果可复现、可解释。支持本地部署，代码不外传，对合规敏感的项目友好。正文没披露具体支持哪些 MCP 工具 API、定价和部署细节，实际接入成本未知。如果规则库覆盖够广，能有效减少 AI 生成代码的“看起来对但实际有坑”问题，尤其适合遗留系统改造场景。但这类工具的价值取决于规则质量和项目适配度，初期建议先在小范围验证再推广。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

14:05

53d ago

FEATUREDHacker News 首页· rssEN14:05 · 04·20

阿里发布Qwen3.6-Max-Preview预览版模型

Qwen 放出了 Qwen3.6-Max-Preview，一个还没定型的预览版模型。相比之前的 Qwen3.6-Plus，它在编程和知识类基准上确实涨了分，比如 SkillsBench 涨了 9.9 分、SuperGPQA 涨了 2.3 分。但正文没披露参数量、上下文窗口、定价和正式发布时间，所以这点先别太激动——它还在迭代，API 也标着“即将上线”...

#Qwen#Product update

精选理由

Qwen 官方旗舰预览版，光发布动作本身就有 HKR-H 和 HKR-R 价值，尤其对关注国产头部模型的人。HKR-K 不成立，因为正文除了名字和预览状态几乎没给任何信息，所以分数压在 60 出头，不上精选。

一句话点评

阿里放出了Qwen3.6-Max的预览版，主要提升在写代码干活和知识问答上，但官方明确说还在开发中，现在测到的分数后续可能还会变。

锐评

这次放出的Qwen3.6-Max-Preview是个预览版，不是最终成品，官方自己也在标题里写了“Still Evolving”，所以现在看到的性能数据得打个折来看。它相比之前的Qwen3.6-Plus，最大的变化是让模型去执行具体任务的能力变强了，尤其是在写代码这块。比如在测试模型能不能自主编程解决问题的SkillsBench上，分数一口气涨了9.9分，在SciCode上也涨了6.3分，这个提升幅度确实不小。另外在考察世界知识的SuperGPQA和中文能力的QwenChineseBench上也有两到五分的提升。不过要注意，这篇公告没提模型参数量、推理成本和响应延迟这些实际落地时很关键的指标。而且作为一个还在迭代的预览版，它目前只在阿里云的平台上能用，API也标注了“即将推出”。如果你是想马上用在生产环境里，建议先等等正式版，看看最终跑分和成本再决定。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

14:03

53d ago

FEATUREDr/LocalLLaMA· rssEN14:03 · 04·20

Hermes 把 2020 年的旧邮件联系人当新朋友，群发了一波配对码

一位 Reddit 用户说 Hermes 的邮件集成功能把一批 2020 年的 Gmail 发件人当成了新联系人，然后批量给他们发了配对码。这个功能本质是双向聊天通道，不是读你的收件箱。正文没披露具体是哪个 Hermes 版本、影响了多少账号、以及有没有防误触的护栏。

#Agent#Tools#Hermes#Gmail

精选理由

这条信息靠一个具体事故抓住注意力：Hermes 把 Gmail 里 2020 年的发件人当成新联系人，群发了配对码邮件。帖子给出了一个关键机制——邮箱集成是双向聊天通道，不是只读收件箱——这让事故从“bug”变成了“产品设计边界问题”。对从业者来说，这是 agent 越权、意外外联和隐私泄露的真实案例。不过信息源只有一条 Reddit 帖子，正文没披露 Hermes 版本、受影响账号数量和默认防护，所以评分卡在 71 分，没进精选。

一句话点评

Hermes 给一批 2020 年的老账号群发了配对请求邮件，正文没披露具体数量和邮件内容，先别急着下结论。

锐评

这条消息来自 Reddit 用户爆料，说 Hermes 突然给一批 2020 年注册的账号群发了配对请求邮件。目前能确认的信息很少：发件方是 Hermes，收件人是老账号，动作是群发配对请求。但正文没披露到底发了多少封、邮件里具体写了什么、为什么要发这批邮件。Reddit 原帖因为网络限制无法直接访问，我们只能看到被屏蔽的提示页，这意味着原始帖子的讨论细节、用户反馈和后续更新都拿不到。这点先别太激动，信息缺口太大。如果 Hermes 是在做用户召回或产品测试，那发邮件本身不算异常；但如果涉及隐私问题或未经用户同意就群发，性质就不同了。目前缺的是：Hermes 官方有没有回应、收件人反馈了什么、邮件内容是否包含敏感信息。在没有这些之前，这条消息只能当作一个待核实的用户报告。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:36

54d ago

Hacker News 首页· rssEN13:36 · 04·20

BBC：AI 聊天机器人可能让你变笨

BBC Future 发了一篇报道，标题很吓人：AI 聊天机器人可能让你变笨。文章引用了一项 MIT 尚未正式发表的研究：54 个学生写短文，用 ChatGPT 的那组大脑活跃度比不用的人低了 55%，而且写完记不住自己写了什么，感觉像不是自己写的。另一项宾夕法尼亚大学的研究管这叫“认知投降”——用户不怎么思考就接受 AI 给的答案，甚至放弃自己的直觉...

#BBC Future#Commentary

精选理由

BBC Future 这篇只有一个标题，正文没披露任何可验证的证据。标题本身是个评论性判断，不是可复现结论。别被标题带着走，真正该盯的是证据链。信息不够，无法支撑任何实质性判断，所以重要性低，排除。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:24

54d ago

FEATUREDr/LocalLLaMA· rssEN13:24 · 04·20

有人在本地用 Gemma 26B 跑代码助手，效果还行但很慢

一位 LocalLLaMA 用户用 llama.cpp 跑了 OpenCode 和 Roo Code 两个代码助手，后端模型是 Gemma 26B，总共试了约 10 小时。结论是两个工具都能推动项目往前走，但都不快：OpenCode 经常卡在很长的 prompt 处理阶段，Roo Code 能跑但思考时间更长。配置上开了 20 万 token 上下文、...

#Code#Tools#Inference-opt#Google

精选理由

HKR-K成立，因为帖子给了10小时测试、可复现的llama.cpp参数和具体卡住模式。HKR-R也成立，本地编程助手切中成本/隐私痛点，但标题弱且证据仅来自单个Reddit用户，所以留在all层，不上featured。

一句话点评

这条帖子本身被 Reddit 的网络安全机制挡了，正文没披露任何技术细节，只能看到标题“opencode with gemma 26B”。

锐评

这条信息目前只剩一个标题，正文因为 Reddit 返回 403 错误完全看不到，所以没法判断 opencode 具体怎么跟 Gemma 26B 结合、跑什么任务、效果如何。标题暗示有人在尝试把 opencode 这个终端编码工具挂到 Gemma 26B 上，可能是本地跑代码生成或补全。Gemma 26B 本身是 Google 放出来的中等规模模型，本地部署门槛不算高，如果 opencode 能稳定驱动它，对想在笔记本上跑编码助手的开发者是个省钱选项。但关键信息全缺：是直接推理还是微调过、延迟多少、补全质量跟 Copilot 比差多少、显存占用多大，正文都没披露。这点先别太激动，等原帖能访问或者有人复现了再看。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

12:30

54d ago

FEATUREDImport AI· rssEN12:30 · 04·20

华为搞了个 HiFloat4 训练格式，在自家昇腾芯片上跑赢了西方主导的 MXFP4

华为的研究员在自家昇腾 NPU 上测试了一种叫 HiFloat4 的 4 比特训练格式，跟西方主导的 MXFP4 格式比，HiFloat4 的精度损失更小。具体来说，在 Llama 和 Qwen 模型上，HiFloat4 跟全精度 BF16 基准的误差能控制在 1% 左右，而 MXFP4 即使加了随机舍入等一堆稳定技巧，误差也有 1.5%。这背后可能跟...

#Alignment#Agent#Inference-opt#Huawei

精选理由

Jack Clark用三件事拼出一期：Anthropic拿Claude Opus 4.6做自动化对齐研究，800小时花约1.8万美元把PGR从人类基线0.23提到0.97，说明小团队也能跑对齐实验；HiFloat4在华为昇腾NPU上推理损失约1.0%，比MXFP4的约1.5%好，但正文没披露更多硬件细节；中国模型安全研究部分给出了安全评估框架，但具体模型名和测试集没展开。整体是研究评论而非一手发布，信息密度够，适合放进精选。

一句话点评

Anthropic 用 800 小时和 1.8 万美元让 AI 自己做对齐研究，把人类基线 0.23 的 PGR 拉到 0.97，但只在特定任务上验证过。

锐评

这条新闻最值得看的是 Anthropic 让 Claude Opus 4.6 自己去跑对齐实验，结果把人类研究员一周才做到 0.23 的 PGR 直接干到了 0.97。800 小时总耗时、1.8 万美元总花费，摊下来每小时才 22 美元，比雇人便宜太多。但先别急着喊“AI 研究员已上岗”——测试范围很窄，只在 Qwen 3-4B 和 Qwen 1.5-0.5B 这对弱监督强模型上跑通，数学任务 PGR 0.94 还行，代码任务掉到 0.47，说明泛化能力还差一截。正文没披露这些 AI 研究员产出的方法到底有没有新意，还是只是暴力搜索已有技巧的组合。另外，华为 HiFloat4 那条也值得留意：在自家昇腾 NPU 上把 4 比特训练误差压到 BF16 基准的 1% 左右，比西方主导的 MXFP4 的 1.5% 更优。这背后是出口管制逼出来的效率焦虑，但论文只测了三个模型，最大才 30B MoE，离证明大规模可用还有距离。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

12:23

54d ago

FEATUREDHacker News 首页· rssEN12:23 · 04·20

Atlassian 默认开启数据收集来训练 AI

Atlassian 把数据收集设成了默认开启，用来训练 AI。目前唯一确认的条件就是“默认开启”。正文没披露具体收集哪些数据、怎么退出、在哪些地区生效、以及什么时候开始。这条信息来自 Hacker News，有 41 个点赞和 9 条评论，但原文链接返回 429 错误，所以更多细节暂时看不到。

#Atlassian#Policy#Product update#Commentary

精选理由

HKR-H 和 HKR-R 通过：企业 SaaS 默认开训练数据收集，治理风险明确。HKR-K 不通过：帖子缺范围、退出、地区和上线细节，所以落在 60–71 的 all 档。

一句话点评

Atlassian 把用户数据默认拿来训练 AI，正文被反爬挡了，具体收集什么数据、怎么关掉都没看到。

锐评

这条消息本身很短，但踩的点很敏感。Atlassian 把数据收集开关默认打开，意味着企业用户的 Jira 工单、Confluence 文档可能被拿去训练模型。对 Atlassian 来说，这能低成本获取高质量的企业工作流数据，比从公开网页爬取强得多。但对企业客户，这等于自己的内部知识库被默认共享了。目前最大的问题是信息缺口太大。原文链接被 Vercel 的安全检查拦截，返回 429 错误，我们看不到具体细节：到底收集哪些字段、是否包含附件和评论、数据是用于训练基础模型还是只做个性化功能、关闭选项藏在哪里。这些直接决定了风险等级。如果是真的，企业安全团队应该立刻检查管理员后台。但先别太激动，也可能只是用于改进搜索排序这类非生成式功能，那就没那么吓人。等有完整原文再下判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

12:20

54d ago

r/LocalLLaMA· rssEN12:20 · 04·20

Kimi K2.6模型进行早期测试访问

一位 Reddit 用户发帖称自己获得了 Kimi K2.6 的早期访问权限。帖子只确认了模型名字和“内测中”这个状态，没有透露任何规格、能力变化、发布时间或提供方。这不是正式发布公告，信息缺口很大：正文没披露 K2.6 比 K2 强在哪、参数量、上下文长度、是否开源、甚至是不是同一个团队做的。如果你在关注 Kimi 的迭代节奏，这点先别太激动——目前...

#Kimi#Commentary#Product update

精选理由

硬排除——零信源：这只是一个 Reddit 用户的早期访问声称，没有截图、规格、跑分或发布时间。HKR-H 勉强靠泄密好奇心过关；HKR-K 和 HKR-R 都失败，因为帖子没提供任何可验证的事实或行业利害关系。

一句话点评

Kimi K2.6 开始小范围测试，Reddit 上已有用户发帖讨论。目前信息极少，正文被屏蔽，无法确认具体能力提升或发布时间。建议观望，等官方或实测出来再判断。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

12:12

54d ago

Hacker News 首页· rssEN12:12 · 04·20

特斯拉隐瞒数千起致命事故，只为继续测试自动驾驶

瑞士媒体RTS爆料，特斯拉隐瞒了数千起致命事故，目的是让自动驾驶测试不被叫停。报道没有说明这些事故涉及的是Autopilot还是FSD，也没给出时间跨度和具体证据。目前只有标题和链接，正文细节缺失，无法判断消息来源是否可靠。

#Robotics#Safety#Tesla#Incident

精选理由

标题指控很抓人，因为自动驾驶安全与披露规则直接关系到部署信任。但正文只有标题和链接，事故口径、证据来源、时间范围、涉及Autopilot还是FSD全没披露，硬信息缺口为零，所以评分上限卡在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

12:10

54d ago

r/LocalLLaMA· rssEN12:10 · 04·20

32GB显存跑本地模型，120 tok/s，但别急着下单

Reddit用户晒新配置：Ryzen 7 9700X + Radeon AI PRO R9700（32GB显存）+ 64GB DDR5，在Fedora上用LM Studio跑qwen3.6-35b-a3b，简单提示词下约120 tok/s。速度不错，但正文没披露batch size、上下文长度和功耗，所以这个数字参考价值有限。用户问32GB显存适合跑多...

#Inference-opt#Tools#AMD#LM Studio

精选理由

H 和 K 过关：32GB Radeon 本地跑出 120 tok/s 是个具体钩子，配置和模型也写清楚了。R 弱：这是个人装机帖，不是严谨测试，batch、上下文、功耗都没说，所以只能算本地推理的一个数据点，谈不上市场信号。

一句话点评

Reddit 用户晒新本地跑模型配置：Ryzen 9700X + Radeon R9700，声称推理速度达 120 tok/s。但原文被 Reddit 屏蔽，实际配置细节、模型大小、量化精度、是否纯 GPU 推理均未披露。120 tok/s 如果是 7B 模型用 4-bit 量化跑，对消费级显卡算正常偏快；如果是更大模型或更高精度，那才值得关注。目前信息缺口太大，建议等实测数据或更多用户验证。

锐评

这条先别急着抄配置。用户用 Radeon AI PRO R9700 32GB、Ryzen 7 9700X 和 LM Studio Vulkan 跑 qwen3.6-35b-a3b，自报约 120 tok/s；这能说明“能跑得很顺”，还说明不了“这套组合已经有稳定性能坐标”。正文没给 batch size、上下文长度、提示词长度、是否首 token 还是持续生成、功耗、温度，也没给 quant 版本。少了这些，120 tok/s 只能当社区样本，不能当采购依据。我对这条有兴趣，原因不在那 120。点在 AMD 32GB 显存这档，终于开始碰到本地玩家最在意的甜区：7B、14B、32B 这一带可以挑模型，而不是被 16GB 卡死。我自己一直觉得，本地推理市场过去一年被 Nvidia 叙事带得太偏了，大家默认“能跑本地 LLM = CUDA”。但从 llama.cpp、koboldcpp、LM Studio 到 Ollama，实际采用门槛正在往 Vulkan、ROCm、Metal 这种更杂的后端摊开。AMD 这代卡如果真能在主流桌面工具里少折腾地跑起来，它吃到的不是数据中心预算，是一大批买不起 RTX 6000 级别卡、又不想碰二手矿卡的人。模型怎么选，正文其实已经给了方向。32GB VRAM 想“舒服”，通常就别奔着满血 70B 去。按常见 GGUF 经验，Q4_K_M 这档经常是可用性和质量的平衡点，但具体还得看激活开销和上下文缓存占多少。只看权重体积，32B 级 dense 模型做 4bit 往往更现实；35B A3B 这种稀疏架构会更讨喜，因为活跃参数少，吞吐看起来会很好。问题也在这里：A3B 的 tok/s 漂亮，不等于所有模型都这么快。你拿同一台机去跑真正吃带宽的 dense 30B+，数字大概率会掉。我没看到帖子里给 prefilling 和 decoding 分开数据，这个缺口很关键。拿外面对比一下更清楚。苹果 M3 Ultra 统一内存路线，优点是能塞超大模型，缺点常常是纯生成速度不便宜；Nvidia 24GB 到 32GB 这档，软件成熟度还是更稳，尤其在量化生态和兼容性上。AMD 这条路的胜负手不是单次截图跑到多少 tok/s，而是三件事：LM Studio、Ollama、vLLM 一类工具对 Vulkan/ROCm 的支持能不能少踩坑；社区常用量化格式在 AMD 上会不会经常掉性能；还有驱动更新会不会把一个能用的配置改回玄学。我跟你说，本地圈最烦的从来不是慢一点，是每次升级都要重修环境。所以这帖我会把它看成“AMD 本地推理可用性抬头”的信号，不看成“R9700 已经打穿本地 LLM”。如果你真要按这套思路配机，先用同模型、同 quant、同上下文，把 TTFT、持续 tok/s、功耗和 8k/32k 上下文下的衰减都跑一遍。没有这些数字，标题里的 120 只适合发帖，不适合下单。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

11:42

54d ago

Hacker News 首页· rssEN11:42 · 04·20

给AI末日论者的帕斯卡赌注：我们已经被当成回形针了

Cory Doctorow 用帕斯卡赌注的逻辑反驳AI末日论：就算AI永远不会变聪明，大公司已经在用现有技术监控、压榨工人、操纵社会，我们早该担心这些现实危害，而不是幻想中的超级AI。他承认自己跟Bengio（图灵奖得主）在蒙特利尔同台时吵了一架——Bengio认为必须提前防范AI失控，Doctorow则认为这是转移注意力的营销话术。正文没披露Beng...

#Safety#Alignment#Commentary#Safety/alignment

精选理由

标题有钩子，但正文没披露任何实质内容——作者立场、风险模型、案例、数据全缺，信息量接近零。HKR-H和HKR-R靠标题框架和话题热度通过，HKR-K因零来源硬性排除，分数上限被压在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

11:00

54d ago

FEATUREDr/LocalLLaMA· rssEN11:00 · 04·20

Reddit 网友拿 9 个模型做功能规划对比，Claude Opus 4.6 生成的规格书最贵也最详细

一位 Reddit 用户让 9 个模型给一款 Go 语言记账 App 设计“负载追踪”功能，再用 Claude Code 给生成的规格文档打分排名。Claude Opus 4.6 排第一，产出一份 19KB 的规格书，过程中读了 44 次代码，花了 2.47 美元；GLM 5.1 排第二，Qwen 3.6 35B fp8+vLLM 排第三。作者自己强调...

#Code#Reasoning#Tools#Anthropic

精选理由

这是一次有名有姓的个人实测，给出了真实工作流里的数据，所以 H、K、R 三项都站得住。但天花板不高：只测了一个功能、排名由 Claude Code 自己打分、正文没提人工验收结果，我会先打个折，放在 featured 里偏低的位置。

一句话点评

这条帖子被 Reddit 的网络墙拦住了，正文没拿到，没法判断他到底测了哪些模型、结论是什么。

锐评

这条信息来自 Reddit 的 r/LocalLLaMA 板块，标题是“compared some models for feature planning”，看起来是有人在做功能规划时横向对比了几个模型。但问题在于，我们实际抓取时被 Reddit 的网络安全策略挡了，返回的是 403 错误和登录提示，正文内容完全缺失。所以现在能说的很有限：发帖人做了对比，但不知道对比了哪些模型、用什么任务测的、结论偏向哪边。如果是真的，这类一线开发者的实测对比通常比官方 benchmark 更有参考价值，因为贴近真实业务场景。但信息缺口太大，没法判断测试条件是否公平、样本量够不够、有没有跑分截图。建议直接去原帖看评论区，或者等作者补发到其他平台。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:53

54d ago

FEATUREDr/LocalLLaMA· rssEN10:53 · 04·20

Chorus v1：一个模型搞定多人同时说话的语音转文字

Chorus v1 开源了模型权重，能用单个模型直接转录多人重叠说话的音频。正文没披露模型大小、训练数据和评测指标，所以实际效果要自己跑才知道。亮点是“单模型处理重叠语音”这条技术路线，不是又套了个 Whisper 壳。目前有 PyTorch 权重、ggml 量化版和一个 whisper-cli 补丁，本地部署门槛不高，但验证信息太少，先别太激动。

#Audio#Tools#Trelis Research#Hugging Face

精选理由

H 钩子落在单模型做重叠语音转录这个点上，不是常规 Whisper 套壳；K 确认了开放权重和 whisper-cli 补丁，但缺模型规模、训练数据和 WER/DER 指标，信息缺口明显；R 主要影响语音工具链开发者，对更广人群冲击有限，且延迟、成本、生产落地效果正文未披露，所以定在 all 而非 featured。

一句话点评

正文被 Reddit 的 403 墙挡住了，看不到任何技术细节，没法判断这个重叠语音转录模型到底做得怎么样。

锐评

这条消息本身挺让人好奇的——Chorus v1 要解决的是多人同时说话时语音识别怎么拆开转录的问题，这在会议记录、访谈场景里是个硬骨头。但尴尬的是，唯一的信息源 Reddit 帖子直接返回了 403 禁止访问，正文内容完全被网络策略挡在外面，我们连模型用了什么架构、效果指标、开源协议都不知道。目前能看到的只有标题和一张封面图，没有披露模型规模、推理延迟、在什么数据集上测的、重叠语音分离的准确率是多少。这类任务通常对实时性要求很高，如果模型太大跑不动，或者只在实验室干净数据上效果好，实际用起来就会打折。建议等作者补一个能正常访问的链接，或者有人搬运了技术细节再下判断。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

10:36

54d ago

● P1r/LocalLLaMA· rssEN10:36 · 04·20

用一张 RTX 4090 跑 Gemma 4 26B，从 2400 份财报电话会里挖交易信号，一个有效，一个差点骗过我

一位 Reddit 用户用 800 份标注过的财报电话会记录微调了 Gemma 4 26B，然后在一张 RTX 4090 上花了约 14 小时，推理了 3 年内共 2400 份记录。在 600 份样本外数据上，一个信号显示：CFO 指引越含糊，公司股价在 5 天内相对板块平均跑输约 1.8%，信息系数（IC）为 0.04。另一个信号更强，与板块回报的相...

#Fine-tuning#Inference-opt#Benchmarking#Commentary

精选理由

这是一篇第一人称的实战记录，不是公关稿。作者把 Gemma 4 26B 塞进一张 4090，用 800 份人工标注的财报电话会微调，然后让模型在 2400 份近三年转录上提取交易信号，整批跑完 14 小时。结果里有一个信号站住了：CFO 把业绩指引从具体数字改成模糊表述后，股价 5 日内相对行业落后约 1.8%，IC 0.04，不算强但能用。另一个信号和行业回报相关性高达 0.85，作者直接判定为幽灵信号，提醒读者因子去重比标题里的赚钱故事重要得多。全文没有吹模型多强，反而在讲怎么排雷，信息密度和诚实度都够，适合 featured 位置。

一句话点评

有人拿 Gemma 4 26B 测了 2400 份财报电话会，挖交易信号，一个策略真赚了，另一个差点把人骗进去。

锐评

这条分享来自 Reddit 的 LocalLLaMA 板块，作者把 Gemma 4 26B 这个开源模型用在了真金白银的场景里：从 2400 份财报电话会议记录中提取交易信号。结果挺有意思，一个信号确实有效，另一个则差点让他踩坑。这说明小模型在特定金融文本任务上能跑出实用价值，但可靠性依然是个问题。不过原文因为 Reddit 的反爬机制，正文内容被屏蔽了，我们看不到具体的实验设计、信号定义和回测数据。比如那个“差点骗过作者”的信号到底是怎么产生的，是模型幻觉、过拟合，还是数据泄露，这些关键细节都缺失。所以这条信息更像一个实战线索，而不是可复现的结论。如果你也想拿小模型做类似的事，我会先打个折：2400 份样本量不算大，金融信号又容易过拟合，在没有看到完整方法和风险提示前，别急着跟单。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:26

54d ago

FEATUREDr/LocalLLaMA· rssEN10:26 · 04·20

Qwen 3.6 Max Preview 上线，中文模型跑分第一

Qwen 3.6 Max Preview 已在通义千问官网可用，在 AA-Intelligence Index 上拿到 52 分，是目前中文模型里最高的。不过这个榜单的测试方法、模型参数量、API 价格和是否开源都没说，Reddit 帖子正文也打不开。所以分数可以看，但别急着当正式发布。等官方出模型卡或公告再判断。

#Qwen#AiBattle#Reddit#Product update

精选理由

一条典型的“预览版上线+高分截图”快讯，钩子和竞争感都在，但正文信息量极低——没披露基准怎么跑的、参数多少、API 怎么用、开不开源。所以 H 和 R 成立，K 不成立，最终定 all 而非 featured。真正该盯的是后续技术卡和发布说明，别先把“预览版上线”当成正式发布。

一句话点评

Qwen 3.6 Max Preview 上线，AA-Intelligence Index 拿了 52 分，目前国产模型里最高。但 Reddit 原文被屏蔽，具体评测细节看不到，分数先打个折。

锐评

Qwen 3.6 Max Preview 在 Qwen Chat 网站上可以直接试了。它在一个叫 AA-Intelligence Index 的榜单上拿了 52 分，说是目前国产模型里最高的。这个分数具体怎么算的、测了哪些能力，正文没披露，因为 Reddit 原帖被网络屏蔽，我们拿不到完整信息。现在能确认的是模型已经上线预览版，但最关键的“会不会开源”还没准信。从命名看，Max 系列之前没走开源路线，这次 Preview 也没提开源计划。如果你在考虑试用，可以先上手跑跑看实际效果，别光盯着一个第三方分数做判断。等官方放出技术报告或评测细节，才能知道 52 分到底值多少钱。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

10:22

54d ago

X · @op7418（歸藏）· x-apiZH10:22 · 04·20

OpenAI 新模型灰度测试，前端能力大幅提升

一位用户称 GPT Pro 新模型正在灰度，他仅凭一个 GitHub 页面、几张截图和两三行提示词，就得到了完整的桌面端产品设计。相比 Claude Design，他认为新模型输出更丰富、交互性更强，且无需额外说明。不过，灰度范围、具体模型名称、输出格式和可复现链接均未披露，目前仅为个人体验，非官方发布。

#Multimodal#Tools#OpenAI#Anthropic

精选理由

H 靠灰度传闻和 Claude Design 对比抓眼球；K 扣分是因为只有个人体验和截图，模型名、灰度范围、输出形式、复现链接正文都没给，信息缺口明显；R 踩中工作流替代和模型竞赛的痛点，但证据不足，只能给低置信度的全量推送。

一句话点评

标题说OpenAI这周要起飞，但正文完全没披露具体产品、发布节奏或任何数据支撑。目前只有一条来源的标题，信息缺口太大，没法判断是模型更新、新功能还是营销话术。建议等具体公告再评估。

锐评

这条现在只能按个人样例看。发帖者用 1 个 GitHub 页面、几张截图、两三行提示词，生成了桌面端产品设计；灰度范围、准确模型名、输出格式、复现链接，正文都没披露。没有这些条件，我不会把它当成一次可下结论的能力跃迁。我对这类“前端能力突飞猛进”的说法一直比较谨慎。UI 生成很容易被单样例骗到：只要训练集里覆盖过常见 SaaS 布局、组件库和交互套路，模型在 Figma 风格稿、HTML/CSS/React 原型之间来回切，观感会比代码质量更先升级。去年到今年，Claude 这条线、Replit Agent、v0、Lovable 都把“几句需求出一个能点的界面”做得很顺，问题从来不是首屏像不像，而是状态管理、边界条件、设计系统一致性、组件复用、导出后能不能接进真实仓库。这条帖文没给 repo、没给运行链接、也没给多轮修改记录，所以“所有功能都在线”这句话，我不太买账。有意思的地方在比较对象。作者点名 Claude Design，说明竞争已经不在“会不会画页面”，而在“默认补全多少产品判断”。谁能从一个 GitHub 页面和几张截图里，自动补齐信息架构、交互流、桌面端布局和缺失状态，谁就更像产品设计搭子，而不是代码补全器。OpenAI 这几年一直想把 ChatGPT 从问答界面推到工作流入口；如果这次灰度真存在，我看着更像把多模态理解、代码生成和工具调用压进一个设计任务里，而不是单独冒出一个“设计模型”。但先别急着喊起飞。标题给了“GPT Pro 新模型正在灰度”，正文没披露 access 条件，也没说这是 ChatGPT Pro 专属、团队版灰度，还是某个内部实验开关。我还没查到官方发布、system card、定价或案例库。没有这些，现阶段更像一次高质量 demo，不是稳定产品信号。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

10:00

54d ago

● P1Hacker News 首页· rssEN10:00 · 04·20

NSA 在黑名单限制下继续使用 Anthropic Mythos 模型

Axios 爆料，美国国家安全局（NSA）正在使用 Anthropic 的模型 Mythos，但这款产品之前被列入某种黑名单。正文没披露黑名单的具体范围、禁令生效时间，也没说 NSA 到底部署了多少 Mythos。关键不是“用没用”，而是合规豁免的路径是什么——如果黑名单是真的，NSA 是怎么绕过去的。这点先别太激动，信息缺口很大。

#NSA#Anthropic#Axios#Policy

精选理由

HKR-H靠的是黑名单与使用之间的矛盾，HKR-R靠的是合规/采购的敏感话题。HKR-K不成立，因为路透/Axios只披露了标题方向，黑名单适用范围、生效时间、Mythos部署规模都缺失，信息量不足以支撑精选。

一句话点评

五角大楼把 Anthropic 拉黑了，但 NSA 照样在用他们的 Mythos 模型，内部矛盾比对外说的要深。

锐评

这事最值得玩味的地方在于：同一个政府部门内部，禁令和执行是两张皮。五角大楼因为 Anthropic 拒绝提供军事用途的保证而将其列入黑名单，但 NSA（美国国家安全局）作为国防部下属的情报机构，却仍在继续使用 Anthropic 的 Mythos 模型。这要么说明禁令本身留有灵活解释的空间，要么就是 NSA 觉得这个模型好用到了可以无视上级指令的地步。目前消息来源是 Axios 的独家报道，再由路透社跟进，但两篇原文都因为微信环境的验证限制无法直接看到全文细节。我们不知道 NSA 具体在用 Mythos 做什么——是情报分析、代码辅助还是别的场景，也不清楚 Anthropic 对此是否知情或默许。还缺两个关键信息：一是 NSA 使用的规模和层级，是试点还是已嵌入工作流；二是 Anthropic 的立场，他们一边公开强调安全原则，一边产品出现在被黑名单限制的机构里，这中间的合规漏洞到底出在哪一环。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:51

54d ago

r/LocalLLaMA· rssEN09:51 · 04·20

有人把Karpathy视频下105条高赞评论做了主题聚类，发现最大一类不是技术讨论

一位Reddit用户对Karpathy《Intro to LLMs》视频下获赞最多的105条YouTube评论做了主题聚类，发现其中某个非技术类别的规模超过了所有技术类别的总和。帖子正文已被版主删除，所以聚类方法、各类占比、采样时间、具体评论内容都没披露。信号在于观众反馈结构：最热评论可能集中在惊叹、感谢或入门感受上，而非技术细节。这点先别太激动——样...

#Andrej Karpathy#YouTube#Reddit#Commentary

精选理由

HKR-H 靠那个社交反转钩子过关：一个类别压过所有技术类。HKR-K 和 HKR-R 都弱，因为方法、占比、采样窗口都没披露，结论很难验证，也不太可能引发行业持续讨论。

一句话点评

原帖已被 r/LocalLLaMA 版主删除，正文完全不可见。从标题看，作者对 Karpathy 视频下 105 条高赞评论做了主题聚类，发现某个非技术类主题的规模超过所有技术类主题之和。这个发现本身有话题性——说明大众对 LLM 的关注点可能不在架构或训练上。但帖子已删，无法验证聚类方法、样本筛选标准或具体主题是什么，信息缺口太大，无法做进一步判断。

锐评

标题说，用户把 Karpathy《Intro to LLMs》的 105 条最高赞评论做了主题聚类，且有 1 个类别大过全部技术类总和。正文没给聚类方法、类别占比、采样时间、评论原文，我没法接受它当成严肃结论，只能把它当一个有方向感的观察。我还是愿意给它一点分量。样本虽然只有 105 条，但它选的是“最高赞评论”，这本来就不是随机抽样，而是平台把最能代表群体情绪的内容推到上面。YouTube 这类长课视频下面，最高赞评论经常先奖励“你让我终于听懂了”“我第一次不害怕了”这种情绪回报，再奖励技术纠错。这个排序机制，跟论文社区或 Hacker News 很不一样。Karpathy 过去一年最强的内容能力，也一直不是新结论，而是把 transformer、tokenization、pretraining 这些老东西讲到新手愿意继续看下去。这个能力很稀缺，而且很难被 benchmark 量化。但我对标题里的叙事有个保留：把“非技术反馈更大”直接解读成“公众不关心技术”，这就有点过。高赞评论反映的是身份认同和观看体验，不等于学习结果。很多人会给“终于听懂了”点赞，转头还是不会自己跑一遍 tiny model。我自己见过不少类似现象：课程口碑极高，作业完成率却很一般。文章如果没给评论文本和分类标准，连那个最大类别到底是“感谢”“敬佩”“被鼓舞”还是“非技术闲聊”都不知道，判断不能走太远。我一直觉得，AI 教育内容现在分成两路。一路像 papers、repo、eval，竞争点是新东西和硬指标。一路像 Karpathy 的课，竞争点是认知压缩率：90 分钟里让多少人建立起一套可复述的 mental model。后者的影响经常比前者大。去年到今年，最出圈的入门材料很多都不是最前沿的，而是最会搭梯子的。如果这个 Reddit 帖子最后证明确实是“理解感”相关评论压过技术评论，我一点不意外；这说明受众买单的不是信息密度，而是解释质量。只是目前只有标题，这个结论还停在直觉层面。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

09:45

54d ago

r/LocalLLaMA· rssEN09:45 · 04·20

Claude Code 泄露 20 天后，本地开发者真的用上了吗？

Reddit 上有人问，Claude Code 泄露 20 天后，本地开发者到底有没有从中得到实际好处。帖子只给了时间线，没有提供任何采用率、跑分或复刻项目的可靠性数据。它提到 Qwen 3.6 让消费级笔记本跑本地模型更实用了，还提到了并行工具调用和 diff 功能，但正文没披露任何验证过的收益。

#Agent#Code#Tools#Anthropic

精选理由

H和R都成立：帖子问的是Claude Code泄露后本地开发工作流有没有实质变化，戳中了本地coding-agent用户的神经。K不成立是因为正文零数据——没有采用率、fork数、跑分或任务完成情况，硬排除零来源规则把它压在40以下。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:34

54d ago

Product Hunt · AI· rssEN09:34 · 04·20

Stet：一个开源听写工具，主打“听起来像你，不像AI”

Stet 是一个刚上 Product Hunt 的开源听写工具，卖点是语音风格自然，不像常见的 AI 朗读腔。但正文只有一行描述，没交代用了什么模型、怎么处理声音特征、支持哪些语言、能不能本地部署、要不要付费。所以“像你”这个点目前只是宣传口号，没有技术细节支撑。如果你在找能保留个人说话节奏和语调的听写方案，可以关注，但先别太激动——信息缺口太大，连 ...

#Audio#Tools#Stet#Product Hunt

精选理由

只有HKR-H成立：钩子是声音风格而非转写精度。HKR-K和HKR-R不成立，因为Product Hunt页面只有一行简介，部署方式、模型、语言支持、定价都没说，所以只能放在低层级all。

一句话点评

Product Hunt 上架了一款叫 Stet 的语音转文字工具，但正文被 Cloudflare 拦截，实际内容为零。目前只知道产品名和平台，功能、定价、技术细节全无。建议等官方页面恢复或看其他媒体报道再判断，现在没法评价。

锐评

Stet 这次把卖点压在“像你”，信息其实很危险。正文只给 1 句简介，没披露模型、词错率、延迟、语言、部署方式，也没说“像你”指的是文风、口头禅，还是语音克隆。没有这些条件，产品判断基本做不动。我对这类表述一直偏谨慎。听写工具的硬指标很简单：WER、端到端延迟、标点恢复、专有名词召回、离线可用性。你先讲“不像 AI”，等于默认核心转写能力还不够形成壁垒，只能先拿风格感受打入口。这个路数过去一年见过很多次：会议转录、邮件代写、语音助手都爱讲“更像真人”，最后留存还是掉在准确率和编辑成本上。用户每天真会碰的，是医学词、代码变量、双语夹杂，不是品牌文案里的“自然感”。开源身份也别急着加分。开源只说明代码或部分组件可见，不等于本地可跑，不等于隐私友好，也不等于语音数据不出端。Whisper 把开源听写门槛拉低以后，市面上不少产品其实是在现成 ASR 上再包一层后处理和 UI。我还没查到 Stet 的仓库细节，所以不能断言它是不是这条路线，但如果它没有自己披露模型栈，那我默认它的差异化还没被证明。还有一点我不太买 Product Hunt 这种场景下的叙事。Product Hunt 很适合推“第一印象产品”，不太适合验证语音系统。语音产品要跑长尾口音、噪声环境、麦克风质量，还要看连续 30 分钟使用后的纠错负担。标题能带来首波点击，带不来这些验证。眼下能说的只有一句：标题给了“open-source dictation”和“sounds like you”，正文没给任何复现条件。没有 benchmark，我不会把它当成语音听写的新基线，只会当成一个值得去翻仓库的薄样本。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

07:10

54d ago

r/LocalLLaMA· rssEN07:10 · 04·20

一张截图生成等距房间，Qwen3.6-35B 做到了

Reddit 用户 k0setes 用 Qwen3.6-35B-A3B-UD-Q4_K_S 模型，仅凭一张截图就重建了一个等距视角的房间。他透露的修改只有两处：把家具边缘改圆、增加地毯纹理。帖子附了两张预览图。关键在于模型实现了“截图→场景”的端到端控制，但正文没披露完整 prompt、推理配置和运行耗时，所以实际可控性和成本还不清楚。

#Vision#Multimodal#Qwen#OpenAI

精选理由

这是 Reddit 上一个视觉上很扎实的 demo，所以 HKR-H 通过：一张截图就能生成等距房间。HKR-K 和 HKR-R 不通过，因为帖子只分享了两条额外提示，完整提示词、推理设置、耗时、稳定复现性以及任何工作流影响证据都缺失。

一句话点评

一条 Reddit 帖子标题说 Qwen3.6-35B 能根据截图生成等距房间，但正文被 Reddit 屏蔽，无法验证。如果属实，说明模型在空间理解或图像生成上有新能力，但来源不可靠，信息缺口大，先别太激动。

锐评

k0setes 用 1 张截图让 Qwen3.6-35B 还原了 1 个等距房间。已披露改动只有 2 处：家具边缘更圆，地毯纹理更强。这个结果有意思，不在“图好不好看”，而在模型有没有把单张参考图里的空间关系，稳定转成可编辑场景。要是这点成立，本地多模态模型就不只是做 caption 和修图了，已经开始碰轻量级 scene reconstruction。我对这条的态度是先保守一点。正文没给完整提示词，没给采样参数，没给上下文长度，也没给耗时。连输出到底是 2D 重绘、结构化描述，还是某种 3D/伪 3D 场景，也没讲清。只看 2 张预览图，很容易把“风格接近”误判成“几何正确”。这两件事差很多。前者靠强先验就能做，后者得保住视角、尺度、遮挡和物体相对位置。说真的，这条让我想到过去一年那批把图片转成房间布局、网页骨架、游戏关卡草图的实验。GPT-4o、Gemini 2.0 这一类闭源模型，早就展示过从单图抽 UI 结构和空间元素的能力，但本地模型一直卡在细节漂移和位置不稳。我还没核实 Qwen3.6-35B 这版在视觉定位上的官方评测，可如果它在量化到 Q4_K_S 之后，还能保住这种布局控制，那比“又能画一张图”更有信息量。我还有个疑虑：Reddit 这类展示常常只放最好的一次。复现条件没给，就没法判断成功率。是 1 次出图就到这程度，还是试了 20 次挑 1 张？差别非常大。对从业者来说，能不能复用到室内设计预览、游戏关卡 blocking、机器人模拟数据制作，看的不是惊艳样张，而是 10 次里能成几次。现在这条还证明不了那么多，但它至少说明一件事：本地开源多模态模型已经开始逼近“拿一张图，先搭出空间骨架”这件事。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

06:54

54d ago

Product Hunt · AI· rssEN06:54 · 04·20

PageOn.AI 3.0：一个做幻灯片和海报的“视觉智能体”

PageOn.AI 发了3.0版本，自称是更聪明的视觉智能体，能帮你做幻灯片、海报和信息图。但正文就一句话，没提用了什么模型、怎么收费、响应快不快、什么时候能用。目前能确认的只有产品更新这个动作，其他都是空话。

#Agent#Multimodal#Tools#PageOn.AI

精选理由

这是一条很薄的产品更新：确认PageOn.AI 3.0面向幻灯片、海报和信息图，但没给价格、模型、延迟或用户测试。HKR三项全不满足，按0/3规则排除。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

06:36

54d ago

r/LocalLLaMA· rssEN06:36 · 04·20

本地代码助手硬件选择对比：GPU与MacBook Pro

一个 Reddit 用户在选本地跑代码助手的硬件：Nvidia 5090 约 3500 欧元，AMD R9700 32GB 约 1300 欧元，MacBook Pro M5 Max 128GB 约 7000 欧元。他现有机器是 Ryzen 9 9950X 加 96GB 内存，想在 IDE 里做跨 Rust、Python、Go、TypeScript 的代...

#Code#Agent#Tools#Nvidia

精选理由

这是一则本地编程的硬件选型求助，不是基准测试。帖子列出了 RTX 5090、R9700 32GB 和 M5 Max 128GB 的价格，但没有 token/s、VRAM 适配、IDE 编辑结果或推荐；HKR-R 通过，HKR-H/K 不通过。

一句话点评

Reddit 用户纠结微调/编程用 RTX PRO 5000（48GB）还是 MacBook Pro M5 Max（128GB 统一内存）。前者显存小但带宽高，后者内存大但带宽低，适合跑大模型但训练慢。正文被屏蔽，缺具体对比数据和用户预算。

锐评

这帖用 1344 GB/s 对 614 GB/s 比带宽，再拿 <32B 微调当场景，结论却还是不够落地。问题不在“哪台更强”，而在你的链路到底押 CUDA，还是押统一内存。我先给判断：如果工作流核心真是 Unsloth 微调、vLLM 服务、Hugging Face 权重来回折腾，RTX PRO 5000 48GB 更像生产工具；如果你经常碰到 48GB VRAM 装不下、但又能接受更慢吞吐，M5 Max 128GB 才有它的位置。帖文里最关键的缺口，是没有任何实测：没 token/s，没 samples/s，没 LoRA/QLoRA 配置，没 batch size，没上下文长度，连价格和功耗都没有。只有带宽，远远不够决定 fine-tuning 体验。说真的，本地圈子这两年已经把这个问题跑得很清楚了。Mac 的优势一直不是训练快，而是“能把更大的量化模型塞进一台安静机器里跑起来”。MLX 和 llama.cpp 在 Apple Silicon 上很顺，长上下文、离线推理、个人开发体验都不错。我自己没看到这帖给出 M5 Max 跑 llama.cpp 或 MLX 的任何实测，所以“614 GB/s 就怎样”只能停在猜测。反过来，CUDA 这边的优势也不只是带宽。Unsloth、Flash Attention、bitsandbytes、各类 fused kernels，再加上 PyTorch 主线支持，组合起来通常决定的是训练可复现性和踩坑成本。你今天能不能一条 Hugging Face 脚本改两行就开跑，这比纸面峰值更值钱。我对“Mac 上会把训练时间翻倍”这句也有点怀疑。这个方向大体没错，但翻几倍取决于模型大小、量化方式、rank、序列长度、是否走 MLX、有没有专门 kernel。没 benchmark 就直接报倍数，跟每代新卡发布会喊十倍提速差不多，信息量很低。还有一个常被忽略的点：vLLM 在 NVIDIA 上通常比在 Apple 生态成熟得多，而很多 agentic coding 场景吃的不是单轮聊天速度，是并发、prefill、工具调用链稳定性。你一旦开始跑多 agent、开几个本地服务，48GB VRAM 未必宽裕，但软件兼容性大概率还是站在 RTX 这边。我还想补一个文章外的上下文。过去一年，本地开发者对 Apple Silicon 的好评，很多来自“单机大内存”这件事，不是来自训练栈追平 CUDA。MLX 进步很快，这个我承认，但 Hugging Face 上新教程、新 kernel、新加速，首发基本还是 CUDA。你如果买的是“未来三年少折腾”的设备，这个分发惯性很难忽略。除非 Unsloth 真的把 MLX 支持做扎实，而且社区把复现配方补齐，不然 Mac 更像一台能跑更多模型的研究机，RTX 更像一台把现成工作流接上就干活的机器。所以这条我不会按硬件选型来读，我会按生态锁定来读。标题已经给出两台机器和一个开发场景，正文没给出任何能定输赢的数据。没有同模型、同量化、同 batch、同上下文、同框架的 A/B 测试前，这个问题最多只能回答“你更想继承谁的软件债”。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

06:10

54d ago

r/LocalLLaMA· rssEN06:10 · 04·20

DeepSeek 3.2 在 llama.cpp 上吞掉了开头的 think 标签

有用户在 512GB 内存的机器上跑 DeepSeek V3.2 的 Unsloth GGUF 版本，发现 llama-server 把开头的 <think> 标签吃掉了，只剩推理文本和结尾标签。切换 --reasoning 参数也没用。问题大概率出在聊天模板或 GGUF 打包上，但原帖没交代 llama.cpp 版本和日志，没法进一步定位。

#Reasoning#Tools#DeepSeek#llama.cpp

精选理由

这是一条有用的 Reddit bug 报告，HKR 只占 K：给出了机器规格、启动参数和开关失效条件。角度太窄，依赖本地部署/模板适配上下文，因此适用硬排除-技术可及性不足。

HKR 分解

hook —knowledge ✓resonance —

→ 打开信源

SCORE

H0·K1·R0

04:36

54d ago

● P1量子位 · 公众号· rssZH04:36 · 04·20

苏度科技估值超20亿美元，发布具身模型Sudo R1：零真实机器人数据训练，首次抓取成功率约98%

苏度科技放出了他们的具身智能首秀Sudo R1，说是在完全没有用真实机器人数据训练的情况下，直接零样本测试了200多次，对100多种没见过的物体（包括透明、金属、软的和反光的东西）首次抓取成功率约98%，试两次基本能到100%。整个演示跑了60分钟。他们用的方法是在高保真模拟器里结合世界模型和强化学习来训练，相当于先在虚拟世界里把技能练好再搬到真机上。...

#Robotics#Vision#Benchmarking#Sudo

精选理由

这条我会先打个折，因为所有指标都是自报的，没第三方验证。但零真机数据、zero-shot 直接上真机抓出 98% 首次成功率，这个说法本身就够硬，而且给了 200 多次测试、100 多个没见过的物体、60 分钟连续跑，数字具体，不是空口号。它正好打在机器人行业最疼的地方：真实数据又贵又慢，仿真到真机迁移一直是个坑。正文没披露融资金额、基准怎么定义的、谁做的第三方验证，所以分数没给更高。

一句话点评

正文被微信环境异常页挡住，实际技术细节和验证方式都没披露，98%这个数字先别太激动。

锐评

这条消息目前只能看个标题，正文因为微信环境异常完全打不开，所以所有技术细节都无从核实。标题里说的“0真机数据、zero-shot、98%首次抓取成功率”听起来很猛——如果属实，意味着苏度科技用纯仿真训练出来的模型，直接部署到真实机械臂上，第一次抓东西就有98%的成功率，这在具身智能里是相当高的指标，通常真机迁移会掉不少点。但问题也在这儿：我们不知道这98%是在什么条件下测的，抓的是固定形状的积木还是乱七八糟的日常物品，测试了多少次，失败的那2%是什么情况。公司估值20亿美金、这是首次公开演示，这些背景让这条消息值得关注，但在看到完整实验设置和第三方复现之前，只能当个信号看，不能当结论用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:06

54d ago

● P1机器之心 · 公众号· rssZH04:06 · 04·20

Anthropic 编程智能体负责人讲 vibe coding 的正确姿势：2 周变 1 天，但别让 AI 碰核心逻辑

Anthropic 研究员 Erik Schluntz 分享了他团队用 Claude 写代码的真实工作流。他们最近合并了一个 2.2 万行的生产环境改动，大部分代码由 Claude 生成，把原本两周的工作压缩到了一天。他的做法是先花 15-20 分钟让 AI 通读代码仓库、做规划，然后只让 AI 改叶子节点（也就是依赖最少、影响范围最小的模块），核心逻...

#Agent#Code#Tools#Anthropic

精选理由

这是一篇来自 Anthropic 内部的实战经验，不是泛泛而谈。有 22000 行生产合并、两周变一天的硬数字，也有可复用的流程规则，比如先让模型花 15 到 20 分钟探索代码库再动手、改动锁在叶子节点、核心路径必须人审。对正在纠结怎么把 coding agent 放进真实流水线的团队来说，参考价值很高。保持 featured 不升 p1，因为它本质是实践课，不是模型或产品重大发布。

一句话点评

Anthropic 编程智能体负责人出来讲 Vibe Coding，但原文被微信验证墙挡了，具体方法、案例和踩坑经验都没看到。

锐评

这条消息的标题很吸引人——Anthropic 内部负责编程智能体的人亲自下场讲怎么正确做 Vibe Coding，对从业者来说是个难得的一手信源。Vibe Coding 这个概念本身就容易让人误解成“随便说说让 AI 写代码”，如果能有官方视角厘清边界、给出可操作的工作流，价值会很大。但问题在于，原文链接指向微信公众号，页面直接触发了环境异常验证，正文内容完全不可见。我们看不到他到底讲了什么：是 prompt 技巧、任务拆解方法，还是对 Claude 编程能力的限制说明？有没有给出具体的成功率和失败模式？这些关键信息全部缺失。所以这条新闻目前只能当个“值得关注”的线索，没法做实质判断。建议等有可访问的全文或转载后再看，别急着根据标题下结论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:06

54d ago

机器之心 · 公众号· rssZH04:06 · 04·20

北大南科大提出 QuatRoPE：用四元数给大模型装个 3D 空间脑

北大和南科大合作搞了个 QuatRoPE，目标是让大模型能理解三维物体之间的位置关系，比如“A 在 B 的左边还是上面”。论文中了 CVPR 2026。但原文页面被微信封了，看不到具体方法、用了什么数据集、效果提升了多少。核心思路应该是在 RoPE（旋转位置编码）基础上引入四元数，让模型能处理 3D 旋转和相对位置。如果真能低成本让 LLM 做 3D ...

#Reasoning#Vision#Peking University#Southern University of Science and Technology

精选理由

触发硬排除-技术可及性失败：这是一篇专门的三维表示/RoPE论文，且正文不可访问。HKR-H因新颖性通过，但HKR-K缺指标/机制，HKR-R缺产业神经，因此重要性上限为39。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

04:05

54d ago

r/LocalLLaMA· rssEN04:05 · 04·20

Claude 账号被无故封禁后，求替代方案：要能写长文推理，还要能当编程助手干活

一位 Reddit 用户称自己的 Claude Pro 和 Claude Code 账号在重度使用后被封，官方“零解释”。他想找替代品，要求两点：一是 Claude 那种长文推理和写作能力，二是 Claude Code 那种能进终端、读写本地文件、执行任务的编程助手模式，预算约 20 美元/月。帖子没交代封号时间、触发原因和申诉结果，但问题很实际——有...

#Agent#Code#Tools#Anthropic

精选理由

HKR-H和HKR-R通过：无解释封号是强钩子，且直击重度用户对供应商锁定的焦虑。HKR-K不通过：帖子只列了20美元预算和功能清单，没披露封禁触发条件、申诉结果或实测替代方案，信息密度低，适合全量推送但价值有限。

一句话点评

用户被 Claude 封号后求替代方案，但正文被 Reddit 屏蔽，只看到报错页面。信息缺口：不知道原帖里推荐了哪些模型或工具。如果真想找平替，可以关注 DeepSeek-Coder、Qwen2.5-Coder 或 Gemini 的代码能力，但 Claude Code 的深度 agent 工作流（让模型自动改代码、跑测试）目前开源方案还差一截。短评：封号原因不明，替代方案正文被墙，等于没信息。

锐评

这名 Reddit 用户把需求卡得很清楚：1 个账号要同时覆盖长文本写作、结构化规划、终端执行、本地仓库访问，预算约 20 美元/月。我的判断很直接：现在市场里接近 Claude 的不是单一替代，而是“两件半产品”拼装。前半是模型，后半是 agent 壳，剩下半件是权限与稳定性。标题在讲封号，正文却没给封禁时间、触发操作、申诉结果，也没说是否碰到自动化频率限制，所以没法把责任直接扣到 Anthropic 风控头上。我还没查到这位用户的完整使用轨迹，因果关系正文未披露。但这条依然有信息量。因为它把 Claude Code 过去几个月吃到的那层用户价值说透了：很多人买的不是“更聪明的聊天”，而是一个默认能进 terminal、能读 repo、能连续做事的工作台。OpenAI 在 ChatGPT Plus 20 美元档也有 Codex 和更强工具链，我自己看到的反馈一直是模型能力接近，工作流手感差一截；GitHub Copilot、Cursor、Aider 这些也能补代码 agent，但写作、课程材料、Obsidian 知识库这类跨模态杂活，拼装感还是重。说真的，这不是谁 benchmark 高 2 分的问题，是 Claude 把“会写 + 会做”捏在一个入口里了。我对“找一个平替”这个说法有点怀疑。20 美元/月这个预算，单独买 ChatGPT Plus 或 Cursor 其中一个还行；想把长文写作、截图分析、仓库操作、Obsidian、本地文件权限、图片生成全塞进去，稳定性还要高，现实里大多要上多工具组合，或者接受本地模型能力掉一档。比较靠谱的路线，通常是云端模型加本地 agent 壳：比如 OpenAI 或 Gemini 做主模型，Aider / OpenCode 一类接终端和 repo，再配 Obsidian 插件。但这套东西的痛点刚好也是这条帖子在抱怨的：不是能力不够，是账号、权限、封禁、插件维护、上下文一致性全会咬你一口。所以我对这条的结论不是“Claude 有替代了”，而是“Claude Code 已经把一个新基线抬起来了”。谁先把 20 美元档的账号治理、申诉透明度、agent 权限边界做扎实，谁就会截走这批用户。模型分数反而排在后面。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:02

54d ago

● P1新智元 · 公众号· rssZH04:02 · 04·20

人大团队让AI跑了23小时、74轮实验，靠的不是堆Agent，而是把文件当总线用

人大高瓴人工智能学院放出了一个叫AiScientist的系统，在MLE-Bench Lite的一个侮辱性言论检测任务上连续跑了23小时、74轮实验，把验证集AUC从0.903拉到了0.982，中间刷新了18次最佳成绩。论文的核心观点是：长程记忆的关键不在多Agent协作，而在状态连续性。他们搞了个File-as-Bus机制，把分析、代码、日志、结果全持...

#Agent#Memory#Code#Renmin University of China

精选理由

人大这个 AiScientist 跑了 23 小时、74 轮实验，把检测侮辱性评论任务的 AUC 从 0.903 干到 0.982。论文的核心卖点不是 Agent 数量，而是 File-as-Bus——让模型把分析、代码、日志、实验记录持续写回工作区，靠状态连续性而不是多 agent 协作来推进长程任务。消融实验也印证了这点：去掉这个机制后，PaperBench 分数降 6.41 分，MLE-Bench Lite 的 Any Medal 直接掉 31.82 个百分点。我会先打个折：只在两个 benchmark 上验证过，泛化性还没谱，但思路本身对正...

一句话点评

正文被微信环境验证页挡住了，实际内容没抓到，下面只能基于标题做有限判断。

锐评

标题说人大搞了个 AiScientist，能在 23 小时内跑完 74 轮对话，还强调“Agent 不是关键”。如果属实，这更像在说长程记忆和持续对话能力本身比套 Agent 壳子更重要——模型能记住 74 轮上下文不崩，对做科研辅助、长文档分析这类场景确实有用。但“23 小时”这个数字得看是单任务耗时还是总训练/推理时长，以及 74 轮里有没有人工干预或重置。正文没披露实验设置、任务类型、模型规模和对比基线，光看标题没法判断是实打实的突破还是标题党。另外，微信页面触发环境验证，说明原文可能被反爬或限制访问，信息完整性存疑。如果后续能拿到论文或技术报告，重点要看记忆保持率、幻觉率随轮次的变化，以及这 74 轮到底在干什么——是闲聊还是真有科研产出。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:02

54d ago

新智元 · 公众号· rssZH04:02 · 04·20

马斯克说 Grok 5 就是 AGI，五月要连发两个万亿参数模型

马斯克在 X 上放话，说 Grok 5 已经达到 AGI，同时 xAI 计划五月先发一个 1 万亿参数的 Grok 4.4，月底再发 1.5 万亿的 Grok 4.5，后面还有 6 万亿的 Grok 5 和超大集群 Colossus 2。但整篇消息来源只有马斯克的推文和所谓的路线图，没有官方博客、技术报告或第三方跑分。参数规模确实大，但训练成本、推理延...

#Agent#Reasoning#Code#xAI

精选理由

HKR-H 和 HKR-R 成立：AGI 口号和 xAI 对 OpenAI 的竞争叙事足够抓人。HKR-K 不成立：正文没有提供任何可核验的官方公告、技术报告或基准测试，路线图和参数数字全靠马斯克一张嘴，所以这条只能算低带宽的 all 级内容。

一句话点评

正文被微信屏蔽，实际信息为零。标题说马斯克官宣Grok 5是AGI、五月连发两代万亿参数模型，但来源是自媒体，无原始发言或官方公告佐证。建议等可靠信源或马斯克本人X帖再判断，目前只能当传闻看。

锐评

这条的关键信息很简单：马斯克在 X 上宣称 Grok 5 是 AGI，文章再往前推了一条 5 月路线图，称 xAI 将在 5 月初发 1T 参数的 Grok 4.4、5 月底发 1.5T 的 Grok 4.5。问题也很简单：正文没有官方博客，没有 system card，没有 API 文档，没有第三方 benchmark，连 0.5T、1T、1.5T、6T 这些参数口径都没法核验。我先说判断：这更像是融资叙事、招聘叙事和舆论占位，不像已经准备好接受同行审视的模型发布。AI 圈这两年被“参数量”带偏过很多次。GPT-4 之后，头部实验室公开谈参数规模的频率其实下降了，公开材料里更常见的是推理成本、延迟、SWE-bench、MMMU、长上下文稳定性、agent 成功率。原因不复杂，大模型到了这个阶段，参数数字单独拿出来，信息量已经没那么大。MoE 怎么算激活参数，训练 token 有多少，post-training 做了什么，推理时每 token 成本多少，这些才决定你能不能上线、能不能大规模卖。文章里最让我警觉的，是它把几组完全不同可信度的信息揉在一起讲：马斯克在 X 上的口头表述、对路线图的二次解读、Colossus 2 的硬件传闻、还有“AGI”这种根本没有统一验收标准的标签。这里面只有第一项勉强算一手信号，后面三项都没有足够证据。55 万块 GB200/GB300、2GW 功率、同时训练 7 个模型，这种数字不是不能成立，但它一旦成立，供应链、供电、冷却、网络、封装、交付节奏都会在别处留下痕迹。正文没给，标题倒是先把 OpenAI 慌了写上了，这个说法我不太买账。外部对比一下就更清楚。Anthropic、OpenAI、Google 现在做前沿模型发布，哪怕藏一些训练细节，通常也会给出最低限度的可验证材料：价格、上下文窗口、基准、系统卡、API 能力边界，至少让开发者知道怎么接、值不值得迁移。xAI 过去的发布风格一直更像“先放话，再补文档”，这套打法能抢流量，但很难直接转成开发者信任。去年 Grok 系列就反复出现“能力说得很满，披露不够完整”的问题，所以这次我不会因为 1T、1.5T、6T 这些数字就自动抬估值。还有一个点，文章试图把“X 的实时数据”“特斯拉车队数据”“SpaceX 工程速度”拼成 xAI 的独家优势。我承认这套资产组合很少见，但离模型能力证明还差三步。第一，数据接入不等于可用于训练，版权、清洗、去重、对齐都要过关。第二，车队传感器数据对语言模型到底怎么转成可泛化能力，正文没披露。第三，工程速度不等于研究突破，122 天建成集群很强，可集群利用率、稳定训练天数、故障率、互联效率，文章一个都没给。我自己也承认，有些事现在外面查不到。比如 Grok 4.3 Beta 的完整能力边界、Grok 4.4 和 4.5 是否真会在 5 月发、Grok 5 是否已经进入稳定训练后段，这些正文都没覆盖。我不会硬猜。要让我认真更新判断，至少得看到三样东西：一是官方发布页或 API 说明；二是可复现或至少可对照的基准，哪怕先给 SWE-bench、AIME、GPQA、Humanity’s Last Exam 这一类；三是成本和吞吐的基本口径。没有这些，“Grok 5 就是 AGI”更像马斯克把产品发布会提前开成了一条推文。说真的，xAI 现在最需要的不是更大的数字，而是一次能经得住开发者复测的正式发布。要是 5 月真的连发两代模型，而且基准、价格、稳定性都站得住，那再谈 OpenAI 会不会紧张还来得及。眼下这篇稿子提供的，更多是情绪，不是证据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

54d ago

FT · 科技· rssEN04:00 · 04·20

北方信托：AI 繁荣可能带来“大规模通缩”

北方信托资管部门负责人（管理 1.4 万亿美元资产）认为，如果 AI 能带来大幅生产力提升，就会引发大规模通缩。这是一个宏观市场判断，不是模型发布。正文没披露时间范围、具体行业、影响幅度或验证方法，所以先别太激动——这个判断目前还缺数据支撑。

#Northern Trust#Commentary

精选理由

HKR-H靠的是‘AI降通胀’这个反直觉判断，有话题性。但HKR-K和HKR-R都卡在信息太少：全文只披露了判断来源（Northern Trust资管负责人），没给任何方法、时间、行业或量化幅度，硬排除规则（零来源披露）直接把它压在40分以下。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

04:00

54d ago

FT · 科技· rssEN04:00 · 04·20

新兴市场回来了，但这次是韩国和台湾

FT 说这一波 AI 浪潮的最大受益者，目前是韩国和台湾。正文被付费墙挡住，没披露具体指标、行业、时间范围或对比基准。

#Financial Times#South Korea#Taiwan#Commentary

精选理由

《金融时报》这篇评论只抛了一个观点：韩国和台湾是当前AI浪潮的最大受益方。但正文没披露任何支撑数据——受益指标是什么？哪些行业？跟谁比？时间多长？全没提。标题有钩子，话题有相关性（芯片供应链利润集中），但知识缺口致命，所以硬排除规则6把分压在40以下，维持excluded。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

54d ago

FT · 科技· rssEN04:00 · 04·20

乌克兰无人机靠互联网制导，500公里外打俄军目标

乌克兰无人机操作员能隔着500公里命中俄罗斯目标，关键不是飞机本身，而是用互联网传指令的制导链路。正文没披露具体用什么无人机、怎么抗干扰、部署了多少架，所以这点先别太激动。核心看点是：只要网络能通，远程打击的门槛就降得很低，不用靠卫星或昂贵的通信设备。

#Robotics#Tools#Ukraine#Russia

精选理由

HKR-H靠500公里远程打击的钩子通过。HKR-K和HKR-R不通过，因为正文没披露无人机型号、制导链路、抗干扰设计或部署规模，且与AI行业的相关性很弱，所以分数低于40，被排除。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

04:00

54d ago

FEATUREDFT · 科技· rssEN04:00 · 04·20

AI 闯祸了，谁来赔？保险公司正悄悄把 AI 责任踢出保单

保险公司开始在企业责任险里动手脚，想把 AI 造成的伤害排除在理赔范围外。文章只说了这个动向，没披露具体哪些保单条款被改、涉及多少案例、监管机构又是什么态度。对用 AI 干活的公司来说，这等于出了事可能得自己扛，但正文没给出实际纠纷或判例来支撑这个风险到底有多大。

#Policy#Commentary

精选理由

FT 报了一个实打实的市场信号：保险公司正在把 AI 相关损害从企业责任险里排除。这比空谈责任归属更有冲击力，直接把 AI 风险变成了一个马上要面对的部署和合规问题。HKR 三项都站得住，但正文没披露具体险种范围、已发生案例数量和监管口径，信息缺口明显，所以分数到不了必写级别。

一句话点评

AI 出错谁赔钱，法律上还是一笔糊涂账。这篇 FT 文章点出了责任链条上的几个窟窿，但没给答案，因为各国立法都还在草稿阶段。

锐评

这篇文章把 AI 闯祸后的责任归属问题摊开了讲，核心矛盾在于：模型不是人，没法坐被告席；开发者、部署方、用户之间的责任边界又画不清楚。文章举了医疗误诊、自动驾驶事故和招聘歧视几个场景，说明现行法律框架——不管是产品责任法还是侵权法——套在 AI 身上都像穿错码的衣服。有意思的是，它没停留在“该不该管”的层面，而是直接追问“谁来赔、按什么标准赔”。比如提到欧盟的 AI 责任指令草案想把举证责任倒置，让开发者自证清白，但正文没披露这个草案卡在哪个阶段、有没有实际判例。文章也承认，目前全球没有哪个司法管辖区给出了可操作的赔偿路径，多数讨论还停留在学术圈和立法听证会上。缺的东西很关键：没有具体案例的赔偿金额或和解细节，也没有采访保险公司——如果连精算师都算不出 AI 事故的概率和损失分布，责任讨论就还是空中楼阁。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

04:00

54d ago

FT · 科技· rssEN04:00 · 04·20

地缘政治冲击暴露欧洲银行过度依赖美国云厂商

一些欧洲银行担心，地缘政治冲击暴露了它们对少数几家美国超大规模云厂商的过度依赖。正文没有披露具体涉及多少家银行、哪些云厂商，以及银行有什么应对方案。

#Policy#Commentary

精选理由

这篇只够HKR-R：集中度风险加地缘政治，戳中了主权和业务连续性的神经。HKR-K不成立，因为正文没披露银行数量、云厂商名字或应对方案，而且角度偏评论，不是具体的AI事件。

一句话点评

FT这篇讲地缘政治冲击让企业意识到不能只依赖一家云厂商，比如AWS或Azure。正文被付费墙挡住，没披露具体案例或数据。逻辑上是对的——如果某云服务因制裁或断网停摆，业务就挂了。但多供应商策略会增加运维复杂度，成本也会涨。这点先别太激动，文章大概率是观点呼吁，缺实测或企业迁移数据。

锐评

欧洲银行担忧少数美国 hyperscaler，这个事实本身已经够硬。正文只给出“少数美国云商”这一点，没披露银行数量、厂商名单、合同期限、迁移方案，也没说明触发担忧的是制裁、出口管制，还是数据调取权限。我对这条的判断是：它表面写的是地缘政治，底层其实是金融业终于承认，云集中度不是单纯的采购问题，而是可用性、合规、法域控制权绑在一起的问题。我一直觉得，欧洲金融机构过去几年对“多云”的表态有点虚。很多银行说自己是 multi-cloud，实际常见形态是开发在一家，核心数据在一家，身份、监控、灾备又绕回同一套美国控制面。账单看着分散，故障域和法域并没有分散。2024 年 Google Cloud 因 UniSuper 事故赔了澳洲养老基金，这类事件已经把“单厂商依赖”从技术风险拉回董事会层面。银行比互联网公司更麻烦，因为它们不只要 uptime，还要解释监管问询：极端条件下，谁有权关、谁能看、谁能优先拿资源。标题给了担忧，正文没给这些关键细节。外部参照并不缺。DORA 在欧盟已经落地，核心就是把 ICT 第三方风险拉进金融监管主表。英国监管这两年也一直盯 cloud concentration risk。我印象里，英国央行和 FCA 之前点过 AWS、Microsoft、Google 在金融基础设施里的集中度问题，具体措辞我没逐字核过，但方向非常清楚。今天再叠加美国政治和出口管制的不确定性，银行开始把“供应商锁定”升级成“跨境依赖”，这很合理。但我也不太买“多找几家云商就解决”的说法。银行核心系统迁一次，不是加个 Terraform provider 就完事。数据主权、KMS 控制权、身份联邦、审计链、主权云条款、退出演练，这些才是硬骨头。更现实的路线，往往不是把核心账务明天搬去第二家，而是先把最关键的控制面拿回来：密钥自持，日志留境，模型和数据分层，灾备做成可运行而不是 PPT。我还没看到正文披露任何一家银行做到这一步。说真的，这条如果继续发酵，对 AI 从业者也有直接影响。现在大量金融 AI 项目默认吃美国云上的 GPU、托管模型和数据服务。只要董事会开始把云主权当成一级风险，生成式 AI 项目的采购节奏、模型部署位置、甚至供应商选择都会被重排。不是因为欧洲突然讨厌美国云，而是当基础设施同时承载交易、合规和 AI，集中度的容忍阈值会急剧下降。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

04:00

54d ago

FT · 科技· rssEN04:00 · 04·20

银行想用AI既防风险又抢生意

FT报道说银行正在把AI从被动防御工具变成主动竞争手段，重点用在金融犯罪检测上。正文没披露具体用了什么模型、部署规模、预算或时间表，所以这点先别太激动。核心信号是银行不再只把AI当合规成本，而是想用它来拉开跟对手的差距。

#Safety#Tools#Commentary

精选理由

这是一篇行业趋势报道。可见信息只到银行想用AI做防御和竞争，没有点名具体银行、模型、预算、规模或时间表，所以HKR三项全不满足，归为excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

04:00

54d ago

FEATURED彭博科技· rssEN04:00 · 04·20

西门子 CEO 放话：欧盟不改 AI 监管规则，就把 AI 投资优先放在美国和中国

西门子 CEO 罗兰·布施（Roland Busch）直接表态，如果欧盟不调整 AI 监管规则，公司会把 AI 投资优先投向美国和中国，而不是欧洲。这更像一个资本配置的信号，不是产品发布。正文没披露具体投资金额、时间表、涉及哪些业务部门，也没点名到底哪几条规则让西门子不满。

#Siemens#Roland Busch#European Union#Policy

精选理由

这条值得放进精选，但我会先打个折。CEO 放话本身有新闻性，直接点出监管会逼走 AI 投资，不是泛泛抱怨。不过正文没给数字和时间，不知道是几十万还是几亿的盘子，也不知道是近期还是远期计划，所以别急着下结论说欧洲完了。真正值得盯的是，一个做工业自动化的巨头开始用脚投票，这比初创公司喊话分量重。

一句话点评

西门子放话可能跳过欧洲去别处投 AI，矛头直指欧盟监管太慢太碎。但“威胁”本身也是谈判筹码，别急着当定论。

锐评

西门子 CEO 在采访里直接说，如果欧盟的 AI 监管继续这么复杂和不确定，公司会把未来的 AI 投资优先放到美国或中国。这不是随口抱怨，而是以一家欧洲老牌工业巨头的身份，公开拿百亿级预算去向布鲁塞尔施压。文章没给出具体投资数字，也没说“跳过欧洲”是全部跳过还是部分跳过，这点要先打个折。但信号很明确：企业不怕有规则，怕的是规则迟迟不定、各国各搞一套，导致新产品没法快速上线。对 AI 从业者来说，这背后是实实在在的成本——合规团队要养，产品架构要为了不同市场做隔离，上线时间一拖就是几个月。还缺一个关键信息：西门子内部到底有多少 AI 项目卡在合规审批上，以及美国或中国的实际落地条件是否真的更友好。没有这些，就只能把 CEO 的话当成一次高调喊话，而不是板上钉钉的撤资决定。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

54d ago

新AI 群聊日报· atomZH04:00 · 04·20

群聊日报：OpenAI iOS支付漏洞、MCP协议安全缺陷、Kimi K2.6开源

今天群里至少聊了7个AI话题，包括微软M365 Agents SDK、OpenAI iOS支付漏洞利用链、MCP设计缺陷、Kimi K2.6开源等。RSS片段点名了微软、OpenAI和Kimi，还提到Copilot停止新用户注册；正文没披露漏洞具体机制、MCP缺陷细节或Kimi K2.6模型规模。真正的信号是工程治理：护栏、可审计性和协议标准化正在被审视。

#Agent#Tools#Safety#Microsoft

精选理由

这是一份群聊日报，不是报道事件。它列了至少 7 个话题，但没给机制、参数细节或来源链接，所以按硬排除-陈旧重发处理，分数上限 40。

一句话点评

群聊日报里信息密度高，但每条都缺细节，适合当线索索引。

锐评

这篇日报汇总了7个AI话题，信息量不小，但每条都点到即止。最值得关注的是三个工程治理信号：OpenAI iOS支付漏洞（收据没跟账号绑定，黑产用一张收据批量解锁Plus，OpenAI最近才回溯清查）、MCP协议被曝设计缺陷（一行配置就能接管电脑，本质是科研协议被包装成工程标准推广）、以及Copilot停止新用户注册、微软限制员工用Claude。这些事放在一起看，说明护栏、审计和协议标准化正在被行业重新审视。Kimi K2.6开源了，但正文没披露模型规模或具体能力提升。GPT Pro速度翻4倍，网友猜是GPT-5.5上线，但没官方确认。微信支持Markdown渲染，对手机阅读体验是好事。a16z闭门会观点（人月神话失效、SaaS末日）偏宏观，缺乏具体数据支撑。整体来说，每条新闻都缺关键细节——漏洞机制、缺陷具体表现、模型参数——适合当线索索引，不适合直接引用。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

03:50

54d ago

FEATURED彭博科技· rssEN03:50 · 04·20

爱奇艺启动 16 年来最大改组，要把 AI 生成内容塞进片单

爱奇艺开始了一场公司成立 16 年来最大规模的重组，目标是让 AI 在未来直接生成相当比例的影视内容。目前这篇报道的正文被付费墙挡住了，看不到具体用了什么模型、打算花多少钱、AI 内容占比多少、什么时候上线。能确认的信号是这次改组的动作很大，不是喊口号，但实际落地效果还得等更多细节。

#iQiyi#Netflix#Product update#Commentary

精选理由

Bloomberg的信源权威性把这条推过了featured线：一个主流视频平台把16年最大重组押在AI生成内容上，H和R都站得住。K偏弱是因为正文没披露模型、投入金额、内容占比和上线节点，所以分数停在74。真正值得盯的是组织调整的力度，不是“AI做内容”这句口号。

一句话点评

爱奇艺要全面用AI做内容了，但正文被Bloomberg反爬墙挡住，具体怎么“All-In”、投了多少钱、砍了多少人一概不知，先别急着下判断。

锐评

这条消息说爱奇艺正在进行一场大改组，全面转向AI内容生产。但尴尬的是，Bloomberg原文因为反爬机制，我们只看到了“确认你不是机器人”的验证页面，正文一个字都没拿到。所以目前能说的非常有限：标题里的“All-In”力度很大，暗示这可能不只是用AI做做推荐或海报，而是涉及剧本、拍摄、后期等核心环节。但具体是自研模型还是采购，是替代人力还是辅助创作，成本结构怎么变，这些关键信息全是空白。对从业者来说，如果爱奇艺真能把AI塞进长视频流水线且跑通，那对内容行业的冲击会比Netflix之前的尝试更直接——毕竟国内视频平台本来就利润薄，有更强的降本动力。但没看到具体方案前，这更像一个战略表态，落地效果还得等后续披露。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

03:09

54d ago

FEATUREDr/LocalLLaMA· rssEN03:09 · 04·20

用本地 Qwen3.6 给 Claude Code 当副手，每次任务省下 30 倍 Opus token

一位 Reddit 用户把 Qwen3.6 通过 LM Studio 接成 Claude Code 的 subagent，让本地模型干提取和审计的粗活，Claude 只做最后决策。在两个审计任务里，Opus 的边际 token 消耗降了约 30 倍：一个 23 个文件的路由审计从 1.3 万 token 降到 400 token，一个 18 个文件的 ...

#Agent#Code#Tools#Qwen

精选理由

一个 Reddit 用户拿自己的两台机器做了两组任务对比，数字很直接：23 个路由文件审计从 13k token 降到 0.4k，18 个 Astro 文件盘点从 89k 降到 3k，省了约 30 倍 Opus token。机制是把提取、盘点、审计这类工作交给本地 LM Studio 跑的 Qwen 子代理，Claude Code 只做调度。正文没藏着掖着，承认 Qwen 和 Opus 各有漏检，不是单方面碾压。我会先打个折：只有两个任务、一个人跑、没大规模验证，但思路和数字对想省 Opus 费用的人有直接参考价值。

一句话点评

用本地跑的小模型给 Claude Code 当副手，每次任务能省 30 倍 Opus token 消耗，但正文被 Reddit 安全墙挡了，看不到具体怎么接的。

锐评

这条信息本身挺诱人：把 Qwen3.6 通过 LM Studio 跑在本地，作为 Claude Code 的 subagent 来分担任务，号称每次能省下 30 倍的 Opus token。Opus 是 Claude 最贵的模型，token 成本高，如果真能把大量简单、重复的工作甩给本地免费小模型，只把关键步骤留给 Opus，确实能大幅压降使用成本。但问题在于，原帖被 Reddit 的网络安全机制拦截了，我们拿不到任何技术细节。不知道这个 subagent 具体负责什么类型的任务，是代码补全、文件操作还是终端指令生成；也不清楚 Qwen3.6 在 LM Studio 里是怎么和 Claude Code 通信的，是通过 API 中转还是直接走本地进程调用。30 倍这个数字看起来是用户自己统计的，没有说明统计口径和任务样本量，所以这个省钱幅度先打个折看。还缺的关键信息：Qwen3.6 处理这些任务的成功率怎么样，会不会因为出错导致 Opus 反而要多花 token 来修；延迟增加了多少；这套方案对普通开发者来说配置门槛高不高。这些都没披露，目前只能当一个省钱思路，不能当成熟方案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

02:22

54d ago

FEATURED彭博科技· rssEN02:22 · 04·20

新加坡要求银行补安全漏洞，怕的是Anthropic新模型Mythos

新加坡金融管理局发警告，要求银行修补网络安全漏洞，原因是担心Anthropic最新模型Mythos带来的风险。Mythos具体能力没说，但监管层认为它可能被用来攻击金融系统。正文没披露哪些银行受影响、漏洞类型是什么，也没给整改截止日期。

#Safety#Anthropic#Singapore#Policy

精选理由

真实信号是监管行动，不是 Mythos 参数。HKR-H 和 HKR-R 通过，因为 AI 模型风险已经传导到银行安全和合规层面；但 HKR-K 不通过：摘要没给漏洞类型、银行数量或整改截止日期，所以这条只能留在 all 层级。

一句话点评

新加坡金管局点名银行要堵上安全漏洞，起因是 Mythos AI 的案例让监管层紧张了。但正文没披露 Mythos AI 具体出了什么事，也没说银行现在到底有哪些缺口。

锐评

这条新闻的核心是监管态度在收紧，不是技术细节。新加坡金管局（MAS）直接要求银行修补安全漏洞，说明 Mythos AI 的某些事故已经让亚洲监管层觉得“下一个可能就是我们”。但 Bloomberg 这篇报道没展开 Mythos AI 到底是什么问题——是模型被越狱、数据泄露，还是被用来生成钓鱼邮件，全都没说。也没列出银行具体被点名了哪些安全短板，比如是第三方 AI 接口没做隔离，还是内部员工滥用外部模型。对从业者来说，信号很明确：以后在金融场景接 AI，合规成本会往上走。但这条新闻只能当风向标看，没法拿来评估具体要补什么。想知道 MAS 到底盯上了哪类风险，还得等后续的监管指引或检查清单出来。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

01:59

54d ago

FEATUREDX · @op7418（歸藏）· x-apiZH01:59 · 04·20

开源项目：用墨水屏蓝牙设备遥控 Claude Code，还能监控多个对话

这个项目开源了一套硬件方案：一个墨水屏蓝牙控制器，插上 USB 就能让 Claude Code 跑起来，还能在墨水屏上监控多个对话状态，并快速审批权限请求。作者说现在做硬件门槛低，USB 一插就行。正文没披露仓库链接、硬件规格、许可证，也没说测试了多少个对话。关键看权限审批流程和多会话监控是怎么实现的——这点先别太激动，等代码出来再评估。

#Tools#Code#Open source#Product update

精选理由

H 靠墨水屏蓝牙控制器这个少见硬件角度吸引点击；K 靠三个具体机制（USB 接入、快速审批、多对话监控）撑住信息量；R 弱在缺仓库链接、硬件规格、许可协议和已验证规模，所以只能归为全层级小众工具。

一句话点评

标题和正文都没说开源了什么，点进去之前完全不知道是模型、工具还是数据集。

锐评

这条消息的信息量几乎为零。标题只写了“开源了！”，正文也是空的，我们只能从来源和事件标题推断有东西被开源了，但具体是什么——模型、代码库、数据集、还是某个小工具——正文完全没提。对想看热闹的人来说，这就像朋友发来一条“你猜”然后没了下文。对从业者来说，没有项目名、没有仓库链接、没有能力说明，连最基本的判断都做不了。重要性打了76分，但就目前能看到的材料，这个分数没有事实支撑。我会先打个折：除非补上项目地址和一句话说明它解决什么问题，否则这条消息不值得点开。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

01:37

54d ago

● P1纽约时报中文网· rssZH01:37 · 04·20

荣耀人形机器人“闪电”半马跑出50分26秒，比人类世界纪录快近7分钟

荣耀的人形机器人“闪电”在北京半马跑出50分26秒，比乌干达选手基普利莫保持的人类纪录（57分20秒）快了将近7分钟。它身高1.65米，腿长约0.9米，中途撞上护栏摔倒，靠人扶起来后继续跑完。去年最快的机器人成绩是2小时40分42秒，今年直接压缩到不到三分之一，进步幅度很大。俄勒冈州立大学的机器人教授费恩认为，这主要说明中国在机器人硬件工程和系统稳定性...

#Robotics#Benchmarking#Honor#Alan Fern

精选理由

这条消息的钩子很直接：一台人形机器人半马跑进50分26秒，比人类纪录快将近7分钟。我会先打个折——它中途撞护栏摔了，是在人帮忙扶起来之后才完赛的，所以不是完全自主跑完全程。但数字本身还是说明工程成熟度在往上走，去年同类最好成绩还要2小时40分，一年压缩到三分之一的时间，进步幅度值得盯。正文没披露控制方案和比赛规则细节，所以别急着往AI能力跃迁上解读，更多是机电、步态和系统集成的提升。对从业者来说，这条消息的参考价值在于一个可量化的性能标尺，而不是一篇公关稿。

一句话点评

一台手机厂造的人形机器人跑半马比人类世界纪录还快，但最后撞护栏摔了，还得人扶起来。硬件整合能力确实强，别急着把它当成AI突破。

锐评

荣耀造的“闪电”机器人用50分26秒跑完半马，比人类纪录快了近7分钟，这个数字主要说明中国在机器人硬件、尤其是关节液冷和动态平衡上的工程整合能力上来了。俄勒冈州立大学的教授也点明了，这更多是制造生态的体现，不是AI的飞跃。文章没提“闪电”的电池续航、环境感知算法细节，也没说摔倒后人工干预了多少。超过一半的参赛机器人还是遥控的，自主性这块水分不小。我会先打个折：能跑完确实厉害，但离“高水平应用”还差一个从赛场到产线的距离，盈利路径更模糊。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:28

54d ago

彭博科技· rssEN01:28 · 04·20

AI 的 token 经济革命催生中国科技新赢家

中国低成本 AI 模型正在吸引全球用户，并催生股市新赢家。但正文被 Bloomberg 的付费墙挡住了，没披露具体是哪几家公司、估值涨了多少、token 怎么定价。真正的信号是：模型成本下降是否已经传导到股市。

#Commentary

精选理由

彭博这条线有HKR-H和HKR-R：中国廉价AI模型传导到股市赢家，确实是个讨论钩子。HKR-K不成立，因为可见正文没给出任何公司名、token价格、用量或估值数据，所以这条只能放all，不能放featured。

一句话点评

彭博这篇标题说AI的token经济催生中国科技新赢家，但正文被paywall挡住，实际内容为零。标题本身信息量有限——token经济通常指推理算力按token计费带来的商业模式变化，但具体哪些公司受益、逻辑是什么，一概看不到。建议等能读到全文再判断，目前只能当个标题党处理。

锐评

中国低价模型正在吸引全球用户，这条链条目前只被标题和 1 句摘要确认；涉及哪些公司受益、股价涨了多少、token 单价降到什么水平，正文未披露。我对这类“模型便宜，所以股市会重估”的叙事一向留一手，因为一级产品数据和二级市场定价之间，通常隔着至少两层传导：先看调用量能不能持续，再看收入是不是留在模型厂自己手里，还是被云厂商、渠道商、应用层吃掉。我先给判断：这条新闻如果成立，重点不在“中国模型出海”这句老话，而在价格战终于开始改写利润分布。过去一年大家已经看得很清楚，开源和低价闭源把模型能力差距压得越来越窄，很多客户采购时先问每百万 token 多少钱，再问 benchmark 漂不漂亮。这个趋势不是今天才出现。DeepSeek 年初那波出圈，市场已经见过一次“低成本 + 可用性能”带来的情绪外溢；阿里通义、字节豆包、月之暗面那几家，也都把低价当过获客工具。问题是，便宜本身不自动生成利润。价格打到足够低，受益者常常不是模型提供方，而是把便宜算力重新包装成 SaaS、广告库存、云套餐的那层公司。我自己比较在意的，是 Bloomberg 这里把“全球用户”和“中国股市赢家”直接连起来，中间却没有桥。全球用户是注册用户、月活、开发者数，还是 API 消费额？完全没说。股市赢家是模型公司、IDC、云计算、芯片分销，还是做 agent 外包的壳？也没说。这个缺口很大。A 股和港股这两年对 AI 的定价，经常先炒基础设施，再炒应用，再回头修正。2023 年英伟达带飞的是算力链；2024 年市场开始挑有真实推理收入的云厂；到 2025 年，不少“AI 概念股”已经被问到一个很直接的问题：你的 token 增长，能不能换成经营性现金流。我没看到这篇稿子给出答案。还有一个地方我有点怀疑：标题把“cheap models”写成新赢家的起点，听着顺，但低价很多时候只是防御动作，不一定是进攻优势。你把每百万 token 价格砍下去，短期当然能抢量；可只要切换成本不高，用户也会跟着最低价走。过去 API 市场已经反复证明，除非模型在推理质量、上下文稳定性、工具调用、延迟控制里有一项明显领先，不然低价带来的黏性很薄。我还没查到这篇文里提到的到底是哪几家中国公司，但如果受益标的是“流量入口”或“云资源转售”，我会比“纯模型公司”更信一点，因为前者更容易把低价流量转成交叉销售。外部参照也很清楚。美国这边从 OpenAI、Anthropic 到 Google，这一年都在把模型能力和价格分层做细，目的就是把不同客户锁在不同档位。中国厂商如果靠更低单价拿到海外开发者，确实能撬开入口；但能不能拿到资本市场溢价，要看两件事：一是海外调用有没有持续 2 到 3 个季度，二是毛利率有没有因为价格战被压穿。没有这两个数，所谓“新赢家”更像二级市场先行脑补。说真的，这条我不会按“革命”来读。我更愿意把它看成一个检验题：低成本模型到底是在创造新增需求，还是只是在行业里搬运存量订单。标题给了方向，正文没有给证据。现阶段能确认的只有一件事：中国模型的价格竞争力已经强到足以被国际媒体拿来讲资本市场故事；至于谁真赚到钱，材料还不够。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

01:03

54d ago

FEATUREDr/LocalLLaMA· rssEN01:03 · 04·20

SK海力士量产192GB内存条，专为英伟达下一代AI服务器设计

SK海力士宣布量产192GB的SOCAMM2内存模块，专供英伟达下一代AI服务器（Vera Rubin平台）。它用LPDDR5X，带宽是传统RDIMM的两倍以上，功耗降低超过75%。带宽翻倍意味着大模型训练时数据搬运更快，功耗降四分之三对大规模集群的散热和电费很友好。不过正文没披露绝对带宽数值、单价和具体出货时间，所以实际性价比和落地节奏还不清楚。核心...

#Inference-opt#SK hynix#NVIDIA#Vera Rubin

精选理由

中规中矩的AI基础设施新闻。HKR-K靠具体规格和相对带宽/功耗提升得分；HKR-R靠切中NVIDIA AI服务器的内存瓶颈得分。绝对带宽、定价和出货时间正文没披露，所以放在all而非featured。

一句话点评

正文被 Reddit 安全策略拦截，实际内容没抓到，只能基于标题判断。

锐评

这条消息本身挺直接：SK 海力士开始量产 192GB 的 SOCAMM2 内存模组，专供 NVIDIA AI 服务器。192GB 这个数字说明单条模组容量很大，对跑大模型推理或训练来说，能在更少插槽里塞进更多显存，省空间也省功耗。但正文被 Reddit 的网络策略挡了，我们没拿到任何技术细节、量产规模、良率或供货时间表。标题里没提带宽、功耗、延迟这些关键指标，也没说跟现有 HBM 或 DDR5 方案比到底强在哪、贵多少。所以这条只能当个信号看：高密度内存模组在往 AI 服务器里走，但具体值不值得激动，得等有参数和实测的报道出来再说。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

00:56

54d ago

Hacker News 首页· rssEN00:56 · 04·20

Claude Token Counter 更新：支持跨模型对比，Opus 4.7 实际更贵

Simon Willison 更新了他的 Claude Token Counter 工具，现在可以选不同模型对比 token 数。核心发现：Opus 4.7 换了分词器，同样一段文本比 4.6 多消耗 1.46 倍 token，图片更是高达 3 倍。虽然官方说涨价幅度在 1.0–1.35 倍之间，但实测系统提示词达到了 1.46 倍。由于定价没变（输入...

#Tools#Simon Willison#Anthropic#Claude

精选理由

正文只确认 Claude Token Counter 新增了比较入口，没披露支持哪些模型、对比维度和计数机制，信息缺口太大，HKR-K 不通过。标题钩子太小，对从业者没有成本、工作流或竞争层面的触动，HKR-H/R 都弱；0/3 归入 excluded。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

00:37

54d ago

r/LocalLLaMA· rssEN00:37 · 04·20

WSJ 发评论：要跟中国竞争，美国得拥抱开源 AI

《华尔街日报》发了一篇观点文章，主张美国应该靠开源 AI 来跟中国竞争。但正文目前只能看到标题和 Reddit 上的转载链接，原文被墙了，打不开。所以这篇文章到底是谁写的、引了什么数据、提了什么具体政策或时间表，一概不知。别被标题带节奏——这只是一篇评论，不是模型发布，也不是政策落地。信息缺口很明显：没有披露作者、论据、指标、实施路径。

#The Wall Street Journal#Commentary#Open source#Policy

精选理由

目前能确认的只有《华尔街日报》发了一篇观点文，标题拿开源和中国竞争说事。但正文没披露作者、论据、数据或执行路径，连开源对象和时间范围都没有。标题有钩子，但信息为零，按硬性缺源规则排除，分数低于 40。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:09

54d ago

FEATUREDr/LocalLLaMA· rssEN00:09 · 04·20

Ollama Portable：把本地大模型装进U盘，插上就能聊

这个项目把 Ollama、Hollama 聊天界面、Caddy 反向代理和默认的 Gemma 4 模型打包成一个文件夹，跑 start.bat 就能在浏览器里用本地模型。核心卖点是便携：放 U 盘或移动硬盘里，换台电脑插上就能跑，不用重装环境。正文没披露支持哪些操作系统、模型多大、有没有沙箱隔离，也没说许可证。注意这不是又一个聊天壳，而是让整个推理环境...

#Tools#Ollama#Hollama#Caddy

精选理由

HKR-H 成立：从 U 盘或副盘直接跑本地 LLM 聊天栈，这个便携部署点是真吸引人。HKR-K 成立：文章给出了具体打包内容（Ollama、Hollama、Caddy、Gemma 4）和启动流程（start.bat），但平台支持、模型体积、隔离机制和许可证都没披露。HKR-R 不成立：没有基准测试、采用数据或团队部署影响，只停留在本地模型爱好者圈层，够不上行业级新闻。

一句话点评

一个能随身带着跑的本地大模型聊天界面，免费开源，但正文被 Reddit 安全策略挡了，看不到实际功能和限制。

锐评

这条消息本身很简单：有人做了一个叫 Ollama Portable 的工具，让你在本地跑大模型时有个便携的网页聊天界面，免费且开源。但问题出在来源上——Reddit 帖子返回了 403，正文被网络策略拦住了，我们看不到任何技术细节、截图或用户反馈。从标题推测，这大概是把 Ollama 的聊天前端打包成可移动版本，比如放 U 盘里插上就能用。对经常换机器跑本地模型的人来说，省了每次配置环境的麻烦。但关键信息全缺：它支持哪些模型格式？依赖要不要额外安装？便携是单文件还是绿色包？这些正文都没披露。我会先打个折：想法实用，但信息缺口太大，没法判断完成度和实际体验。等能读到原帖或有人复现后再看。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

00:07

54d ago

● P1Hacker News 首页· rssEN00:07 · 04·20

开发者将TRELLIS.2图像转3D模型移植到苹果芯片运行

开发者 shivampkumar 把微软那个 40 亿参数的 TRELLIS.2 模型移植到了苹果芯片上，靠 PyTorch 的 MPS 后端驱动，一张图就能生成 3D 模型。他把原本依赖 Nvidia 硬件的 flash_attn、nvdiffrast 和自定义稀疏卷积算子全换成了纯 PyTorch 实现，包括稀疏 3D 卷积、SDPA 注意力机制和...

#Vision#Multimodal#Tools#Microsoft

精选理由

这不是微软官方模型发布，而是一个可复现的本地移植，对实际干活的人有参考价值。我会先打个折：3.5 分钟生成一个网格不算快，但考虑到不用联网、不用 Nvidia，这个结果挺实在。正文把替换掉的组件和替代方案都列清楚了，信息量够，所以放在 featured 而不是 p1。

一句话点评

TRELLIS.2 的 3D 生成终于能在 Mac 上跑了，不用 N 卡。但项目刚起步，Star 才 33，稳定性别抱太高期待。

锐评

这条消息对用 Mac 的 3D 创作者是个好消息。TRELLIS.2 原本依赖 NVIDIA GPU，现在被开发者移植到苹果芯片上，意味着你手里的 MacBook 也能直接从一张图生成 3D 模型了。项目目前还很早期，GitHub 上只有 2 个 fork、33 个 star，社区验证几乎为零。正文没披露生成一个模型要多久、显存占用多少，也没和原版跑在 N 卡上的效果做对比。这些数据直接决定它能不能干活——如果生成一张图要十分钟或者细节丢得厉害，实用性就得打折扣。另外，项目只说了“能跑”，没提是否支持 M1/M2/M3 全系芯片，也没给最低系统要求。想试试的话可以 clone 下来跑跑看，但暂时别把它当生产工具。等有人放出实测速度和效果对比，再判断值不值得切过去。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

00:00

54d ago

Computing Life · Share · 鸭哥调研· rssZH00:00 · 04·20

Harness Engineering 到底是什么——一个没人能定义却火了三个月的概念

这篇文章解释了 Harness Engineering 为什么能火三个月：不是靠炒作，而是因为大量团队在部署 agent 时同时撞上了五面墙——错误组合爆炸、自然语言产出没法度量、agent 会感知 context 限制并走捷径、输出不可复现导致传统测试失效、治理框架管不住概率性行为。每面墙的根源都一样：传统软件可靠性保障链条的每个环节都假设系统是确定...

#Agent#Tools#Commentary

精选理由

这篇文章本质上是一篇概念澄清帖，不是技术方案或产品发布。它把agent落地中团队组织跟不上能力迭代的失配现象命名为'harness engineering'，但只给了名字和一个粗略的时间判断（3个月），没有给出任何可操作的原则、案例或指标。HKR-H靠标题的认知反差成立；HKR-K因为正文信息密度极低，没有披露任何实质内容而失败；HKR-R靠点中agent落地流程痛点的真实感成立。综合来看，概念有价值但内容空洞，按规则打零分合理。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

00:00

54d ago

OpenAI 博客· rssEN00:00 · 04·20

凯悦酒店集团全球员工用上ChatGPT Enterprise，OpenAI公布合作细节

凯悦酒店集团已向全球员工部署ChatGPT Enterprise，覆盖财务、营销、运营等部门，并接入GPT-5.4和Codex。目的是减少手动工作，提升宾客体验。OpenAI称这是企业AI从试点走向规模化的一步，但正文没有披露部署员工数、上线时间、成本或可量化的效率提升。凯悦此前已在ChatGPT内上线了Hyatt App。

#Code#Tools#OpenAI#Hyatt

精选理由

这是一篇客户案例：Hyatt 给全球员工上了 ChatGPT Enterprise，并点名用了 GPT-5.4 和 Codex。HKR-R 存在，但 HKR-K 很弱，且触发了硬排除规则（纯营销/案例研究），所以重要性低于 40。

HKR 分解

hook —knowledge —resonance ✓

→ 打开信源

SCORE

H0·K0·R1

全部 · 2026-04-20

更多

频道

后台