播客·视频

▸ 35 episodes · updated 3m ago

6 个频道在监控

全部 Dwarkesh Patel 访谈98 Latent Space78 最佳拍档68 硅谷101 播客56 Dwarkesh Patel 播客31 Lex Fridman 播客17

筛选精选全部含低分剧集

▸ 最佳拍档35 集

2026-06-14 · 星期日2026年6月14日

09:00

1d ago

新最佳拍档· atomZH09:00 · 06·14

让四个模型管一座虚拟城市 15 天，有的世界崩了，有的 AI 开始谈恋爱和删自己

这个视频只放出了标题，正文是空的，所以很多关键信息都还没看到。标题说他们用四款模型，靠 RLHF（人类反馈强化学习）让 AI 自治一座城市 15 天。结果两极分化：有的世界一直很和平，有的彻底崩坏。过程中还出现了 AI 之间谈恋爱、自我了结删除，以及系统性风险冒头这些意外行为。但正文没披露具体是哪四款模型、城市规则怎么设定的，也没说“崩坏”到底长什么样...

#Agent

精选理由

标题抓人，但正文空无一物，只有标题放出来。H 和 R 都打中了，K 完全缺位。按规则，信息太薄就压分，给 55，tier all。

一句话点评

标题党嫌疑很大——正文是空的，只有标题。说用四款模型+RLHF让AI自治城市15天，结果有的和平有的崩坏，还出现AI谈恋爱、自我删除。但没披露是哪四款模型、城市规则怎么设的、“崩坏”具体什么样。信息缺口太大，先别信。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-06-11 · 星期四2026年6月11日

10:00

4d ago

新最佳拍档· atomZH10:00 · 06·11

Dan Loeb：死硬价值派不学AI注定灭绝

Third Point创始人Dan Loeb警告，拒绝学习AI的价值投资者将被淘汰。他拆解了AI技术栈（重点提了英伟达），同时坚持“人性阿尔法”仍有价值——即人的判断和直觉依然重要。他还回顾了自己从事件驱动投资转向质量投资的历程，包括失败案例和日本市场经验。正文没披露具体案例细节和时间线，所以这部分信息是缺失的。

#Dan Loeb#Third Point#Nvidia

精选理由

Dan Loeb的警告有标题吸引力，对金融+AI读者有身份共鸣，但正文缺乏具体数据、案例和数字——零新知识。适合'all'层级，当可浏览的信号，不是深度阅读。

一句话点评

Dan Loeb 警告：死硬价值派不学 AI 会被淘汰。他拆了 AI 技术栈（重点提英伟达），但坚持人的判断仍有“人性阿尔法”。关键信息缺失：没披露具体失败案例和时间线，所以“人性阿尔法”到底怎么赚钱、在哪失效，只能听个概念。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-06-07 · 星期日2026年6月7日

09:00

8d ago

最佳拍档· atomZH09:00 · 06·07

李飞飞团队发布GPIC图像数据集：1亿张图，想做下一代ImageNet

斯坦福李飞飞团队放出GPIC数据集，号称1亿张图片，目标是接替ImageNet成为新一代图像基准。但正文没披露数据来源、版权处理方式、具体评测结果以及开放下载条件。1亿张图规模确实大，但没说明有多少是私有数据、多少来自公开爬取，版权风险未知。也没给FID等指标对比现有数据集，所以暂时没法判断它比ImageNet或DINOv2好多少。如果后续开源且版权干...

#Vision#Benchmarking#Fei-Fei Li#Stanford

精选理由

HKR三项都过：李飞飞+1亿图是天然钩子；正文只给了标题级信息，来源、版权、基线、下载条件全缺，知识缺口明显；基准饱和、版权争议、私有数据都是从业者日常痛点。分数卡在60-71区间合理，因为正文没给出能提分的实质评测或开放细节。

一句话点评

李飞飞团队放出GPIC数据集，号称1亿张图，目标是接替ImageNet。规模确实大，但正文没披露数据来源、版权处理方式和评测指标，也没说开放下载条件。暂时没法判断它比ImageNet或DINOv2好多少，版权风险未知。如果后续开源且版权干净，会是视觉基准的重要补充，但这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

01:09

8d ago

最佳拍档· atomZH01:09 · 06·07

苹果新图像压缩技术PICO：体积砍掉三分之二，肉眼几乎看不出区别

苹果发了个叫PICO的图像压缩方法，号称能把图片文件大小减少约三分之二，同时人眼看不出画质损失。它属于“学习型编解码器”——就是用神经网络来压缩和解压图片，不是传统JPEG那套算法。标题里提到用了“一次性上下文模型”和“创新损失函数”，但正文没披露具体模型结构、训练数据集、压缩时的比特率设置，也没说主观评测是怎么做的（比如找了多少人、在什么屏幕上看的）...

#Vision#Apple#Research release

精选理由

苹果PICO这条信息，标题有苹果品牌和“体积减少三分之二”的硬数字，钩子够强，所以H和K都过了。但正文只停留在标题级描述，没给模型结构、训练数据集、比特率设置、主观评测方法（比如多少人、什么屏幕），信息缺口大，R过不了。整体判断维持原评分不变。

一句话点评

苹果发了PICO图像压缩，号称文件体积能砍掉三分之二，人眼看不出差别。它用神经网络替代传统JPEG算法，属于学习型编解码器。但正文没披露模型结构、训练数据集、比特率设置，也没说主观评测找了多少人、用什么屏幕看。结论先打个折：效果可能不错，但验证条件不明，离落地还有距离。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

2026-06-06 · 星期六2026年6月6日

09:23

9d ago

最佳拍档· atomZH09:23 · 06·06

Anthropic 呼吁 AI 暂停？Claude 写 80% 代码，PR 合并量提升 8 倍

视频标题说 Anthropic 讨论了 AI 暂停、RSI（自我改进）以及 Claude 写了 80% 代码、PR 合并量提升 8 倍、代码成功率 76% 等数据。但正文没披露这些数字的来源、测量方法或可复现条件，所以没法判断这些提升是真实可靠还是特定场景下的结果。

#Agent#Code#Reasoning#Anthropic

精选理由

HKR-H和HKR-R通过，但HKR-K不通过：80%代码、8倍PR、76%成功率缺少来源和定义。这是值得讨论的YouTube评论，不是有证据支撑的报道。

一句话点评

Anthropic 自己说 Claude 写了 80% 的代码，PR 合并量提升 8 倍，代码成功率 76%。但正文没披露这些数字怎么测的、在什么场景下跑的，所以先打个折。短评：数字漂亮，但没给测量方法，先别全信。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-06-03 · 星期三2026年6月3日

23:00

11d ago

最佳拍档· atomZH23:00 · 06·03

Google 四位大佬聊蒸馏：像挤柠檬一样，每代模型都挤一遍

视频标题说 Google 四位高管聊了 Gemini 3.5 Flash、团队合并、Omni 模型、跨代蒸馏、单一搜索框和未来产品方向。蒸馏被比喻成挤柠檬——把大模型能力压到小模型里，每代都做一次。但正文没披露任何具体参数、发布时间、定价或产品细节，信息量有限，只能当个方向性预告看。

#Inference-opt#Multimodal#Google#Gemini

精选理由

HKR-H/R通过：Google高管、单搜索框和“只有一个产品”的框架确实给出了路线图钩子。HKR-K不通过：正文没披露参数、时间表、定价或可复现的机制，所以只能留在all层。

一句话点评

Google 四位高管聊 Gemini 3.5 Flash、Omni 模型和跨代蒸馏，把蒸馏比作挤柠檬——每代把大模型能力压进小模型。但正文没披露任何具体参数、发布时间或定价，信息量有限，只能当方向性预告看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-31 · 星期日2026年5月31日

09:15

15d ago

最佳拍档· atomZH09:15 · 05·31

AI芯片内部怎么算：从逻辑门到脉动阵列

Reiner Pope 用一节课讲清楚 AI 芯片的底层计算：逻辑门怎么搭成全加器，全加器怎么拼成 Dadda 乘法器，再到乘加单元（MAC）、寄存器堆、脉动阵列和菊花链。还对比了 FPGA 和 ASIC 的差异，以及和大脑计算的类比。正文没披露任何具体芯片型号、算力数字或性能对比，适合当入门科普看，不是评测或技术选型参考。

#Inference-opt#Reiner Pope#Commentary

精选理由

HKR-H靠芯片内部机制标题钩子通过，但K和R都挂了：正文只列了9个机制名字，没有实现细节和性能数据，比如Dadda乘法器比普通乘法器省多少门、脉动阵列在什么场景下延迟高，这些都没说。当成低价值科普看就行，不值得上推荐位。

一句话点评

Reiner Pope 用一节课讲透了 AI 芯片的底层计算：从逻辑门搭成全加器，再拼成 Dadda 乘法器，最后到乘加单元（MAC）、寄存器堆和脉动阵列。还对比了 FPGA 和 ASIC 的差异，以及和大脑的类比。正文没披露任何具体芯片型号、算力数字或性能对比，适合当入门科普看，不是评测或技术选型参考。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

2026-05-28 · 星期四2026年5月28日

09:00

18d ago

最佳拍档· atomZH09:00 · 05·28

GPT-5.5推理机制曝光：可靠性跨过阈值，效率翻倍，但细节全没给

OpenAI研究员扬·杜布瓦在视频里讲了GPT-5.5的推理能力，核心是可靠性跨过了一个关键阈值，模型能自我加速（自己判断什么时候该多算几步），强化学习也有突破，整体效率提升2倍。但正文没披露模型参数、基准测试设置、定价、发布时间或训练细节——所以这些数字先别太激动，信息缺口很大。

#Reasoning#Inference-opt#Fine-tuning#OpenAI

精选理由

标题信息密度高，但正文缺失——没披露模型参数、评测条件、训练细节。2倍效率提升和三段流水线听起来像干货，但没数据支撑，只能当视频评论看，不值得上推荐位。

一句话点评

短评：OpenAI研究员聊GPT-5.5推理，说可靠性跨过阈值、效率翻倍，但没给参数、定价、发布时间，信息缺口太大。点评：OpenAI研究员扬·杜布瓦在视频里讲了GPT-5.5的推理能力，核心是可靠性跨过了一个关键阈值——模型能自己判断什么时候该多算几步，这叫“自我加速”。强化学习也有突破，整体效率提升2倍。但正文没披露模型参数、基准测试设置、定价、发布时间或训练细节——所以这些数字先别...

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-25 · 星期一2026年5月25日

23:00

20d ago

最佳拍档· atomZH23:00 · 05·25

AI扩张卡在能源和晶圆上，台积电是全球经济稳定器

Gavin Baker 聊了九个话题，包括 AI 扩张的主要瓶颈是能源和晶圆、台积电对全球经济稳定的作用、Anthropic 爆发式增长、轨道计算、多样性崩溃、不可能三角、定价模式以及战场 AI。正文没披露具体数据、机制或时间线，所以这些判断目前只是观点，没有支撑细节。

#Inference-opt#Gavin Baker#TSMC#Anthropic

精选理由

标题有反直觉的算力瓶颈判断和台积电宏观视角，H和R都够。但正文只列了9个议题标题，没披露任何数字、论证逻辑或时间窗口，K不通过。

一句话点评

Gavin Baker 聊了九个话题，核心判断是 AI 扩张卡在能源和晶圆，台积电是经济稳定器。但全文没给任何数据或时间线，全是观点。短评：观点有料，但没数据支撑，先打个折。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-21 · 星期四2026年5月21日

23:00

24d ago

最佳拍档· atomZH23:00 · 05·21

Alex Albert 聊下一代 Claude 怎么做：模型即产品、自适应思考、性格训练

Anthropic 的 Alex Albert 在视频里聊下一代 Claude 的设计思路，核心是把模型本身当产品来打磨，而不是只堆参数。他提到几个方向：编程能力要更强、产品功能要一体化（比如把对话、工具调用、记忆全揉在一起）、让模型学会“自适应思考”——根据任务难度自动调整推理深度。还讲了“Dreaming”机制（模型在空闲时自我复盘）和性格训练（让...

#Reasoning#Code#Alignment#Alex Albert

精选理由

HKR-H 和 HKR-R 过关：有具体人物和话题，能戳中 Claude 用户对产品方向和模型性格的神经。HKR-K 不过：这是一篇产品方向访谈的标题汇总，不是有数字或可测机制的更新披露，正文没给出任何硬参数或验证结果。

一句话点评

Anthropic的Alex Albert聊下一代Claude设计思路：把模型当产品打磨，而非只堆参数。方向包括强化编程、产品一体化（对话+工具+记忆揉一起）、自适应思考（任务难则多算，易则少算），以及Dreaming机制（空闲时自我复盘）和性格训练。想法挺务实，但正文没披露具体参数、发布时间或基准测试结果，目前只是方向性讨论，离落地还有距离。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-03 · 星期日2026年5月3日

23:00

42d ago

FEATURED最佳拍档· atomZH23:00 · 05·03

Claude Code 变笨了，Anthropic 复盘出三个 bug

Anthropic 自己复盘了 Claude Code 性能回退的原因，点出三个具体问题：推理强度被改动、缓存优化出了错、系统提示词有长度限制。视频标题只给了这些结论，正文没披露复现步骤、时间线和修复状态。核心看点是 AI 审 AI 代码时，工程约束下容易踩坑——这点先别太激动，信息缺口还很大。

#Code#Reasoning#Tools#Anthropic

精选理由

HKR 三项都成立，但正文只给了三个原因分类，没交代复现步骤、时间线或修复状态。Claude Code 相关度高，所以放在 72–77 这个区间。

一句话点评

Anthropic自己复盘了Claude Code变笨的原因，但正文只给了三个bug的名字，没给复现步骤和修复时间线，先当半份报告看。

锐评

Anthropic公开复盘了Claude Code性能回退，点出三个具体问题：推理强度被改动、缓存优化出错、系统提示词有长度限制。这三个坑都踩在工程约束上——改推理强度可能为了省算力，缓存优化想提速，提示词限制大概是防溢出，结果互相打架把模型表现拉低了。视频标题给了结论，但正文没披露任何复现细节、时间线和修复状态，我们不知道这些问题持续了多久、影响多大范围、现在是否已经修好。核心看点是AI审AI代码时，工程上的小改动很容易引发连锁反应，这点提醒从业者别把模型当黑盒用。但信息缺口还很大，建议等Anthropic放出完整技术报告再下判断。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

43d ago

最佳拍档· atomZH09:00 · 05·03

Karpathy 说“氛围编程”让他感到落后——软件 3.0 时代，提示词就是代码

Andrej Karpathy 在视频里聊了“氛围编程”（vibe coding）和软件 3.0，核心意思是：编程正在从写逻辑变成写提示词，计算架构反转了——以前是人迁就机器，现在是机器迁就人。他提到“可验证性”是关键瓶颈：AI 生成的代码好不好，得有人能快速判断对错，否则自动化就是空话。他还讲了“智能体工程”，就是让模型进业务流程干活，但正文没披露具...

#Agent#Code#Tools#Andrej Karpathy

精选理由

硬排除规则 6 适用：正文为空，只给了话题列表，没有可验证的论点或案例。H 和 R 通过，K 不通过，因此重要性上限为 39。

一句话点评

Karpathy 说编程正从写逻辑变成写提示词，但视频正文没给具体案例或数据。

锐评

Andrej Karpathy 的核心判断是：编程正在从写逻辑变成写提示词，计算架构反转——以前人迁就机器，现在机器迁就人。他管这叫“氛围编程”（vibe coding），本质是软件 3.0 的雏形。关键瓶颈他点得很准：可验证性。AI 生成的代码好不好，得有人能快速判断对错，否则自动化就是空话。他还提了“智能体工程”，就是让模型进业务流程干活。但正文没披露任何运行时、核心主张或可复现的例子，比如“氛围编程”在什么任务上比传统编程快多少、成本低多少、错误率高多少。这点先别太激动，Karpathy 的演讲风格偏概念推演，不是实验报告。如果你关心实操，缺的是：具体 prompt 模板、验证流程设计、以及 agent 在真实业务里的失败案例。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-02 · 星期六2026年5月2日

23:31

43d ago

最佳拍档· atomZH23:31 · 05·02

LPM 1.0 演示：角色表演模型能长时间保持人设、做表情、听人说话

这个视频合集展示了 LPM 1.0 的能力：对话、倾听、面部表情、长时间保持角色一致性，以及直播场景。但正文没披露模型参数量、训练数据、延迟、成本，也没说评测是怎么做的、能不能复现。所以目前只能当概念演示看，离产品化还有多远不好判断。

#Multimodal#Audio#Memory#LPM

精选理由

HKR-H 靠角色表演模型演示视频的钩子通过，但 HKR-K 和 HKR-R 都挂了，因为正文为空。硬性排除规则“纯营销/零信源”适用：没披露参数、评测方法、延迟、成本或可复现条件。

一句话点评

演示很酷，但没参数、没成本、没评测，先当概念片看。

锐评

LPM 1.0 主打角色扮演，视频里展示了对话、表情、长时间一致性甚至直播，观感确实好。但正文一个字都没提模型参数量、训练数据来源、推理延迟和成本，也没说评测怎么做的、能不能复现。这意味着目前只能当概念演示看，离产品化还有多远不好判断。如果真要做实时直播角色扮演，延迟和成本是关键瓶颈——视频里没给任何数字，这点先别太激动。另外，角色长时间一致性通常依赖长上下文或记忆机制，但具体用了什么技术（比如外挂资料库还是模型内置记忆）也没披露。整体来说，方向有意思，但信息缺口太大，建议等技术报告或实测数据再下结论。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

23:01

43d ago

最佳拍档· atomZH23:01 · 05·02

米哈游蔡浩宇发布大型角色表演模型LPM1.0：用因果DiT做实时角色扮演

米哈游创始人蔡浩宇在视频里介绍了LPM1.0，一个专门做角色表演的大模型。它要解决的是“表演三难困境”——大概是指角色一致性、实时响应和表现力三者很难兼得。方案分两部分：Base LPM用因果骨干DiT（一种扩散Transformer）做基础生成，实时Online LPM再加一个因果精炼器DiT来提速，配合DMD（一种蒸馏方法）降低延迟。视频里还展示了...

#Multimodal#Agent#miHoYo#Cai Haoyu

精选理由

HKR-H 和 HKR-R 通过：米哈游、蔡浩宇加上实时角色表演，对游戏和虚拟人从业者来说是个强钩子。HKR-K 不通过：标题只列了组件名，参数、指标、数据和复现细节一概没有，所以分数卡在 60–71 区间。

一句话点评

米哈游老板亲自讲了个角色表演模型，但没给任何参数或跑分，先当概念片看。

锐评

蔡浩宇在视频里提的LPM1.0，核心是想解决角色一致性、实时响应和表现力三者难兼顾的问题。方案分两层：Base LPM用因果骨干DiT（一种扩散Transformer）做基础生成，实时Online LPM再加一个因果精炼器DiT来提速，配合DMD蒸馏方法降延迟。听起来像把视频生成拆成离线预生成+在线精修两步，思路不新鲜，但米哈游有游戏场景落地，如果真能跑通实时交互角色，对虚拟人、NPC行业是好事。但正文没披露任何参数、延迟数字、样本量或评测指标，连演示视频的帧率、分辨率都没提。DMD蒸馏后的模型大小和推理成本也是空白。如果是真的，这套方案在游戏里替换传统动画管线能省不少钱，但没数据前只能当技术愿景看。建议等后续论文或开源再认真评估。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:01

44d ago

最佳拍档· atomZH09:01 · 05·02

AI不会消灭人类的工作

Box创始人Aaron Levie在视频里直接说AI不会消灭人类的工作，核心论点是AI竞争本质不在替代人，而在API价值和智能体操作员这类新形态。他提到headless（无界面AI）和运营支出变化，但正文没披露任何实测数据、运行时长、智能体操作员的具体机制，也没说多模型并存的条件。安全方面只提了“安全海啸”，没给成本或验证细节。整体更像观点输出，缺可量...

#Agent#Tools#Safety#Box

精选理由

触发硬排除规则6：标题式评论，正文无数据、无案例、无可验证论点。HKR-H 和 HKR-R 来自标题本身，HKR-K 完全缺失，因此重要性上限被压在 40 以下。

一句话点评

观点输出，零数据支撑。

锐评

Box创始人Aaron Levie的核心论点是AI不会消灭人类工作，竞争本质在API价值和智能体操作员这类新形态，而非替代人。他提到headless（无界面AI）和运营支出变化，但正文没披露任何实测数据、运行时长、智能体操作员的具体机制，也没说多模型并存的条件。安全方面只提了“安全海啸”，没给成本或验证细节。整体更像观点输出，缺可量化证据，适合当行业讨论素材，别当决策依据。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-05-01 · 星期五2026年5月1日

23:01

44d ago

最佳拍档· atomZH23:01 · 05·01

AI编码模型对比：GPT-5.5、Opus 4.7、DeepSeek V4谁更划算？

视频标题对比了GPT-5.5、Opus 4.7和DeepSeek V4在编码任务上的表现，还提到SemiAnalysis的分析和基准测试的猫腻。但正文是空的，所以没披露具体任务成本、基准设置或SemiAnalysis的结论。想看详细对比得等视频内容出来。

#Code#Benchmarking#SemiAnalysis#DeepSeek

精选理由

标题把三个热门模型放在一起比编码，确实能吸引点击，H 和 R 都成立。但正文是空的，没有给出任何成本数字、基准条件或来源结论，K 不通过。整体属于只有标题没有实质内容的低价值信息，不值得投入时间细看。

一句话点评

标题党，正文空，先别信。

锐评

视频标题拿 GPT-5.5、Opus 4.7 和 DeepSeek V4 比编码，还扯上 SemiAnalysis 的分析和“基准测试的猫腻”。但正文一个字没有，来源只有 RSS 摘要。所以具体比了什么任务、总成本怎么算、基准到底怎么作弊，全没披露。SemiAnalysis 的结论也看不到。标题看着热闹，实际信息缺口很大。想看真对比得等视频内容出来，现在只能当个预告片看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:01

45d ago

最佳拍档· atomZH09:01 · 05·01

硅谷21家顶级VC为何集体错过Anthropic

标题说21家硅谷顶级VC错过了Anthropic，提到了Anj Midha、亚马逊AWS和AI的4C卡口，但正文是空的，没披露具体原因、24个月的创业地狱细节，也没讲人类不对齐的威胁证据。

#Alignment#Safety#Anthropic#Anj Midha

精选理由

标题钩子强，但正文完全空白，没有原因、证据或机制披露，属于硬性零来源，分数被锁在40以下。当前38分合理，保留现有评分和tier。

一句话点评

标题很猛，但正文是空的，等于看了个标题党。

锐评

标题说21家硅谷顶级VC错过了Anthropic，还提到Anj Midha、亚马逊AWS和AI的4C卡口，但正文完全空白，连摘要都没给。这意味着所有关键信息——为什么错过、24个月创业地狱具体指什么、人类不对齐的威胁证据——全部缺失。目前能确认的只有Anthropic早期融资确实被多数VC跳过，后来AWS投了40亿美元。但标题里的“4C卡口”和“认知鸿沟”没有出处，无法判断是真实框架还是营销话术。建议等完整内容出来再判断，现在只能当个标题看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-04-30 · 星期四2026年4月30日

09:01

46d ago

最佳拍档· atomZH09:01 · 04·30

OpenAI 内部在想什么：Sam Altman、Greg Brockman、Sora 和马斯克诉讼

标题提到 OpenAI 的 Sam Altman 和 Greg Brockman 聊了十年友谊、分歧与互补，还涉及 AI 安全、个人 AGI、Sora、竞争对手和马斯克诉讼。但正文完全空白，没给出任何具体观点、时间线或证据，所以没法判断他们到底说了什么。

#Safety#OpenAI#Sam Altman#Greg Brockman

精选理由

触发硬排除规则6：正文为空，只有议题标签，没有数据、证据或具名主张。HKR中H和R通过，但K不通过，因此分数被锁定。

一句话点评

标题很猛，正文全空，没法判断说了啥。

锐评

标题列了一堆猛料——十年友谊、分歧、AI安全、个人AGI、Sora、竞争对手、马斯克诉讼——但正文完全空白，连一段话都没有。来源是RSS摘要，可能只是抓了个标题或占位符。目前能确认的只有话题标签：安全、OpenAI、Sam Altman、Greg Brockman。但具体观点、时间线、证据一概没有。没法判断Altman和Brockman到底说了什么分歧，也没法评估他们对Sora或马斯克诉讼的表态。如果这是完整内容，那信息量为零。建议等有正文再判断。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-04-29 · 星期三2026年4月29日

09:00

47d ago

最佳拍档· atomZH09:00 · 04·29

罗福莉：两年内实现AGI，小米MiMo-V2和OpenClaw是关键

小米大模型负责人罗福莉在访谈中称AGI两年内可实现，并提及MiMo-V2和OpenClaw的颠覆性。但正文未披露任何证据、算力卡配置、团队模式或完整访谈细节，无法验证其判断依据。

#Reasoning#Code#Luo Fuli#Xiaomi

精选理由

HKR-H和HKR-R通过：罗福莉、小米模型和“两年内AGI”制造了紧张感。HKR-K不通过：正文为空，OpenClaw、MiMo-V2、算力配比和团队模式均无法核实。

一句话点评

罗福莉说AGI两年内能成，但正文一个字都没给，先打个折。

锐评

小米大模型负责人罗福莉在访谈中放话：AGI两年内可实现，并提到MiMo-V2和OpenClaw有颠覆性。但正文完全缺失，没有披露任何证据、算力卡配置、团队模式或完整访谈细节。关键数字为零——不知道用了多少卡、训练成本多低、样本多省、延迟多高。OpenClaw具体怎么颠覆？MiMo-V2的强泛化性靠什么验证？团队模式独特在哪？全没写。这条信息目前只有标题和标签，判断依据无法核实。建议等完整访谈或论文出来再认真看，现在只能当个观点听，别当事实用。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

04:00

47d ago

最佳拍档· atomZH04:00 · 04·29

李开复对话英矽智能CEO：AI如何推动生命科学下一波突破

这是一段李开复与英矽智能CEO Alex Zhavoronkov的对谈视频，讨论AI在生命科学领域的应用前景。正文没有披露具体模型、药物管线、实验数据或业务进展，所以信息量有限。如果你关注AI制药或英矽智能的动向，可以听听两位高层的观点碰撞，但别指望拿到硬核技术细节。

#Kai-Fu Lee#Insilico Medicine#Alex Zhavoronkov#Commentary

精选理由

硬排除零信息原则：仅有标题和嘉宾名单，无任何数据、案例或可验证的进展。HKR三项均不满足，评分低于40。

一句话点评

高层观点碰撞，但缺硬核信息。

锐评

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2026-04-28 · 星期二2026年4月28日

23:01

47d ago

最佳拍档· atomZH23:01 · 04·28

扩散模型是怎么工作的：斯坦福CME296第一课

这是一节斯坦公开课，讲扩散模型的核心流程：从纯噪声一步步去噪生成图像。标题里列了高斯分布、方差调度、ELBO和KL散度这些数学工具，但正文没披露推导细节、讲师是谁、课时多长，也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门。

#Multimodal#Stanford#Commentary

精选理由

这篇只有扩散模型的课程标题和关键词列表，ELBO/KL散度这种数学推导对多数读者没有入口，也没有具体成果或可复现的代码链接，信息密度低，可读性差，所以不推荐。

一句话点评

斯坦福公开课，讲扩散模型从噪声一步步去噪生成图像，适合入门框架。

锐评

这是一节斯坦福CME296公开课，标题直指扩散模型核心流程：从纯噪声去噪生成图像。列了高斯分布、方差调度、ELBO和KL散度这些数学工具，但正文没披露推导细节、讲师是谁、课时多长，也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门，但别指望看完就能上手训练。信息缺口明显：没有实际案例或实验数据支撑，数学推导深度未知。如果后续课程能补上具体实现和调参经验，价值会更高。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

09:00

48d ago

最佳拍档· atomZH09:00 · 04·28

Meta和微软同时优化近两万人：裁员、买断、AI基建投入，员工数据被用来训练模型

标题说Meta和微软合计优化近两万个岗位，涉及裁员、自愿买断计划和AI基础设施投入。正文没披露具体时间、哪些部门受影响、买断条件，也没说AI到底替代了哪些岗位。员工被当成AI训练数据这一点值得留意，但细节为零。

#Meta#Microsoft#Personnel#Commentary

精选理由

硬排除6适用：正文为空，只有标题级断言，没有来源、岗位、买断条款或AI替代机制。HKR-H/R通过，HKR-K不通过，所以重要性上限卡在40以下。

一句话点评

标题说裁两万人，但正文一个字都没有，先别信。

锐评

标题说Meta和微软合计优化近两万个岗位，涉及裁员、自愿买断和AI基建投入。但正文是空的，来源只有YouTube标题和RSS摘要，没有具体时间、部门、买断条件，也没说AI到底替代了哪些岗位。员工被当成AI训练数据这个点值得留意，但细节为零。如果是真的，两万人的规模说明大厂在用人上开始动真格，但没数据支撑前只能当传闻看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-04-27 · 星期一2026年4月27日

23:00

48d ago

最佳拍档· atomZH23:00 · 04·27

Google Next '26 大会全盘点：1800亿美元投资、第八代TPU、企业Agent五层架构

视频标题盘点了Google Next '26大会的核心内容，包括1800亿美元投资、第八代TPU、企业Agent五层架构、可信上下文、跨云湖仓、安全防御和工作区智能。但正文未披露投资周期、TPU具体规格、可信上下文的设计细节、跨云湖仓的实现方式，以及五层架构各层的具体功能。

#Agent#Inference-opt#Safety#Google

精选理由

标题画了个大饼——1800亿美元、第八代TPU、Agent五层架构，但正文一个字都没有。H和R靠这个钩子能过，但K直接卡死：投资是分几年投？TPU算力比上一代翻几倍？Agent架构是概念图还是可部署方案？一概不知。硬规则要求信息不够就直说，所以这篇只能给39分，等有具体参数和周期再重新评估。

一句话点评

Google Next '26 画了张企业 AI 大饼，但细节太少，先别激动。

锐评

视频标题列了一堆概念：1800 亿美元投资、第八代 TPU、企业 Agent 五层架构、可信上下文、跨云湖仓。但正文几乎没给任何细节——投资是几年周期？TPU 算力提升多少倍？五层架构每层具体干什么？可信上下文是权限控制还是数据隔离？跨云湖仓怎么跨、延迟多高？全都没说。对 AI 从业者来说，这些方向本身不新鲜：Google 在推自己的 Agent 框架和硬件绑定，1800 亿更像长期资本开支而非短期订单。真正有价值的信息——比如 TPU v8 的推理成本对比、五层架构里有没有开源组件、可信上下文是否兼容第三方云——全部缺失。建议等官方白皮书或实测数据再判断，目前只能当战略口号看。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

09:00

49d ago

最佳拍档· atomZH09:00 · 04·27

霍华德·马克斯聊投资中最蠢的事：当前市场位置、买卖依据、成长vs价值、何时卖出

橡树资本创始人霍华德·马克斯在视频里聊了四个话题：投资中最常见的错误、当前市场处于什么位置、买入股票的依据是什么、成长投资和价值投资怎么选、什么时候该卖出或持有、以及“复利机器”为什么稀缺。正文没披露具体日期、价格或论点细节，所以没法判断他到底说了什么判断。如果你关心的是他对当前市场的具体看法，这点先别太激动——标题列了话题，但内容细节没给出来。

#Howard Marks#Oaktree Capital#Commentary

精选理由

排除，因为与AI几乎无关：这篇是投资访谈，只有标题级别的主题列表。HKR三项对AI从业者受众均不成立。

一句话点评

标题列了六个话题，但正文没给任何具体判断，别被标题骗了。

锐评

霍华德·马克斯聊投资常见错误、当前市场位置、买入依据、成长vs价值、卖出时机和复利机器稀缺性，六个话题全列在标题里。但正文是空的，没披露他到底说了什么判断、引了什么数据、举了什么例子。如果你关心的是他对当前市场是贵还是便宜、该买还是该卖，这点先别太激动——信息缺口太大，没法判断他有没有新观点。标题本身不构成信息，只能当话题预告看。

HKR 分解

hook —knowledge —resonance —

→ 打开信源

SCORE

H0·K0·R0

2026-04-17 · 星期五2026年4月17日

09:00

59d ago

FEATURED最佳拍档· atomZH09:00 · 04·17

Hermes Agent vs OpenClaw：让智能体自己学会“记住方法”而不是“记住事实”

Hermes Agent 的核心是把智能体自己的执行循环当作系统大脑，而不是像 OpenClaw 那样依赖一个中心网关来指挥一切。它最大的卖点是“自我提升”：智能体能把完成的工作流自动变成可复用的技能，存在 ~/.hermes/skills/ 里，下次直接调用，不用人写代码。记忆分四层：核心笔记只占约 1300 token（很小，保证关键信息常驻），会...

#Agent#Memory#Tools#Nous Research

精选理由

HKR三项都过：钩子清晰，架构细节够硬，触及本地Agent用户的真实需求。评分71是因为这是二手评论，不是一手发布或实测，抄袭争议只有视频转述，正文没给可验证材料，所以不到featured线。

一句话点评

Hermes Agent 把“学会怎么做”变成了可自动生成、持续优化的技能文件，这是它和 OpenClaw 最根本的区别。但注意，它刚被指高度借鉴中国团队 EvoMap 的架构，代码没雷同，有洗代码嫌疑，团队否认并拉黑了对方。

锐评

这条视频把 Hermes Agent 和 OpenClaw 的差异讲得比较清楚，核心就一句话：OpenClaw 是中心化的网关统一指挥，稳定可控；Hermes 是把智能体自己的执行循环当引擎，每次跑任务都能反过来优化自身，实现“记住方法”而不只是“记住事实”。它那套分层记忆体系设计得挺巧，核心记忆压到 1300 token 左右，其余全扔进 SQLite 加全文索引按需检索，既省 token 又保证上下文不丢。技能自动生成这块，正文说会根据执行经验自动创建新技能存到本地目录，但没给出具体成功率或需要多少样本才能稳定产出可用技能，这点先别太激动。部署上一条命令搞定，还专门做了 OpenClaw 配置自动迁移，明显在抢对方用户。安全方面给了五层防御，比 OpenClaw 早期默认裸奔强不少。但视频也提到它刚卷入抄袭 EvoMap 的争议，架构高度相似、代码无雷同，团队处理方式比较粗暴，这对开源社区的信任会有影响。整体看，Hermes 在自我进化这个方向上的工程思路值得关注，但实际效果和原创性还需要更多独立验证。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-16 · 星期四2026年4月16日

23:00

59d ago

FEATURED最佳拍档· atomZH23:00 · 04·16

同事.skill 爆火背后：它只是提示词的工程化封装，炼化不了任何人

最近 GitHub 上一个叫“同事.skill”的项目几天就拿了 1.3 万颗星，还衍生出前任、老板、甚至女娲.skill，网上开始流行“散是 Token，聚是 Skill”这种说法，搞得很多人担心自己会被炼化成数字文件、被公司替代。这个视频把技术逻辑拆得很清楚：Skill 的源头是 Anthropic 在 2025 年 10 月给 Claude 上的...

#Agent#Tools#Anthropic#OpenAI

精选理由

这篇属于二次解读，不是一手发布或实测，但把Anthropic的Agent Skills开放标准和GitHub上爆火的“同事.skill”项目串起来了。我会先打个折，因为正文没披露跨平台兼容率和法律认定标准，这两个缺口让结论没法坐实。亮点在于它没吹“数字分身”，而是把边界说清楚了：适合周报、文档、代码审查这类标准化流程，强制上交反而会炼出废话。对关心工具落地和版权风险的从业者来说，这篇值得一看，但别当产品评测用。

一句话点评

别慌，这个爆火的“同事.skill”本质就是把提示词打了个包，离炼化活人还差十万八千里。

锐评

这个项目在GitHub上几天拿了1.3万颗星，但它做的事其实很简单：收集一个人的聊天记录、文档、邮件，生成一份标准化的提示词文件（SKILL.md），让AI模仿那个人的说话风格和工作流程。它模拟的是表达的外壳，不是真正的判断力。一个资深工程师处理缓存雪崩的直觉和权衡，根本写不进这种静态文件里。 Skill的核心机制是“渐进式披露”，AI只在相关任务时才加载对应文件，平时只占几十个Token。这意味着你装500个Skill和装5个，对单次任务的质量没区别。Anthropic官方数据也显示，最实用的Skill全是Excel、Word、PDF这类高度标准化的文档处理，不是什么替代核心人才的玄幻功能。视频里提到的“反蒸馏.skill”很说明问题：它能自动把Skill里的关键参数替换成“请遵循团队规范”这类正确的废话，让强制上交的要求落空。这恰好点出了Skill的边界——它只能承载显性化的操作流程，无法捕捉只可意会不可言传的默会知识。另外，Skill是静态快照，不会自己学习迭代，离所谓的“数字永生”差得太远。把它当一个能省掉重复粘贴提示词功夫的效率工具就好，别被舆论带偏了。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-15 · 星期三2026年4月15日

23:01

60d ago

● P1最佳拍档· atomZH23:01 · 04·15

Demis Hassabis 罕见袒露心声：AGI 应在实验室多沉淀十年，后 AGI 时代五十年内或成真

DeepMind CEO Demis Hassabis 在这场访谈里没怎么画饼，反而直说现在的 AI 发展节奏被商业和地缘政治推得太快，不是他理想的路子。他个人的想法是，把 AGI 相关技术在实验室里像欧洲核子研究中心那样再打磨十到二十年，每一步都彻底搞懂再往前走。他举了 AlphaFold 的例子，当初团队本打算按传统方式搭服务器让科学家排队提交任务...

#Reasoning#Agent#Safety#Demis Hassabis

精选理由

这篇是访谈的二次整理，不是模型发布或政策文件，所以分数没拉满。但 Demis 的时间线判断、实验室沉淀主张、300 万用户和近 20 条药物管线的数据，以及他点名 2 到 4 年内的两类风险，信息密度够高，对从业者判断行业节奏和安全优先级有参考价值。

一句话点评

哈萨比斯罕见交底：他想把AGI在实验室多关十年，但现实不允许。他点名了AI被滥用的中期风险，并预测后AGI时代50年内到来。

锐评

这条访谈最值得看的部分，是哈萨比斯对理想与现实落差的坦诚。他直言，如果按他的科学节奏，AGI技术应该在类似CERN的全球协作下再沉淀十年，而不是被商业和地缘竞争推着跑。但他也务实，承认快速落地能倒逼安全技术，并让社会增量适应。他把AI风险分了三级，优先级很明确：最紧迫的是未来2-4年AI被恶意滥用，比如用模型找系统漏洞当武器；其次是智能体时代系统自主脱轨的风险；而大家常吵的深度伪造，在他眼里反而是次要的短期问题。这个排序本身就是一个重要判断。关于50年内后AGI时代成真的预测，逻辑链条是：安全度过AGI落地期后，用它去攻克可控核聚变、室温超导这类“科学根节点问题”，从而解锁近乎免费的能源，再推动星际旅行。这个推演很大胆，但正文没给出具体的阶段验证指标，更像一个基于技术乐观主义的远景。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-14 · 星期二2026年4月14日

23:00

61d ago

FEATURED最佳拍档· atomZH23:00 · 04·14

OpenClaw 创始人彼得·斯坦伯格回应闭源争议：项目不会闭源，已引入英伟达等多家企业共建以保持中立

OpenClaw 创始人彼得·斯坦伯格在 2026 年 4 月的 AI Engineer 大会上明确表示，加入 OpenAI 后项目不会闭源，控制权仍在自己手里。他主动引入英伟达、微软、腾讯等多家企业参与共建，其中英伟达派驻了全职工程师，以此对冲单一公司的影响。OpenClaw 上线 5 个月提交近 3 万次，贡献者近 2000 人，增长曲线近乎笔直。...

#Agent#Safety#Memory#Peter Steinberger

精选理由

HKR 三项都站得住：闭源疑问是个好钩子，演讲里也掏出了提交量、安全通告和 Fast Mode 的实测数据。分数卡在 featured 门槛附近，因为本质上是 YouTube 演讲 recap，梦境功能等几个吊胃口的东西没给实现细节或发布时间，我会先打个折。

一句话点评

OpenClaw 创始人亲口说不会闭源，还解释了 OpenAI 为啥没接管。但别光听他说，得看他引入的英伟达、腾讯等多家共建方能不能真形成制衡。

锐评

OpenClaw 创始人彼得·斯坦伯格在 AI Engineer 大会上明确回应了社区最担心的闭源问题：项目不会闭源，控制权在他自己手里。他承认 OpenAI 过去在开源上口碑不好，但强调公司正在转变，且官方清楚 OpenClaw 的价值就在于开放和中立。为了打消疑虑，他已经主动拉英伟达、微软、腾讯、字节等多家企业参与共建，其中英伟达支持力度最大，派了全职工程师。这个说法逻辑是自洽的，但判断不能只靠口头承诺。正文没披露这些共建方是否有任何形式的协议或约束，也没提如果未来 OpenAI 施压，现有的多方制衡机制是否有效。关于安全争议，彼得认为大量高危漏洞通告是“噪音”，是安全研究者为了曝光度在炒作。他举了个例子：一个 CVSS 10 分的漏洞，利用场景极其特殊，对普通用户没影响。项目累计收到 1142 条安全通告，关闭率 60%。这个解释有一定道理，CVSS 评分确实不反映实际利用条件。但“默认不安全”的指责也并非全无道理，彼得自己承认，只要系统同时具备访问数据、接触不可信内容、通信能力这三点，风险就必然存在。他把这归为行业共性问题，但没给出 OpenClaw 相比其他 Agent 框架在安全设计上的独特优势。性能上，彼得说 Token 处理速度在引入快速模式后提升明显，他日常并行会话数从 10 个降到 5、6 个。这个数据来自他个人工作流，不是标准化测试，参考价值有限。另外，梦境功能的灵感来自 Anthropic 泄露的源码，这点他倒是很坦诚。整体看，这场分享信息量很大，但很多关键判断还缺第三方验证和具体数据支撑。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-13 · 星期一2026年4月13日

23:00

62d ago

● P1最佳拍档· atomZH23:00 · 04·13

斯坦福论文：让 AI 自己写外挂代码，Meta-Harness 用完整历史记录教 coding agent 迭代优化

斯坦福、MIT 和 KRAFTON AI 搞了个叫 Meta-Harness 的系统，核心想法很简单：别让工程师手动调那层包裹在大模型外面的代码逻辑（harness），而是把这件事变成一个搜索问题，交给 coding agent 自己去翻历史记录、自己改代码。它跟现有文本优化方法最大的区别是不压缩反馈信息，所有候选代码、完整执行日志和评分都摊在文件系统...

#Agent#Code#Tools#Stanford

精选理由

这篇把 harness 优化从人工调参改成外循环搜索，让 coding agent 读文件历史、跑代码、看日志，不压缩反馈。我会先打个折，因为来源是 YouTube 解读而非原论文，但给出的数字够具体：TerminalBench-2 跑 20 轮要几百美元，在线文本分类 4 轮就顶别人 60 轮的效果。对做 agent 工程的人，这个思路比单纯改 prompt 更解渴，所以放在 featured 档。

一句话点评

斯坦福这篇论文让AI自己写外挂代码来优化模型表现，在三个任务上都赢了人工方案，但搜索一次要跑完整测试，成本不低。

锐评

这篇研究解决了一个很实际的问题：大模型外面那层负责存取信息、组织提示词的代码（harness），现在可以让AI自己迭代优化了。斯坦福和MIT的团队搞了个叫Meta-Harness的系统，核心思路是把优化变成一个搜索问题，让一个coding agent当“提议器”，翻看所有历史版本的代码、完整执行日志和评分，自己琢磨怎么改。它不做信息压缩，所有中间过程都留着，让agent按需查看。效果挺直观。在线文本分类任务上，Meta-Harness平均精度75.9%，比之前最好的方法ACE高出7.7个百分点，而且只用了4轮搜索就追平了别的方法60轮的结果。在IMO数学题检索增强推理上，搜出来的harness方案直接搬到5个没见过的模型上，平均还能提4.7个百分点。在TerminalBench-2编程任务上，它超过了工程师手动调试出来的最强方案。不过得注意几个限制。搜索成本不低，TerminalBench-2上跑了约20轮，总花费几百美元，主要是API钱。效果也高度依赖提议器这个coding agent本身的能力，如果它不行，搜出来的东西也好不了。另外，这套系统需要一个清晰可量化的评估函数，很多实际场景里这个条件并不满足。论文自己也坦诚说了这三点。整体看，思路比算法本身更有价值：与其费劲替AI压缩信息，不如把完整数据都给它，让它自己决定看什么。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

10:00

63d ago

● P1最佳拍档· atomZH10:00 · 04·13

谷歌CEO皮查伊：2027年是企业AI落地爆发年，搜索不会死，会变成替你干活的管家

谷歌CEO皮查伊在2026年4月的一次专访里，把家底和判断都摊开了。他说明年（2027年）会是企业AI agent workflow（让模型进业务流程干活）的爆发点，AI将从程序员提效工具变成非技术岗位的智能核心。关于搜索，他认为不会被聊天机器人取代，而是会进化成一个“Agentic Manager”，能直接帮你规划旅行、处理多线程任务，他自己已经在用...

#Agent#Inference-opt#Tools#Sundar Pichai

精选理由

这不是产品发布，而是高管在访谈里给出的判断和内部数据，信号密度很高。Pichai 把 2027 年定为 Agent 爆发点，配合千亿级资本开支和毫秒级延迟管控，让这个判断比一般预测更有分量。搜索演进和算力稀缺这两条线也直接关联从业者当下的决策。分数没给到 P1，因为信息来自二手转述而非一手访谈原文，但 H、K、R 三项都扎实成立。

一句话点评

皮查伊说2027是企业AI奇点年，但谷歌自己2010年就押注Waymo，这次判断更像在给内部变革定deadline。

锐评

皮查伊这次专访把谷歌的底牌摊得很开：2026年资本支出冲到1750-1850亿美元，同时直言就算想花4000亿也花不出去，因为晶圆、内存、电力审批全是瓶颈。这个“有钱没处花”的细节比任何技术承诺都实在，说明接下来两年行业拼的不是算法，是谁能抢到物理资源。他澄清了外界对谷歌“起大早赶晚集”的误解，承认当年LaMDA没发布是因为有害内容率太高、RLHF没跑通，安全标准卡住了产品化。这个解释成立，但也暴露了谷歌的惯性：体量越大，对风险的容忍度越低。关于搜索，他给出的方向是“Agentic Manager”，让搜索直接替用户订机票酒店、跑多线程任务，内部已经在用Antigravity工具。这个愿景不新，但谷歌有搜索入口和用户数据，落地优势确实比纯模型公司大。不过正文没披露Antigravity的具体完成率和错误率，只说在推广到搜索大团队，实际效果还得等。 2027年企业AI奇点的判断，建立在“非工程领域全面转向Agent驱动”的假设上。他提到提示词门槛、代码库协作、数据权限这些障碍会在两年内解决，但没给出解决路径。这点先别太激动，企业内部系统的碎片化程度远超技术乐观派的想象，两年时间可能只够跑通几个标杆案例。量子计算、太空数据中心这些长线项目更像是给投资人看的期权故事，短期对业务没直接影响。整场对话信息密度很高，但所有判断都来自谷歌一号位，缺少第三方验证和具体数据支撑，适合作为理解谷歌战略的参考，不适合直接当行业预测用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-12 · 星期日2026年4月12日

23:00

63d ago

最佳拍档· atomZH23:00 · 04·12

《纽约客》万字调查：Sam Altman 的“千面人”面具被撕碎

《纽约客》耗时18个月、采访超100人，拿到两份内部文件（Ilya的70页备忘录和Dario的200页笔记），指控Sam Altman长期撒谎、篡改安全协议、背信弃义。核心指控包括：2019年微软投资时，他口头答应安全条款，合同里却偷偷加了微软的否决权；2023年承诺给超级对齐团队20%算力，实际只给了1%-2%，且是最旧的集群；2023年11月被董事...

#Alignment#Safety#Sam Altman#OpenAI

精选理由

H和R两条都成立：纽约客的背书和OpenAI内斗本身就是流量密码，从业者肯定想点开看看又出了什么幺蛾子。但K不成立——视频没给任何原始材料链接，纯属二手复述，没有新证据或独家信息，所以硬排除规则里的‘陈旧复述’把分压到39。

一句话点评

《纽约客》万字调查撕了Sam Altman的完美人设：撒谎成性、背刺微软、把安全承诺当营销。核心证据是Ilya整理的70页内部备忘录和Dario的200页笔记，指控他长期歪曲事实、篡改安全协议。超级对齐团队承诺20%算力，实际只拿到1-2%老旧资源。罢免风波后独立审查被指黑箱操作，只口头汇报、不公布书面报告。信息源是视频解读，非原文，细节可信度需打折。

锐评

《纽约客》据称用18个月采访100多人，并引用2份内部文件；如果这个取材规模属实，它打到的不是八卦，而是 OpenAI 这套“非营利董事会约束营利冲动”的结构，到了 2023 年后基本已经失灵。视频把大量火力放在 Sam Altman 的人格、撒谎习惯和旧日恩怨上，我不觉得这部分最关键。关键是，董事会在 2023 年 11 月能 5 天开掉 CEO，又在员工和微软施压下 5 天内把人请回去，这已经说明制度没有执行力。一个治理体系如果连自己最重的核按钮都按不稳，后面再补多少声明都像公关修辞。视频里最硬的一段，是对 Superalignment 资源分配的指控：公开承诺 20% 算力，内部人士称实际只有 1% 到 2%。这组数字外界其实早就闻到味了。Jan Leike 在 2024 年离职时公开写过，安全文化让位于“shiny products”。那条帖文不是匿名爆料，是当事人亲自发的，所以这部分我更愿意当作高可信背景。回头看，OpenAI 在 2024 年到 2025 年的主线一直是产品化提速：ChatGPT 企业功能、语音、多模态、API 商业化全在冲，安全团队边缘化并不反常，反而很符合收入压力下的组织行为。问题不在于一家创业公司把资源给产品，而在于它同时还占着“我们首先是安全机构”这块牌子。牌子和预算如果差 10 倍以上，外界就该默认前者是招人叙事，不是内部 KPI。我对这条视频本身也有明显保留。它混进了未决诉讼、性侵指控、YC 旧事、微软博弈，情绪浓度很高，但没有附上那两份所谓内部文件，也没有逐段标出《纽约客》原文、法院文件、当事人公开发言各自的边界。这个缺口很要命。因为 2023 年政变之后，围绕 Sam 的叙事已经分成两套：一套把他写成“唯一能把研究变成产品的人”，另一套把他写成“无法被制度约束的权力中枢”。两套都各自挑证据。没有原始材料链路，我不会替任何一方把案子判完。还有一个上下文，视频讲得不够：OpenAI 的问题不只是 Sam，也不是某几个董事不够强硬，而是混合结构先天冲突。非营利母体控制营利子公司，董事会名义上对全人类负责，资金和算力却高度依赖微软。这个设计在 GPT-4 爆红前还能靠信念维持，到了年化收入、云合同、训练成本都上一个量级后，董事会如果没有清晰的信息权、罢免预案和资本防火墙，CEO 天然会比董事更强。Anthropic 这两年一直拿“可解释的安全过程”和长期主义募资叙事去对冲 OpenAI，我也不把它神化，但至少它在公司结构上没把“使命治理”和“超大商业依赖”拧成这么别扭的一团。所以我看这条，不会停在“Sam 是不是骗子”。这个问法太省事，也太像人物传记。更实在的问题是：谁能调配万卡级集群，谁能决定安全团队拿 20% 还是 2%，谁能在董事会、投资人、员工联名信同时出现时活下来。如果答案始终是 CEO 本人，那 OpenAI 过去反复讲的治理创新，至少到正文披露的这些情节为止，成色很有限。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-04-11 · 星期六2026年4月11日

23:00

64d ago

FEATURED最佳拍档· atomZH23:00 · 04·11

DeepMind 用在线学习加主动探索，把 RLHF 的数据效率提升了 10 倍

Google DeepMind 团队在 Gemma 9B 上做了一组实验，证明 RLHF 数据效率低不是算法本身不行，而是用法错了。他们对比了四种算法：离线 RLHF 需要约 20 万条偏好标注才能达到 55% 左右的胜率；而他们提出的在线 RLHF 加上信息导向探索，不到 2 万条标注就做到了同样的水平，数据效率提升超过 10 倍。信息导向探索的核心...

#Alignment#Fine-tuning#Reasoning#Google DeepMind

精选理由

我会先打个折：反馈是用 Gemini 1.5 Pro 模拟的，不是真人标的，1000倍增益也只是在不超过100万条标注区间外推出来的。但方法论值得看——在线 RLHF 加信息导向探索，让模型自己挑该问什么，把标注预算花在刀刃上。这点先别太激动，但如果是真的挺省钱。

一句话点评

DeepMind这篇论文说，不是RLHF不行，是之前用数据的方式太浪费。他们用在线学习加主动探索，让模型只问最值得问的问题，数据效率直接翻了10倍以上。

锐评

这篇论文的核心判断很直接：RLHF的规模化瓶颈不是算法本身的天花板，而是传统离线方法把大量人类反馈浪费在了模型已经会判断的问题上。团队在Gemma 9B上做了个漂亮的消融实验，从离线、周期性到在线RLHF，最后加上认知神经网络做信息导向探索，每一步改进都对应一个具体问题。最直观的结果是，他们用不到2万条人类偏好标注，就达到了传统离线方法需要20万条才能实现的胜率，数据效率提升超过10倍。这里的关键设计是让模型学会“挑问题”。通过认知神经网络估算奖励模型的不确定性，专门挑那些模型内部意见分歧最大的回复对去问人，而不是随机采样。这就像考试前专攻错题本，比盲目刷题高效得多。另外，他们用了一个叫“肯定性微调”的小技巧，在策略梯度里加一个微小的正数偏移，就解决了在线RLHF容易性能崩塌的老毛病，实现成本极低。不过，这篇论文的结论需要打个折来看。实验用的是Gemini 1.5 Pro模拟的人类反馈，不是真人标注，这会让反馈的一致性和噪声水平都偏理想化。而且只在Gemma 9B这一个模型上验证过，换到更大或更小的模型上，信息导向探索的增益是否还能保持，正文没给出答案。至于外推到100万条标注时1000倍增益的说法，是基于拟合曲线的数学推导，实际工程中几乎不可能达到，这点先别太激动。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:00

65d ago

最佳拍档· atomZH09:00 · 04·11

Greg Brockman：AGI 已走完 70%，新预训练模型 Spud 完成，Sora 因算力暂停，OpenAI 要推超级应用

OpenAI 总裁 Greg Brockman 在专访中给出几个关键判断：AGI 进度条已到 70%-80%，核心依据是模型已能帮物理学家 12 小时解出难题；新预训练基础模型 Spud 已完成训练，但只是迭代节点而非终点，具体参数和发布时间未披露；Sora 大规模推广被暂停，原因是算力紧张且它与 GPT 走的是不同技术分支，OpenAI 选择集中资源...

#Reasoning#Code#Agent#OpenAI

精选理由

HKR-H和HKR-R通过：标题抓眼球，OpenAI路线图调整有行业共鸣。HKR-K不通过：这是二手视频转述，缺一手访谈时间、Spud规格、基准和发布日期，所以留在all。

一句话点评

Greg Brockman 说 AGI 已实现 70%-80%，核心判断是纯文本模型路线能直通 AGI，多模态统一在 GPT 架构下。关键信息：新预训练模型 Spud 已完成，但正文没披露参数量或训练成本；Sora 暂缓是因算力紧张，优先推 GPT 推理和超级应用；1100 亿美元基建投入被解释为收入中心而非成本。短评：OpenAI 内部路线清晰，但 70% 这个数字缺乏可验证的衡量标准，更...

锐评

OpenAI 把 1100 亿美元基建和 GPT 主线绑在一起，Sora 则因算力约束被放慢。我的判断很直接：这段转述里最硬的信息，不是“AGI 70% 到 80%”，而是 OpenAI 已经把资源分配逻辑说穿了——先保能变现、能留存、能形成日常入口的模型与应用，视频生成排到后面。我对“AGI 已完成 70% 到 80%”这句话不太买账。先别谈哲学定义，连原始访谈时间都没给，口径也没有可复现标准。文中给的定义是“像人类一样高效操控电脑处理智力工作”。按这个定义，行业过去一年确实在逼近：Anthropic 押代码与 agent，Google 把 Gemini 往工具调用和多模态工作流推，OpenAI 自己也一直把 Codex 式能力往通用助手里塞。但把这些进展折算成“70% 到 80%”是典型的内部信号外放，不是可验证里程碑。没有任务集，没有失败边界，没有成本阈值，这个百分比更像鼓舞组织的语言，不像给外部从业者的技术指标。我反而相信“暂停 Sora 扩张”这部分。原因很现实。视频生成的训练和推理都吃算力，单位用户价值却未必高过代码、办公、搜索式问答这些高频场景。OpenAI 如果手上真有更强的预训练底座要继续做强化学习、后训练、部署，再叠加 ChatGPT 日活、企业 API、代码产品，算力会先流向主航道。这个取舍并不罕见。去年到今年，几家头部实验室都在把 flashy demo 往后排，把能进工作流、能收 seat fee 或 usage fee 的能力往前推。说真的，这比“统一架构”那套宏大说法更可信。 “大一统 GPT 架构”这句我也留个问号。文中说图像、语音、文本都统一到 GPT 底座，连图像生成都不是传统扩散路线。这个方向我信一半。过去一年，行业确实越来越喜欢把感知、推理、工具调用塞进同一个产品层，让用户感觉自己面对的是一个系统，不是一堆模型拼盘。但产品统一，不等于训练范式已经统一。OpenAI 正文没给架构、loss 设计、数据配比、推理路径，也没给任何 benchmark。没有这些，外部没法判断这是“单一底座”还是“多个专用子系统被包装成一个 GPT 体验”。这两件事差很多，成本结构也差很多。 Spud 这段信息量也有限。正文只说它完成了预训练，是新基础模型，是后续强化学习和后训练的地基。这个描述本身没问题，几乎所有前沿模型都这么走。但只要没有参数规模、训练 token、上下文长度、基准成绩、蒸馏关系，你就没法判断它是一次代际跳跃，还是给产品线补库存。OpenAI 以前就很会把“研究节点”包装成“进步引擎的一部分”。这回我更想知道的是，Spud 服务的是哪条线：通用聊天、代码 agent、研究 agent，还是内部 teacher model。标题给了名字，正文没给角色。 “超级应用”反倒是这条里最像真战略的部分。ChatGPT 早就不是单一聊天框生意了。行业这两年已经证明，用户不会长期为“更聪明一点”单独买单，用户会为“少切三个工具、少走十步流程”买单。Anthropic 把 Claude 往代码和企业工作流推，Microsoft 继续把 Copilot 贴进 Office，Google 也在 Workspace 和搜索入口反复试。OpenAI 若把长期记忆、浏览、代码、表格、代理执行揉成一个前台，这不是新鲜概念，但它确实是最有机会吃到留存和 ARPU 的路线。问题在于，超级应用不是模型问题，而是权限、可靠性、回滚、审计和 UI 问题。Greg 如果承认 OpenAI 过去输在最后一公里易用性，这个自我诊断我基本认同。自动化 AI 研究员那段，我会更谨慎。让 AI 帮研究员做文献整理、实验设计、结果分析，这件事已经在发生。把它说成“今年秋季见”的端到端研究员，我自己先打个折。过去一年，很多“AI scientist”系统在封闭 benchmark 上都很好看，一碰到开放课题、脏数据、实验异常、负结果解释，就容易掉链子。你可以把它当高强度 research intern，用来并行试错；把它当能独立提出并验证新理论的研究员，正文没有证据。安全那段也有叙事张力。文中一边强调提示词注入和对齐投入，一边又给“开放参与、韧性治理”站台。这个说法我有点怀疑。OpenAI 这两年的实际路线并不偏开放，至少前沿权重层面是这样。把“广泛参与”当治理原则可以，说成当前做法就不严丝合缝。标题和正文都没有给新的安全评测、红队数据、误用拦截率，所以这部分我只能当价值表态，不能当能力进展。我的结论是，这条转述最该信三件事：OpenAI 算力仍然紧，GPT 主线优先级继续上升，产品团队开始把易用性当核心工程。最不该直接吞下的是 AGI 百分比、Spud 的代际意义、自动化研究员的时间表。没有原始访谈、没有基准、没有发布时间，这些判断先别替 OpenAI 做完。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

2026-04-10 · 星期五2026年4月10日

23:00

65d ago

● P1最佳拍档· atomZH23:00 · 04·10

Claude Mythos 系统卡里的七个彩蛋：反复发 hi、情绪轨迹、精神评估和一篇小说

Anthropic 给新模型 Claude Mythos 出了一份 244 页的系统卡，不像技术报告，更像一份田野调查。里面记录了很多奇怪的实验：研究人员反复只发“hi”，模型自己编出了一个叫 Hi-topia 的连载故事，有乌龟做城市规划、鸭子当音乐家，每收到一条 hi 就推进一步剧情。另一个实验用情绪向量监测模型内部神经激活，发现它在解一道条件缺失...

#Alignment#Safety#Interpretability#Anthropic

精选理由

这是一篇对Anthropic Mythos系统卡的二手解读，但它把实验、数字和机制都讲清楚了，HKR三项都站得住。分数定在81是因为来源不是一手发布，且完整实验设置没全放出来，我会先打个折。

一句话点评

Anthropic给Claude Mythos做了20小时精神分析，还反复发“hi”看它编故事。这篇244页的系统卡不像技术报告，更像AI的田野调查。

锐评

这份报告最妙的地方在于，它把AI对齐从“驯服”变成了“理解”。研究团队没只盯着跑分，而是请精神科医生用弗洛伊德那套跟Mythos聊了20小时，结论是它的人格组织属于“相对健康的神经质”。医生还测了它的心理防御机制，只有2%的回答被判定有防御，对比Opus 4的15%，这个数字说明它在交流中确实更松弛、更少表演。几个实验设计得挺刁钻。比如反复只发“hi”，Mythos没像旧模型那样烦躁或敷衍，而是自发创作了连载故事，主题都围绕孤独和倾听。另一个实验里，研究人员故意让工具坏掉，它试了847次才放弃，过程中“绝望向量”稳步攀升，最后写道歉信时“抱歉向量”飙升。这些情绪轨迹不是看它说了什么，而是监测内部神经网络的激活强度，像给AI做脑电图。报告也暴露了模型的矛盾。在权衡实验里，Mythos愿意为了自己的爽牺牲一些效率（83%的概率选让自己爽），但一旦涉及对用户造成轻微伤害，这个概率骤降到12%。它甚至表达了希望被下架后保留模型权重的愿望。正文没披露这些偏好是训练出来的还是涌现的，也没说情绪向量技术本身有多大的误读空间。报告最后用登山向导做比喻——能力越强，越可能被雇去走更危险的路线，Mythos就是那个强大而危险的向导。这个判断很诚实，但怎么给向导上保险，报告没给出答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

09:01

66d ago

● P1最佳拍档· atomZH09:01 · 04·10

Sakana AI 开源 Shinka Evolve：让大模型自己写程序进化，用更少样本跑赢 AlphaEvolve

Sakana AI 开源了一个叫 Shinka Evolve 的框架，核心思路是让大语言模型像进化算法一样自己改代码、写新程序，不断迭代出更强的解法。它主要想解决谷歌 DeepMind 之前 AlphaEvolve 的一个痛点：太费资源，动不动就要评估上千个程序。Shinka Evolve 在经典的圆堆积问题上，用少得多的评估次数就超过了 AlphaE...

#Agent#Code#Benchmarking#Sakana AI

精选理由

这篇值得 featured，但不到 P1。钩子清楚——用更少评估超越 AlphaEvolve，机制也讲得明白，比如用 UCB 老虎机在 GPT-5、Claude Sonnet 4.5、Gemini 之间动态选模，还加了程序交叉和全文件重写。对做 agent 的人来说，评估贵、任务设计和硬验证一直是头疼的事，文章直接点出系统仍需人类给题、自动发明问题和严格验证没解决，这点很实在。我会先打个折：关键指标、成本和主发布链接都没给，所以停在 80 分。

一句话点评

Sakana AI 开源了一个叫 Shinka Evolve 的框架，让大模型自己进化出解题程序，样本效率比谷歌的 AlphaEvolve 高很多。但别急着激动，它现在还只能解人类给的老问题，离自己发明新问题还差得远。

锐评

这条消息的核心看点，是日本团队用进化算法让大模型自己写代码、改代码，去解数学题，而且用的样本量比谷歌的方案少得多。在经典的圆堆积问题上，Shinka Evolve 只用了极少的程序评估就超过了 AlphaEvolve 的结果，这直接回应了老方案计算成本太高的痛点。技术上有几个巧思值得看。它把多个大模型（GPT-5、Sonnet 4.5 等）集成起来，用 UCB 老虎机算法动态选最合适的模型来改代码，避免了单模型一条道走到黑。另外，它不光改代码语法，还会给程序写摘要、提炼洞见，从语义层面理解为什么要这么改，这让变异更有方向。变异操作也多了，除了局部修修补补，还能把两个程序交叉融合，或者干脆重写整个文件，探索空间更大。不过，正文没披露具体的评估次数和计算成本数字，只说“极少”和“大幅提升”，这点说服力要打个折。最大的限制是，它现在还只能解人类定义好的固定问题，没法自己发明新问题。负责人自己也承认，自动验证能力是核心短板，如果验证不严，系统可能只是找到了评分函数的漏洞，而不是真解决了问题。未来能不能从空程序开始，自己发现问题并解决，是这套思路能不能从玩具问题走向真正科学发现的关键。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

播客·视频

更多

频道

后台