播客·视频

▸ 9 episodes · updated 3m ago

6 个频道在监控

全部 Dwarkesh Patel 访谈98 Latent Space78 最佳拍档68 硅谷101 播客56 Dwarkesh Patel 播客31 Lex Fridman 播客17

筛选精选全部仅精选

▸ Dwarkesh Patel 播客9 集

2026-06-08 · 星期一2026年6月8日

18:09

6d ago

新FEATUREDDwarkesh Patel 播客· rssEN18:09 · 06·08

AI 的样本效率黑洞：模型学东西比人费数据一百万倍

Dwarkesh Patel 这篇文章的核心判断是：这几年 AI 变强，主要靠喂更多、更好的数据，而不是学得更省。他把强化学习（RL）看作一种合成数据生成——砸算力去筛出“好”答案，再让模型去预测这些答案。每个技能都需要上百个人类专家写示例、定评分标准，催生出一个年收入几十亿美元的数据标注行业。文章对比了人和模型的数据量：人到成年大约接触 2 亿个 t...

#Dwarkesh Patel#Mercor#Epoch AI

精选理由

Dwarkesh 把强化学习重新定义为一种合成数据生成方式，并用人脑接触2亿token对比模型几万亿token的消耗，数字很直观。文章是观点评论而非一手实验，部分论证靠类比支撑，所以重要性给到78分。

一句话点评

AI变强主要靠堆数据，不是学得更聪明。RL本质是烧钱筛好答案再让模型背，每个技能都要上百个专家手写范例，这数据黑洞比想象中深得多。

锐评

Dwarkesh Patel 把最近几年的 AI 进步归结为一句话：不是模型学得更省了，而是喂进去的数据更多、更好了。他把强化学习（RL）重新解释成一种合成数据生成——先砸算力用验证器筛出“好”答案，再让模型去预测这些答案，本质上和让它预测下一个词没区别。这个视角挺直接，也解释了为什么每个新技能都需要上百个人类专家写示例、定评分标准，催生出一个年收入几十亿美元的数据标注行业。文章给了一组对比：人到成年大约接触 2 亿个 token，而前沿模型训练要用几十万亿到上百万亿 token，差距接近百万倍。人学遥控操作机器人只要几小时，自动驾驶模型需要的数据量比青少年学开车高出三到四个数量级。这些数字说明现在的模型在样本效率上几乎是个黑洞。不过文章没给出任何解决方案，也没讨论为什么样本效率这么低。它只是把现象摊开，用“数据黑洞”这个比喻收尾。开源模型只落后闭源四个月，作者认为这恰好证明数据才是核心驱动力，因为数据可以从公开 API 蒸馏，而架构技巧很难抄。这个判断有道理，但正文没披露蒸馏的具体效果对比，也没讨论模型架构本身是否已经触及某种瓶颈。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-06-04 · 星期四2026年6月4日

16:14

10d ago

FEATUREDDwarkesh Patel 播客· rssEN16:14 · 06·04

AGI 之后，什么东西还会稀缺？

这期播客请了两位经济学家聊自动化走到极致后的世界。核心问题是：当机器几乎什么都能造、什么都能干的时候，还有什么东西是稀缺的？Alex Imas 给出的一个候选答案是“关系型服务”——比如芭蕾舞演员、咖啡师，只要消费者就是认“真人”这个标签，那人的参与本身就构成了价值，而人天然是稀缺的。但播客也点出一个关键限制：这种偏好只有人类有，所以这会是一个人类互相...

#Dwarkesh Patel#Alex Imas#Phil Trammell#Commentary

精选理由

HKR 三项都过。Dwarkesh 这期访谈把 AGI 后的稀缺性拆成服务、资本、税收和发展中国家收益几个机制来聊，不是泛泛而谈。但全文是一封公开信和政策呼吁，没有法案文本，也没有执行时间表，所以停在 featured 档，没上更高。

一句话点评

两位经济学家聊 AGI 后什么还稀缺，答案指向“真人服务”：芭蕾舞者、咖啡师，只要消费者认“人”这个标签，人就还是稀缺品。但正文没给工资、劳动份额的具体预测，判断先别下太重。

锐评

这期播客的核心判断挺直白：机器能无限复制，但人不能，所以“人给人干活”这件事本身可能成为自动化时代最后的稀缺品。Alex Imas 举的例子是芭蕾舞演员和咖啡师——只要消费者就是愿意为“真人”买单，那人的参与就自带价值，而且供给卡死在人口上，不像机器人明年就能翻倍。但这个推演有个硬伤，播客自己也点出来了：这种偏好只有人类有。如果未来经济主体是 AI，它们对“真人服务”没兴趣，那这条护城河就干了。另外，整篇讨论停留在概念层面，正文没披露任何关于工资水平、劳动收入占比或贫富差距的量化预测，所以目前只能当个思维框架看，离 actionable 的判断还差得远。还缺什么？缺对“关系型服务”市场规模的估算，也缺对不同国家、不同收入群体在这种偏好上的差异分析。如果只有高收入人群愿意为真人溢价买单，那这个稀缺品的盘子可能比想象中小得多。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-05-22 · 星期五2026年5月22日

15:38

23d ago

FEATUREDDwarkesh Patel 播客· rssEN15:38 · 05·22

从逻辑门到 AI 芯片：Reiner Pope 的芯片设计黑板课

MatX 的 CEO Reiner Pope 从最底层的与、或、非逻辑门讲起，一步步拆解 AI 芯片到底怎么工作。他先用一个 4 比特乘 4 比特、再用 8 比特累加的例子，演示了乘法累加（MAC）运算在电路里长什么样——这其实就是矩阵乘法的基本动作，AI 芯片绝大部分时间都在干这个。接着聊到数据搬运比计算还贵，所以芯片里要用多路复用器（mux）来省连...

#Inference-opt#Reiner Pope#MatX#Dwarkesh Patel

精选理由

Dwarkesh 这次访谈没讲空话，Reiner Pope 从最底层的门电路开始，一步步解释怎么为 AI 推理专门设计芯片。我会先打个折：这不是产品发布或行业爆料，更像一堂硬核科普，所以分数不会给到新闻级。但内容密度很高，把脉动阵列、数据流和 ASIC 的取舍都讲透了，对做推理优化的人有实际参考价值。正文没披露 MatX 芯片的具体性能指标，这点先别太激动。

一句话点评

这篇不是新闻，是一堂从与或非门讲到GPU架构的芯片设计课。Reiner Pope用白板把矩阵乘法的电路实现拆得很透，适合想补硬件的算法工程师看。

锐评

这是一篇很硬的科普访谈，不是产品发布或融资消息。MatX CEO Reiner Pope从最底层的逻辑门开始，手把手演示了4比特乘法累加电路怎么搭，再一路讲到脉动阵列、流水线寄存器、FPGA和ASIC的区别、缓存和便签本的设计取舍，最后解释了为什么GPU核心比CPU小得多。Dwarkesh Patel作为投资人没藏着掖着，开头就说了自己是天使投资人，这点挺坦诚。访谈里最有意思的判断是：数据搬运比计算本身贵得多，所以芯片设计的大量精力都花在怎么用多路复用器省连线、怎么安排数据流上。Pope还拿人脑和芯片做了对比，但正文没给出具体结论，这部分更像一个开放讨论。缺的东西也很明显：全程没提MatX自家芯片的任何具体参数、性能指标或流片进度，也没和英伟达现有产品做直接对比。所以这更像一次面向公众的芯片通识课，而不是技术路线声明。如果你想知道MatX到底能不能打，这篇给不了答案。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-05-16 · 星期六2026年5月16日

19:04

29d ago

FEATUREDDwarkesh Patel 播客· rssEN19:04 · 05·16

别把“聪明”和“权力”混为一谈

Dwarkesh Patel 在这篇博客里聊了一个挺常见的误解：我们总把 AI 的智力等同于它能掌握的权力。他上来就举了个例子，如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章的核心观点是，现在 AI 变强的方式，主要是被训练去干好编程这类有经济价值的活儿，这和现实世...

#Reasoning#Alignment#Dwarkesh Patel#Donald Trump

精选理由

Dwarkesh 这篇是观点评论，不是新实验或数据报告。他把“智能”和“权力”拆开来看，提醒大家别把模型在编程任务上的进步，直接当成它能掌控现实资源。这个区分对做安全的人有用，但正文没给出实证案例，所以分数停在优质评论这一档，没往上走。

一句话点评

Dwarkesh 捅破了一层窗户纸：现在 AI 变强靠的是练编程，不是练权谋，把智力直接等同于权力是搞混了赛道。

锐评

Dwarkesh Patel 这篇博客的核心判断很直接：我们总把 AI 的“智力”和它能掌握的“权力”当成一回事，这其实是个误解。他上来就用斯大林举例——如果按“在多种领域达成目标的能力”来定义智力，那斯大林可能是史上最聪明的人，但这显然不是我们讨论超级 AI 时脑子里想的那个东西。文章指出，现实世界的权力更多来自权威、信任和让大规模人群协作的能力，而不是某种孤立的、算无遗策的战略推理。特朗普的权力不是因为他那颗大脑是地球上最强的优化引擎，而是因为数亿人认可的政府给了他巨大的授权。这个区分对 AI 从业者来说很实用。现在模型变强的主要路径，是被训练去干好编程这类有明确经济价值的活儿，这和获取现实权力之间的相关性并不强。文章引用了 Garett Jones 的研究：个人智商和收入只是弱相关，但国家平均智商和国家产出强相关，因为智力有外溢效应——更聪明的社会协作更好、储蓄更多。发明高压蒸汽机的特里维西克穷困而死，但英国有一大批这样的人，才撑起了全球帝国。文章没给出量化证据来证明“AI 走经济赛道就不会自动获得权力”，更多是概念辨析和思想实验。它也没讨论如果 AI 同时掌握经济效率和策略博弈能力会怎样，这个缺口让结论更像一个提醒而非定论。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:01

29d ago

FEATUREDDwarkesh Patel 播客· rssEN19:01 · 05·16

预训练并行策略与翻车训练笔记

这篇笔记聊了两件事：预训练为什么容易跑崩，以及怎么把训练拆到多张 GPU 上。跑崩的核心原因有两个——破坏因果性和引入偏差。比如 MoE 路由里用专家选择（expert choice）分配 token，会让 token n 的去向依赖 token n+k 的路由结果，训练时看到了推理时看不到的信息；token 丢弃也会让后面的 token 影响前面的处...

#Fine-tuning#Inference-opt#Benchmarking#Dwarkesh

精选理由

Dwarkesh 这期笔记把预训练里容易翻车的地方摊开讲：expert choice 和 token dropping 会破坏因果性，FP16 集体通信能把一万次累加算偏，这些坑不踩过很难意识到。我会先打个折——它更像从业者之间的经验交换，不是系统性的技术报告，但给的数字（6ND、288GB、参数量×3）对算成本和排故障都有用。正文没展开具体实验验证，所以别当定量结论用。

一句话点评

预训练跑崩的两大元凶：破坏因果性和引入偏差。MoE 路由用专家选择会让训练看到推理时看不到的信息，FP16 累加超过 1024 后误差能到 10 倍。

锐评

这篇笔记把预训练翻车的坑讲得很实在。核心就两类：一是破坏因果性，比如 MoE 里用专家选择分配 token，会让 token n 的去向依赖后面 token n+k 的路由结果，训练时偷看了推理时拿不到的信息，传 Llama 4 表现不佳可能跟这有关；token 丢弃也有类似问题，后面 token 匹配度更高会导致前面 token 被忽略，Gemini 2 Pro 据说踩过这个坑。二是引入偏差，偏差不像方差能平均掉，会越滚越大。GPT-4 早期训练就栽在 FP16 集体通信上——FP16 在 1024 以上精度间隔变大，反复加 1 会被反复舍入回原值，累加结果能差 10 倍，这种 bug 极难排查。文章还抛出一个有意思的问题：训练翻车的原因是不是就那么几种，修完就一劳永逸？聊的人觉得不是，规模每上一个台阶都会有新坑冒出来，光数值精度这一块就能花式翻车。另外他对 AI 自动写 CUDA kernel 短期不乐观，认为这更接近 AGI 完全体问题。缺的东西也明显：全是经验之谈和传闻，没有实验数据或复现验证，Llama 4 和 Gemini 2 Pro 的案例都标注是 rumor 和 apparently。当成工程避坑清单看有用，但别当正式结论引用。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

19:00

29d ago

FEATUREDDwarkesh Patel 播客· rssEN19:00 · 05·16

RLVR 做科学发现可能格外不灵光

Dwarkesh 拿科学史上的长验证周期来质疑 RLVR 在科学发现上的适用性。文章指出，理论的验证闭环动辄几十年甚至上百年，而且当时看起来更优的理论，预测精度反而可能更差。比如哥白尼 1543 年的日心说模型，因为坚持正圆轨道，实际预测效果不如托勒密打磨了上千年的地心本轮体系，甚至更复杂；要等到 1838 年恒星视差被观测到，才算在观测上彻底驳倒第谷...

#Reasoning#Alignment#Dwarkesh#Michael Nielsen

精选理由

Dwarkesh 这篇不是论文或产品发布，属于评论性质，但抛出的论点够刺激，还带了两个硬核历史数字。我会先打个折，因为没给出系统实验，只是观点输出，但话题性和信息密度都够，放在 78-84 这个质量段没问题。

一句话点评

科学理论的验证周期动辄几十年上百年，用 RLVR 这种靠即时反馈优化的方法去搞科学发现，大概率水土不服。

锐评

Dwarkesh 这篇的核心判断很直接：别指望靠强化学习加可验证奖励（RLVR）就能让 AI 在科学上大杀四方。他拿科学史举例，理论的验证闭环长得离谱，哥白尼 1543 年提出日心说，要等到 1838 年恒星视差被观测到才算在观测上彻底驳倒对手，中间隔了近 300 年。而且当时哥白尼的模型预测精度还不如托勒密打磨了上千年的地心体系，甚至更复杂，因为哥白尼坚持正圆轨道，不得不塞进更多本轮。文章还提到水星进动的例子，牛顿力学解释不了水星轨道每世纪多转出的 43 角秒，当时的天文学家推测有颗叫“祝融星”的未知行星，结果要等到 1915 年爱因斯坦的广义相对论才给出答案。这说明科学进步里掺杂了大量我们还没法清晰描述的判断和启发式方法，很难塞进一个即时打分的 RL 循环里。文章没给出任何量化实验或 AI 模型测试数据，纯粹是历史案例的类比论证。它缺的是：如果非要用 RLVR 做科学，具体会在哪个环节卡死？是奖励函数没法定义，还是探索空间太大？这些都没展开。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-05-15 · 星期五2026年5月15日

16:04

30d ago

● P1Dwarkesh Patel 播客· rssEN16:04 · 05·15

Eric Jang 用现代工具从零复现AlphaGo

Eric Jang 在播客里聊了他休假期间干的一件事：用现在的 AI 工具从零搭一个 AlphaGo。他选这个项目不是因为怀旧，而是觉得 AlphaGo 至今仍是把“搜索、从经验里学习、自我对弈”这三件事揉得最清楚的例子。节目里他一步步拆了蒙特卡洛树搜索是怎么给神经网络当老师的——每一步都直接给出一个更优的落子建议，绕开了大语言模型强化学习里最头疼的问...

#Reasoning#Agent#Code#Eric Jang

精选理由

Eric Jang 这篇文章不是发新模型，而是用 Cursor 这类现代工具重新搭了一遍 AlphaGo，然后拿蒙特卡洛树搜索（MCTS）跟大模型在超长 token 轨迹里的强化学习信用分配做对比。我会先打个折：正文没给出具体实验数据，更像一篇带技术深度的工程复盘。但它的价值在于把两个看似不相关的东西——下棋的搜索算法和 LLM 的 agent 工作流——拉到同一个问题框架下聊。对正在折腾长程推理和 agent 的人来说，这种对比比论文更直接。

一句话点评

Eric Jang 用现代工具重写了 AlphaGo，不是为了刷榜，而是想搞懂“一个十层网络怎么把深到离谱的搜索给学进去”。

锐评

Eric Jang 在播客里聊了他休假期间的项目：用现在的工具从零复现 AlphaGo。他不是要造一个更强的围棋 AI，而是想亲手拆解 AlphaGo 里“搜索、从经验中学习、自我对弈”这几个智能原语是怎么配合的。他提到一个很反直觉的点：一个只有十层的神经网络，居然能把游戏树里极深的搜索过程给“压缩”进去，这让他一直很好奇。对话里最有意思的对比是，AlphaGo 用的蒙特卡洛树搜索（MCTS）能直接给出每一步的改进方向，绕开了“功劳分配”这个难题；而现在的语言模型做强化学习，得从十万多个 token 里猜到底是哪一步做对了，学习效率低得多。Jang 还试了让 AI 自动做研究，发现模型在跑实验、调参数上已经挺顺手，但在“选什么新问题去研究”和“从死胡同里退出来”这两件事上还很吃力。正文没披露他复现的具体算力成本和最终棋力，也没给出自动研究环节的量化成功率。如果想知道这套思路能不能直接搬到语言模型上，还得看他后续会不会放出代码和实验记录。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-29 · 星期三2026年4月29日

17:07

46d ago

FEATUREDDwarkesh Patel 播客· rssEN17:07 · 04·29

Reiner Pope 黑板讲座：大模型训练和推理背后的数学账本

Dwarkesh 把采访间改成了黑板教室，请来芯片公司 MatX 的 CEO Reiner Pope，用公式和粉笔把大模型从训练到服务的成本结构拆了一遍。讲座从批处理大小讲起：没有批处理，服务成本会直接差出 1000 倍，这也是为什么各家 API 定价和快速模式差价巨大的根源。接着讲了 MoE 模型怎么跨 GPU 机柜摆放、流水线并行如何把模型层切分到...

#Inference-opt#Reasoning#Dwarkesh Patel#Reiner Pope

精选理由

这是一堂黑板课，不是新闻事件，所以分数没往上拉。但内容确实扎实：Pope 把训练和推理里几个关键的成本开关——尤其是批处理对经济性的影响——用数字讲清楚了。我会先打个折，因为正文没给具体实验数据，更多是经验推演，但“1000 倍”这个量级足够让人重新审视自己的服务设计。

一句话点评

用粉笔和公式把大模型训练、服务的成本账算透了，看完就懂为什么 API 快慢模式差价能差出 1000 倍。

锐评

Dwarkesh 这次把采访间改成了黑板教室，请来芯片公司 MatX 的 CEO Reiner Pope，用公式和粉笔把大模型从训练到服务的成本结构拆了一遍。讲座从批处理大小讲起：没有批处理，服务成本会直接差出 1000 倍，这也是为什么各家 API 定价和快速模式差价巨大的根源。接着讲了 MoE 模型怎么跨 GPU 机柜摆放、流水线并行如何把模型层切分到不同机柜，以及 Ilya 那句“流水线不聪明”背后的数学原因。信息量很大，但来源限制也明显：这是单人讲座，不是经过同行评议的论文，很多推算是基于公开 API 价格反推的，正文没披露 MatX 芯片的具体规格和实测数据。Reiner 提到因为强化学习，模型可能比 Chinchilla 最优训练量多训了 100 倍，这个判断目前还缺大规模验证。还缺什么：没有给出不同规模模型的具体成本对比表，也没讨论这些成本结构在不同云厂商之间的差异。如果你关心的是自家业务该选快模式还是慢模式，这篇能给你一个判断框架，但具体数字得拿自己的场景去套。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

2026-04-27 · 星期一2026年4月27日

13:51

48d ago

FEATUREDDwarkesh Patel 播客· rssEN13:51 · 04·27

周末杂想：算力垄断、智能与权力的混淆，以及科学验证的困境

Dwarkesh 抛出了一堆他没想明白的 AI 问题。首先是算力分配：全球超过 70% 的 AI 算力握在五家云厂商手里，其中大部分还优先供给了 OpenAI、Anthropic 和 Google DeepMind 三家。他担心普通人会被高价挤出 AI 红利，并追问全民基本算力该怎么搞。其次是模型进步的本质，他搞不清长周期编程智能体到底靠什么突破，也质...

#Agent#Code#Memory#Dwarkesh

精选理由

Dwarkesh这期没给实验结论，就是扔了一串开放问题。我会先打个折，因为正文没披露五家厂商占七成算力的数据来源，这点先别太激动。但他把长程编码Agent、KV缓存内存取舍、训练和推理合并这些技术点揉在一起问，确实让人想接着翻答案。真正值得盯的是算力怎么分、模型能不能在线学、以及‘智能’和‘权力’的定义怎么重新划——这些比论文摘要更贴近一线焦虑。没有产品发布或政策变动，所以分数停在评论类的中上区间。

一句话点评

Dwarkesh 列了一堆他没想通的 AI 问题，不是给答案，是找人一起琢磨。

锐评

Dwarkesh 这篇不是分析，是一份“我没想明白”的清单，但问题本身比很多结论都值钱。他先点出一个很现实的不平等：全球超七成 AI 算力攥在五家云厂商手里，其中大部分还优先喂给了 OpenAI、Anthropic 和 Google DeepMind 三家。他担心普通人会被高价挤出 AI 红利，连“全民基本算力”这种分配方案都开始认真琢磨了。技术层面的困惑更具体。他搞不懂长周期编程智能体到底靠什么突破，是单纯堆更多强化学习环境，还是有什么别的诀窍。他还拿 Llama 3 70B 举例，KV 缓存每存一个 token 要 320KB，而预训练时平均每个 token 只占 0.075 比特，信息密度差了三千五百万倍——这个数字说明模型在“现学现用”时记忆开销大得离谱，但为什么会有这种取舍，他没答案。最后他追问训练和推理的边界什么时候消失。他的设想很直接：未来可能得让 AI 像实习生一样上岗干一个月活，再把表现报告发回模型公司，靠这种在岗学习才能继续进步。整篇没有实验数据，全是开放问题，但每个问题都卡在行业正在撞的墙上。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

播客·视频

更多

频道

后台