ax@ax-radar:~/podcasts/dwarkesh $ ls -t podcasts/
41 srcsignal 72%cycle 04:32

播客·视频

14 episodes · updated 3m ago
6 个频道在监控
筛选精选全部含低分剧集
Dwarkesh Patel 播客14
2026-06-08 · 星期一2026年6月8日
2026-06-04 · 星期四2026年6月4日
2026-05-22 · 星期五2026年5月22日
2026-05-16 · 星期六2026年5月16日
2026-05-15 · 星期五2026年5月15日
16:04
30d ago
● P1Dwarkesh Patel 播客· rssEN16:04 · 05·15
Eric Jang 用现代工具从零复现AlphaGo
Eric Jang 在播客里聊了他休假期间干的一件事:用现在的 AI 工具从零搭一个 AlphaGo。他选这个项目不是因为怀旧,而是觉得 AlphaGo 至今仍是把“搜索、从经验里学习、自我对弈”这三件事揉得最清楚的例子。节目里他一步步拆了蒙特卡洛树搜索是怎么给神经网络当老师的——每一步都直接给出一个更优的落子建议,绕开了大语言模型强化学习里最头疼的问...
#Reasoning#Agent#Code#Eric Jang
精选理由
Eric Jang 这篇文章不是发新模型,而是用 Cursor 这类现代工具重新搭了一遍 AlphaGo,然后拿蒙特卡洛树搜索(MCTS)跟大模型在超长 token 轨迹里的强化学习信用分配做对比。我会先打个折:正文没给出具体实验数据,更像一篇带技术深度的工程复盘。但它的价值在于把两个看似不相关的东西——下棋的搜索算法和 LLM 的 agent 工作流——拉到同一个问题框架下聊。对正在折腾长程推理和 agent 的人来说,这种对比比论文更直接。
一句话点评
Eric Jang 用现代工具重写了 AlphaGo,不是为了刷榜,而是想搞懂“一个十层网络怎么把深到离谱的搜索给学进去”。
锐评
Eric Jang 在播客里聊了他休假期间的项目:用现在的工具从零复现 AlphaGo。他不是要造一个更强的围棋 AI,而是想亲手拆解 AlphaGo 里“搜索、从经验中学习、自我对弈”这几个智能原语是怎么配合的。他提到一个很反直觉的点:一个只有十层的神经网络,居然能把游戏树里极深的搜索过程给“压缩”进去,这让他一直很好奇。 对话里最有意思的对比是,AlphaGo 用的蒙特卡洛树搜索(MCTS)能直接给出每一步的改进方向,绕开了“功劳分配”这个难题;而现在的语言模型做强化学习,得从十万多个 token 里猜到底是哪一步做对了,学习效率低得多。Jang 还试了让 AI 自动做研究,发现模型在跑实验、调参数上已经挺顺手,但在“选什么新问题去研究”和“从死胡同里退出来”这两件事上还很吃力。 正文没披露他复现的具体算力成本和最终棋力,也没给出自动研究环节的量化成功率。如果想知道这套思路能不能直接搬到语言模型上,还得看他后续会不会放出代码和实验记录。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-05-08 · 星期五2026年5月8日
16:38
37d ago
Dwarkesh Patel 播客· rssEN16:38 · 05·08
David Reich 团队发现过去万年自然选择加速,青铜时代最剧烈
David Reich 团队通过大规模古DNA测序和新统计方法,推翻了“农业革命后自然选择停滞”的旧共识。他们发现过去一万年里自然选择反而加速了,尤其在青铜时代(约3000年前)最剧烈——基因频率在免疫、体脂、认知等方面大幅波动。认知能力的遗传预测值提升了大约一个标准差(相当于智商提高15分左右),其中大部分变化发生在4000到2000年前。Reich...
#David Reich#Ali Akbari#Harvard#Research release
精选理由
硬排除-4/离题科学:这是古DNA和人类演化研究,没有AI产品、智能体或行业应用。H和K都成立,但对AI从业者的相关性太弱。正文没披露样本量、统计方法细节,也不影响判断。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
2026-04-29 · 星期三2026年4月29日
2026-04-27 · 星期一2026年4月27日
2026-04-24 · 星期五2026年4月24日
16:37
51d ago
Dwarkesh Patel 播客· rssEN16:37 · 04·24
Dwarkesh Patel 花 2 万美元办博客征文,真实目的是招研究员
播客主 Dwarkesh Patel 发起了一个博客征文比赛,总奖金 2 万美元(第一名 1 万、第二名 6000、第三名 4000),要求从四个关于 AI 的大问题里选一个写 1000 字回答,截止日期是 5 月 10 日。他明说了,比赛的真实目的是招一个研究合作者——简历筛不出思考能力,不如直接看人怎么回答他真想知道答案的问题。四个问题分别是:1)...
#Reasoning#Alignment#Dwarkesh Patel#OpenAI
精选理由
比赛本身不是模型或产品发布,但用征文筛人这个思路对AI从业者有参考价值。奖金和截止日期都明确,信息完整。不过正文没披露评委是谁、问题具体是什么,这点先别太激动。评分维持66,tier all,因为这是个质量征文机会,不是技术突破。
一句话点评
花两万美金招一个研究合作者,比看简历靠谱。
锐评
Dwarkesh Patel 搞了个博客征文比赛,总奖金两万美金,第一名一万。表面是征文,实际是招研究合作者——简历筛不出思考能力,不如直接看人怎么回答他真想知道答案的问题。四个选题都挺硬:AI 在 RL 阶段会不会减速、基础模型公司怎么赚钱、OpenAI 基金会几百亿怎么花、非 AI 生产国如何不被甩下。截止 5 月 10 日,每人限投一篇,1000 字以内。 这个思路聪明:用低成本(两万美金)筛选出能独立思考的人,比猎头费便宜得多。但注意,评委只有 Dwarkesh 一个人,主观性很强;而且他明确说“不要求有领域专长”,意味着答案质量可能参差不齐。正文没披露评审标准或时间表,获奖文章是否公开也不确定。如果你觉得自己能清晰回答其中一个问题,值得一试——但别把它当正经学术竞赛,更像一次定向招聘的公开面试。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
2026-03-13 · 星期五2026年3月13日
16:00
93d ago
Dwarkesh Patel 播客· rssEN16:00 · 03·13
AI算力扩张的三大瓶颈:逻辑、存储和电力
SemiAnalysis创始人Dylan Patel在播客里把AI算力扩张卡在哪讲清楚了:逻辑芯片(GPU本身)、存储(显存带宽)和电力。他提到一个反直觉的点——一块H100现在比三年前更值钱,因为模型越来越大,对算力的需求涨得比硬件折旧快。正文没披露具体瓶颈的量化指标(比如每瓦性能、带宽瓶颈数值),但时间戳里埋了不少干货:英伟达提前锁定了台积电产能,...
#Inference-opt#Dylan Patel#Commentary
精选理由
标题靠三个具体瓶颈制造了好奇心,算力约束也是从业者真痛点,所以H和R成立。但正文完全空白,三个瓶颈是什么、数据怎么来的、能不能复现,一概不知,K直接归零。信息缺口太大,重要性压到36,排进excluded合理。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
2025-11-25 · 星期二2025年11月25日
17:04
201d ago
Dwarkesh Patel 播客· rssEN17:04 · 11·25
Ilya Sutskever:AI 从“堆算力”转向“拼研究”
Ilya Sutskever 在播客里说,AI 正在从 scaling(堆算力、堆数据)转向 research(拼研究)。核心论据是:模型在评测上表现很好,但经济影响远落后,而且“泛化能力比人差很多”——模型在简单场景会犯低级错误(比如修 bug 时重复自己)。他认为预训练这条路快到头了,SSI 的策略是让模型在部署中学习,而不是靠更大规模预训练。不过...
#Ilya Sutskever#Commentary
精选理由
HKR-H 靠标题钩子通过,HKR-R 也通过,因为 Sutskever 的后规模论点确实戳中模型策略神经。但正文为空,硬性排除零来源:没有证据、时间线或具体案例。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
2025-11-17 · 星期一2025年11月17日
16:54
209d ago
Dwarkesh Patel 播客· rssEN16:54 · 11·17
强化学习的信息效率比你想象的还低
这篇 Dwarkesh 的文章指出,强化学习(RL)不仅采样成本高(跑完一整个思考链才能拿到一个奖励信号),而且每个样本能提供的信息量也远低于预训练。文章用一个公式解释:信息效率 = 每 FLOP 样本数 × 每样本比特数。预训练时,每个 token 都是信号,模型能从错误中学到很多;而 RL 早期,模型几乎不可能答对,只能从“对或错”的二元反馈中学习...
#Reasoning#Dwarkesh#Commentary
精选理由
标题有钩子,话题也戳从业者痛点,所以H和R通过。但K不通过,且硬排除规则6适用:正文无内容、无数据、无案例、无具体名字,分数必须低于40。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1

更多

频道

后台