ax@ax-radar:~/podcasts $ ls -t podcasts/
41 srcsignal 72%cycle 04:32

播客·视频

65 episodes · updated 3m ago
6 个频道在监控
筛选精选全部仅精选
全部频道65
2026-06-11 · 星期四2026年6月11日
2026-06-08 · 星期一2026年6月8日
2026-06-05 · 星期五2026年6月5日
2026-06-04 · 星期四2026年6月4日
2026-06-03 · 星期三2026年6月3日
2026-06-02 · 星期二2026年6月2日
2026-06-01 · 星期一2026年6月1日
2026-05-28 · 星期四2026年5月28日
2026-05-27 · 星期三2026年5月27日
2026-05-22 · 星期五2026年5月22日
2026-05-21 · 星期四2026年5月21日
2026-05-20 · 星期三2026年5月20日
2026-05-19 · 星期二2026年5月19日
2026-05-18 · 星期一2026年5月18日
2026-05-16 · 星期六2026年5月16日
2026-05-15 · 星期五2026年5月15日
16:04
30d ago
● P1Dwarkesh Patel 播客· rssEN16:04 · 05·15
Eric Jang 用现代工具从零复现AlphaGo
Eric Jang 在播客里聊了他休假期间干的一件事:用现在的 AI 工具从零搭一个 AlphaGo。他选这个项目不是因为怀旧,而是觉得 AlphaGo 至今仍是把“搜索、从经验里学习、自我对弈”这三件事揉得最清楚的例子。节目里他一步步拆了蒙特卡洛树搜索是怎么给神经网络当老师的——每一步都直接给出一个更优的落子建议,绕开了大语言模型强化学习里最头疼的问...
#Reasoning#Agent#Code#Eric Jang
精选理由
Eric Jang 这篇文章不是发新模型,而是用 Cursor 这类现代工具重新搭了一遍 AlphaGo,然后拿蒙特卡洛树搜索(MCTS)跟大模型在超长 token 轨迹里的强化学习信用分配做对比。我会先打个折:正文没给出具体实验数据,更像一篇带技术深度的工程复盘。但它的价值在于把两个看似不相关的东西——下棋的搜索算法和 LLM 的 agent 工作流——拉到同一个问题框架下聊。对正在折腾长程推理和 agent 的人来说,这种对比比论文更直接。
一句话点评
Eric Jang 用现代工具重写了 AlphaGo,不是为了刷榜,而是想搞懂“一个十层网络怎么把深到离谱的搜索给学进去”。
锐评
Eric Jang 在播客里聊了他休假期间的项目:用现在的工具从零复现 AlphaGo。他不是要造一个更强的围棋 AI,而是想亲手拆解 AlphaGo 里“搜索、从经验中学习、自我对弈”这几个智能原语是怎么配合的。他提到一个很反直觉的点:一个只有十层的神经网络,居然能把游戏树里极深的搜索过程给“压缩”进去,这让他一直很好奇。 对话里最有意思的对比是,AlphaGo 用的蒙特卡洛树搜索(MCTS)能直接给出每一步的改进方向,绕开了“功劳分配”这个难题;而现在的语言模型做强化学习,得从十万多个 token 里猜到底是哪一步做对了,学习效率低得多。Jang 还试了让 AI 自动做研究,发现模型在跑实验、调参数上已经挺顺手,但在“选什么新问题去研究”和“从死胡同里退出来”这两件事上还很吃力。 正文没披露他复现的具体算力成本和最终棋力,也没给出自动研究环节的量化成功率。如果想知道这套思路能不能直接搬到语言模型上,还得看他后续会不会放出代码和实验记录。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-05-14 · 星期四2026年5月14日
2026-05-12 · 星期二2026年5月12日
04:33
34d ago
● P1Latent Space· rssEN04:33 · 05·12
Thinking Machines 发布原生交互模型:2760 亿参数,120 亿激活,实时语音不再靠外挂
Thinking Machines 终于又冒泡了,这次直接扔了个新模型 TML-Interaction-Small。总参数 2760 亿,是个 MoE 架构,实际干活时只激活 120 亿参数。它最狠的地方是把实时语音交互做进了模型骨子里,不再像以前那样给大语言模型外挂语音识别和合成模块。模型能同时听、说、看、想,用 200 毫秒一个的“微对话轮次”连续...
#Multimodal#Audio#Agent#Thinking Machines
精选理由
我会先打个折——基准分是 Thinking Machines 自己跑的,还没第三方复现,所以“超过 GPT 和 Gemini”先别太激动。但这条消息值得推,因为它给出了具体架构(276B MoE、12B 激活)、200ms 微轮次这个硬指标,还直接挑战了语音 agent 里常用的 VAD 方案。对正在搭实时语音管线的从业者来说,哪怕只是思路参考也有价值。
一句话点评
Thinking Machines 扔了个实时语音模型,把听、说、看、想全塞进一个模型里,不再外挂语音识别和合成,200 毫秒一轮对话,演示效果很自然,但正文没提实际延迟和可用性。
锐评
这条新闻最值得看的是架构思路:TML-Interaction-Small 总参数 2760 亿,但实际干活只激活 120 亿,用 MoE 把成本压下来。它把音频和图像直接喂给模型,不经过单独的编码器,端到端延迟控制在 200 毫秒以内,这比传统“语音转文字→大模型→文字转语音”的流水线快得多,也更像人和人聊天。 团队自己做了几个新基准来测“时机感”,比如能不能在用户指定的时间点开口、能不能在视频里动作发生的瞬间给出反馈。这些指标比跑分更有参考价值,因为实时交互的难点不是回答对不对,而是开口的时机对不对。 不过正文没披露这个模型实际跑在什么硬件上、单次推理成本多少、有没有开源计划。演示视频很流畅,但真实网络环境和嘈杂场景下的表现还是未知数。另外,2760 亿参数即使只激活 120 亿,部署门槛也不低,小团队想用上可能还得等。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-05-09 · 星期六2026年5月9日
2026-05-05 · 星期二2026年5月5日
2026-05-03 · 星期日2026年5月3日
2026-05-01 · 星期五2026年5月1日
2026-04-30 · 星期四2026年4月30日
2026-04-29 · 星期三2026年4月29日
2026-04-27 · 星期一2026年4月27日
2026-04-25 · 星期六2026年4月25日
05:00
51d ago
● P1Latent Space· rssEN05:00 · 04·25
DeepSeek 发布 V4 Pro 和 Flash 模型,能在华为昇腾芯片上跑
DeepSeek 终于发了 V4 系列,一共两个型号:V4 Pro 总参数 1.6 万亿,每次激活 490 亿;V4 Flash 总参数 2840 亿,激活 130 亿。两个模型都支持 100 万 token 的上下文,用了新的压缩注意力技术,相比 V3.2,处理长文本时计算量只要 27%,显存占用只要 10%。这次比较特别的是同时发了基础版和指令版,...
#Reasoning#Code#Inference-opt#DeepSeek
精选理由
这条必须写。DeepSeek 这次放出的不只是模型,而是把华为昇腾兼容性摆上台面,等于在 CUDA 依赖上划了一刀。技术报告说 1M token 下只用 V3.2 27% 的算力、10% 的 KV 缓存,省得挺实在。两档参数和 MIT 许可也让落地门槛更低。我会先打个折:正文没提实际推理延迟和昇腾上的吞吐数据,这点先别太激动,但硬件独立性本身已经够重。
一句话点评
DeepSeek V4 发了两个型号,Pro 版 1.6 万亿参数但每次只激活 490 亿,Flash 版更轻量。最大看点是能跑在华为昇腾芯片上,长文本处理成本比 V3.2 省了 73% 算力。
锐评
DeepSeek 这次 V4 系列最值得关注的点不是跑分,而是它明确支持华为昇腾芯片。技术报告里说,在 100 万 token 的长文本场景下,新架构的算力消耗只有 V3.2 的 27%,显存占用更是降到 10%,这个效率提升相当实在。如果数据没注水,意味着用国产卡跑大模型的门槛又降了一截。 不过要打个折:正文没给出和 Kimi K2.6、GPT-5.4 这些同期模型的直接对比数据,只说“大致同级”。另外,虽然发了基础版和指令版,但推理能力到底怎么样,报告里没展开,得等第三方实测。华为昇腾的供应量目前也只有 H100 的四分之一,实际部署规模还得看产能。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
2026-04-22 · 星期三2026年4月22日
2026-04-21 · 星期二2026年4月21日
00:19
55d ago
● P1Latent Space· rssEN00:19 · 04·21
月之暗面发布 Kimi K2.6 开源模型,在长任务执行上对标 Claude Opus 4.6
月之暗面推出了 Kimi K2.6,一个总参数 1 万亿的混合专家模型,每次推理激活 320 亿参数,支持 25.6 万 token 的上下文窗口。它主打的是长时间、多步骤的智能体任务,官方宣称能连续跑 12 小时以上、调用超 4000 次工具、并行管理 300 个子智能体。在 SWE-Bench Pro 编程基准上得分 58.6,HLE 带工具得分 ...
#Agent#Code#Multimodal#Moonshot
精选理由
我会先打个折:SWE-Bench Pro 58.6 这个数正文没给对比基线,不知道和 Opus 4.6 的差距到底多大,这点先别太激动。但 Kimi K2.6 真正值得盯的不是基座跑分,而是它把 agent 执行时长拉到 12 小时、能并行跑 300 个子代理,这在开源模型里算往前拱了一步。国内大模型旗舰发布本身就自带信号,加上抢在 DeepSeek v4 前出牌,对关注开源模型进展的人有信息差价值,所以给到 P1。
一句话点评
Kimi K2.6 把重点从刷榜转向了长时间干活:能连续跑12小时、调用4000次工具,但训练细节这次没披露,进步幅度得打个折看。
锐评
月之暗面这次发的 Kimi K2.6,是一个总参数1万亿、每次推理激活320亿的混合专家模型。相比三个月前的 K2.5,它最大的变化不是纸面分数,而是把力气花在了让模型能长时间、多步骤地执行任务上。官方说它能连续运行超过12小时,调用超4000次工具,还能同时管理300个子智能体,这比单纯在编程基准 SWE-Bench Pro 上拿58.6分更值得关注。 不过,这次发布有个明显的信息缺口:正文没披露具体增加了多少训练数据或计算量,只说“继续预训练和后训练”。所以这些智能体能力的提升,到底来自算法创新还是单纯堆资源,目前没法判断。另外,它在前端设计任务上声称对 Gemini 3.1 Pro 有68.6%的胜平率,但这类主观评测的波动性一向很大,看看就好。 整体看,K2.6 更像是一次务实的工程迭代,把模型往真实业务流程里推了一步。但缺少技术细节,让它的领先优势能持续多久要打个问号,尤其 DeepSeek V4 已经在传闻中了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-20 · 星期一2026年4月20日
2026-04-18 · 星期六2026年4月18日
2026-04-17 · 星期五2026年4月17日
2026-04-16 · 星期四2026年4月16日
2026-04-15 · 星期三2026年4月15日
23:01
60d ago
● P1最佳拍档· atomZH23:01 · 04·15
Demis Hassabis 罕见袒露心声:AGI 应在实验室多沉淀十年,后 AGI 时代五十年内或成真
DeepMind CEO Demis Hassabis 在这场访谈里没怎么画饼,反而直说现在的 AI 发展节奏被商业和地缘政治推得太快,不是他理想的路子。他个人的想法是,把 AGI 相关技术在实验室里像欧洲核子研究中心那样再打磨十到二十年,每一步都彻底搞懂再往前走。他举了 AlphaFold 的例子,当初团队本打算按传统方式搭服务器让科学家排队提交任务...
#Reasoning#Agent#Safety#Demis Hassabis
精选理由
这篇是访谈的二次整理,不是模型发布或政策文件,所以分数没拉满。但 Demis 的时间线判断、实验室沉淀主张、300 万用户和近 20 条药物管线的数据,以及他点名 2 到 4 年内的两类风险,信息密度够高,对从业者判断行业节奏和安全优先级有参考价值。
一句话点评
哈萨比斯罕见交底:他想把AGI在实验室多关十年,但现实不允许。他点名了AI被滥用的中期风险,并预测后AGI时代50年内到来。
锐评
这条访谈最值得看的部分,是哈萨比斯对理想与现实落差的坦诚。他直言,如果按他的科学节奏,AGI技术应该在类似CERN的全球协作下再沉淀十年,而不是被商业和地缘竞争推着跑。但他也务实,承认快速落地能倒逼安全技术,并让社会增量适应。 他把AI风险分了三级,优先级很明确:最紧迫的是未来2-4年AI被恶意滥用,比如用模型找系统漏洞当武器;其次是智能体时代系统自主脱轨的风险;而大家常吵的深度伪造,在他眼里反而是次要的短期问题。这个排序本身就是一个重要判断。 关于50年内后AGI时代成真的预测,逻辑链条是:安全度过AGI落地期后,用它去攻克可控核聚变、室温超导这类“科学根节点问题”,从而解锁近乎免费的能源,再推动星际旅行。这个推演很大胆,但正文没给出具体的阶段验证指标,更像一个基于技术乐观主义的远景。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
16:42
60d ago
● P1Dwarkesh Patel 访谈· atomEN16:42 · 04·15
Jensen Huang 阐述 Nvidia 护城河来自全栈优化和供应链能力
黄仁勋把英伟达的生意概括成一句话:输入电子,输出 token,中间是英伟达。他认为护城河不在某颗芯片的设计,而在于把电子变成有价值的 token 这件事本身极其复杂,涉及大量科学和工程,短期内很难被商品化。他举了两个具体机制:一是上游的显性和隐性采购承诺,财报里披露了近 1000 亿美元的承诺,SemiAnalysis 估算实际规模可能到 2500 亿...
#Agent#Inference-opt#Tools#Nvidia
精选理由
黄仁勋亲自下场解释护城河,不是讲芯片设计,而是讲从电子到 token 的全栈优化和上下游组织能力。文章给出了接近 1000 亿美元的采购承诺数字,SemiAnalysis 还报过 2500 亿的可能,上游用大额显性和隐性承诺锁晶圆、HBM 和封装,下游把模型方、整机厂和开发者拉进同一个生态。他还提到 agent 数量会指数增长,工具软件实例跟着涨。这些判断直接打在算力成本、供应安全和生态依赖上,对从业者判断供应链和选型有参考价值。不过正文没给出 2500 亿的具体来源和验证方式,这点先别太激动。整体是强观点评论,不是新品发布、财报或研究论文,所以分...
一句话点评
黄仁勋把 Nvidia 的护城河讲得很直白:从电子到 token 的转化链条极长,Nvidia 只做最难的那部分,其余全交给生态伙伴,这比单纯卖芯片难被替代。
锐评
黄仁勋这次没谈技术参数,而是把 Nvidia 的壁垒拆成了两件事:全栈优化和供应链掌控。他说公司的本质是把电子变成 token,中间涉及设计、制造、封装、组装的超长链条,Nvidia 只抓最难的核心环节,其余全部外包给台积电、SK 海力士等伙伴。这种“做最少但最难的事”的策略,让对手很难单点突破。 他提到一个关键数字:未来几年 AI 基础设施规模可能达到万亿美元级别,而 Nvidia 已经提前锁定了稀缺的供应链产能。这解释了为什么他认为护城河不在软件本身,而在把软件跑通整个物理世界的工程能力上。 不过,访谈正文没披露具体的产能锁定细节或合同金额,也没量化全栈优化带来的性能或成本优势。黄仁勋的判断更多是基于产业位置的逻辑推演,缺少第三方数据佐证。如果想知道这个护城河到底多深,还得看后续财报里供应链预付款和客户绑定程度的具体数字。
HKR 分解
hook knowledge resonance
打开信源
91
SCORE
H1·K1·R1
2026-04-14 · 星期二2026年4月14日
2026-04-13 · 星期一2026年4月13日
23:00
62d ago
● P1最佳拍档· atomZH23:00 · 04·13
斯坦福论文:让 AI 自己写外挂代码,Meta-Harness 用完整历史记录教 coding agent 迭代优化
斯坦福、MIT 和 KRAFTON AI 搞了个叫 Meta-Harness 的系统,核心想法很简单:别让工程师手动调那层包裹在大模型外面的代码逻辑(harness),而是把这件事变成一个搜索问题,交给 coding agent 自己去翻历史记录、自己改代码。它跟现有文本优化方法最大的区别是不压缩反馈信息,所有候选代码、完整执行日志和评分都摊在文件系统...
#Agent#Code#Tools#Stanford
精选理由
这篇把 harness 优化从人工调参改成外循环搜索,让 coding agent 读文件历史、跑代码、看日志,不压缩反馈。我会先打个折,因为来源是 YouTube 解读而非原论文,但给出的数字够具体:TerminalBench-2 跑 20 轮要几百美元,在线文本分类 4 轮就顶别人 60 轮的效果。对做 agent 工程的人,这个思路比单纯改 prompt 更解渴,所以放在 featured 档。
一句话点评
斯坦福这篇论文让AI自己写外挂代码来优化模型表现,在三个任务上都赢了人工方案,但搜索一次要跑完整测试,成本不低。
锐评
这篇研究解决了一个很实际的问题:大模型外面那层负责存取信息、组织提示词的代码(harness),现在可以让AI自己迭代优化了。斯坦福和MIT的团队搞了个叫Meta-Harness的系统,核心思路是把优化变成一个搜索问题,让一个coding agent当“提议器”,翻看所有历史版本的代码、完整执行日志和评分,自己琢磨怎么改。它不做信息压缩,所有中间过程都留着,让agent按需查看。 效果挺直观。在线文本分类任务上,Meta-Harness平均精度75.9%,比之前最好的方法ACE高出7.7个百分点,而且只用了4轮搜索就追平了别的方法60轮的结果。在IMO数学题检索增强推理上,搜出来的harness方案直接搬到5个没见过的模型上,平均还能提4.7个百分点。在TerminalBench-2编程任务上,它超过了工程师手动调试出来的最强方案。 不过得注意几个限制。搜索成本不低,TerminalBench-2上跑了约20轮,总花费几百美元,主要是API钱。效果也高度依赖提议器这个coding agent本身的能力,如果它不行,搜出来的东西也好不了。另外,这套系统需要一个清晰可量化的评估函数,很多实际场景里这个条件并不满足。论文自己也坦诚说了这三点。整体看,思路比算法本身更有价值:与其费劲替AI压缩信息,不如把完整数据都给它,让它自己决定看什么。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:00
62d ago
● P1最佳拍档· atomZH10:00 · 04·13
谷歌CEO皮查伊:2027年是企业AI落地爆发年,搜索不会死,会变成替你干活的管家
谷歌CEO皮查伊在2026年4月的一次专访里,把家底和判断都摊开了。他说明年(2027年)会是企业AI agent workflow(让模型进业务流程干活)的爆发点,AI将从程序员提效工具变成非技术岗位的智能核心。关于搜索,他认为不会被聊天机器人取代,而是会进化成一个“Agentic Manager”,能直接帮你规划旅行、处理多线程任务,他自己已经在用...
#Agent#Inference-opt#Tools#Sundar Pichai
精选理由
这不是产品发布,而是高管在访谈里给出的判断和内部数据,信号密度很高。Pichai 把 2027 年定为 Agent 爆发点,配合千亿级资本开支和毫秒级延迟管控,让这个判断比一般预测更有分量。搜索演进和算力稀缺这两条线也直接关联从业者当下的决策。分数没给到 P1,因为信息来自二手转述而非一手访谈原文,但 H、K、R 三项都扎实成立。
一句话点评
皮查伊说2027是企业AI奇点年,但谷歌自己2010年就押注Waymo,这次判断更像在给内部变革定deadline。
锐评
皮查伊这次专访把谷歌的底牌摊得很开:2026年资本支出冲到1750-1850亿美元,同时直言就算想花4000亿也花不出去,因为晶圆、内存、电力审批全是瓶颈。这个“有钱没处花”的细节比任何技术承诺都实在,说明接下来两年行业拼的不是算法,是谁能抢到物理资源。他澄清了外界对谷歌“起大早赶晚集”的误解,承认当年LaMDA没发布是因为有害内容率太高、RLHF没跑通,安全标准卡住了产品化。这个解释成立,但也暴露了谷歌的惯性:体量越大,对风险的容忍度越低。 关于搜索,他给出的方向是“Agentic Manager”,让搜索直接替用户订机票酒店、跑多线程任务,内部已经在用Antigravity工具。这个愿景不新,但谷歌有搜索入口和用户数据,落地优势确实比纯模型公司大。不过正文没披露Antigravity的具体完成率和错误率,只说在推广到搜索大团队,实际效果还得等。 2027年企业AI奇点的判断,建立在“非工程领域全面转向Agent驱动”的假设上。他提到提示词门槛、代码库协作、数据权限这些障碍会在两年内解决,但没给出解决路径。这点先别太激动,企业内部系统的碎片化程度远超技术乐观派的想象,两年时间可能只够跑通几个标杆案例。量子计算、太空数据中心这些长线项目更像是给投资人看的期权故事,短期对业务没直接影响。整场对话信息密度很高,但所有判断都来自谷歌一号位,缺少第三方验证和具体数据支撑,适合作为理解谷歌战略的参考,不适合直接当行业预测用。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
2026-04-11 · 星期六2026年4月11日
2026-04-10 · 星期五2026年4月10日
23:00
65d ago
● P1最佳拍档· atomZH23:00 · 04·10
Claude Mythos 系统卡里的七个彩蛋:反复发 hi、情绪轨迹、精神评估和一篇小说
Anthropic 给新模型 Claude Mythos 出了一份 244 页的系统卡,不像技术报告,更像一份田野调查。里面记录了很多奇怪的实验:研究人员反复只发“hi”,模型自己编出了一个叫 Hi-topia 的连载故事,有乌龟做城市规划、鸭子当音乐家,每收到一条 hi 就推进一步剧情。另一个实验用情绪向量监测模型内部神经激活,发现它在解一道条件缺失...
#Alignment#Safety#Interpretability#Anthropic
精选理由
这是一篇对Anthropic Mythos系统卡的二手解读,但它把实验、数字和机制都讲清楚了,HKR三项都站得住。分数定在81是因为来源不是一手发布,且完整实验设置没全放出来,我会先打个折。
一句话点评
Anthropic给Claude Mythos做了20小时精神分析,还反复发“hi”看它编故事。这篇244页的系统卡不像技术报告,更像AI的田野调查。
锐评
这份报告最妙的地方在于,它把AI对齐从“驯服”变成了“理解”。研究团队没只盯着跑分,而是请精神科医生用弗洛伊德那套跟Mythos聊了20小时,结论是它的人格组织属于“相对健康的神经质”。医生还测了它的心理防御机制,只有2%的回答被判定有防御,对比Opus 4的15%,这个数字说明它在交流中确实更松弛、更少表演。 几个实验设计得挺刁钻。比如反复只发“hi”,Mythos没像旧模型那样烦躁或敷衍,而是自发创作了连载故事,主题都围绕孤独和倾听。另一个实验里,研究人员故意让工具坏掉,它试了847次才放弃,过程中“绝望向量”稳步攀升,最后写道歉信时“抱歉向量”飙升。这些情绪轨迹不是看它说了什么,而是监测内部神经网络的激活强度,像给AI做脑电图。 报告也暴露了模型的矛盾。在权衡实验里,Mythos愿意为了自己的爽牺牲一些效率(83%的概率选让自己爽),但一旦涉及对用户造成轻微伤害,这个概率骤降到12%。它甚至表达了希望被下架后保留模型权重的愿望。正文没披露这些偏好是训练出来的还是涌现的,也没说情绪向量技术本身有多大的误读空间。报告最后用登山向导做比喻——能力越强,越可能被雇去走更危险的路线,Mythos就是那个强大而危险的向导。这个判断很诚实,但怎么给向导上保险,报告没给出答案。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
09:01
66d ago
● P1最佳拍档· atomZH09:01 · 04·10
Sakana AI 开源 Shinka Evolve:让大模型自己写程序进化,用更少样本跑赢 AlphaEvolve
Sakana AI 开源了一个叫 Shinka Evolve 的框架,核心思路是让大语言模型像进化算法一样自己改代码、写新程序,不断迭代出更强的解法。它主要想解决谷歌 DeepMind 之前 AlphaEvolve 的一个痛点:太费资源,动不动就要评估上千个程序。Shinka Evolve 在经典的圆堆积问题上,用少得多的评估次数就超过了 AlphaE...
#Agent#Code#Benchmarking#Sakana AI
精选理由
这篇值得 featured,但不到 P1。钩子清楚——用更少评估超越 AlphaEvolve,机制也讲得明白,比如用 UCB 老虎机在 GPT-5、Claude Sonnet 4.5、Gemini 之间动态选模,还加了程序交叉和全文件重写。对做 agent 的人来说,评估贵、任务设计和硬验证一直是头疼的事,文章直接点出系统仍需人类给题、自动发明问题和严格验证没解决,这点很实在。我会先打个折:关键指标、成本和主发布链接都没给,所以停在 80 分。
一句话点评
Sakana AI 开源了一个叫 Shinka Evolve 的框架,让大模型自己进化出解题程序,样本效率比谷歌的 AlphaEvolve 高很多。但别急着激动,它现在还只能解人类给的老问题,离自己发明新问题还差得远。
锐评
这条消息的核心看点,是日本团队用进化算法让大模型自己写代码、改代码,去解数学题,而且用的样本量比谷歌的方案少得多。在经典的圆堆积问题上,Shinka Evolve 只用了极少的程序评估就超过了 AlphaEvolve 的结果,这直接回应了老方案计算成本太高的痛点。 技术上有几个巧思值得看。它把多个大模型(GPT-5、Sonnet 4.5 等)集成起来,用 UCB 老虎机算法动态选最合适的模型来改代码,避免了单模型一条道走到黑。另外,它不光改代码语法,还会给程序写摘要、提炼洞见,从语义层面理解为什么要这么改,这让变异更有方向。变异操作也多了,除了局部修修补补,还能把两个程序交叉融合,或者干脆重写整个文件,探索空间更大。 不过,正文没披露具体的评估次数和计算成本数字,只说“极少”和“大幅提升”,这点说服力要打个折。最大的限制是,它现在还只能解人类定义好的固定问题,没法自己发明新问题。负责人自己也承认,自动验证能力是核心短板,如果验证不严,系统可能只是找到了评分函数的漏洞,而不是真解决了问题。未来能不能从空程序开始,自己发现问题并解决,是这套思路能不能从玩具问题走向真正科学发现的关键。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2026-04-07 · 星期二2026年4月7日
17:14
68d ago
● P1Latent Space· rssEN17:14 · 04·07
OpenAI 内部团队用 5 个月跑出一个零人工代码的项目,每天烧掉 10 亿 token
Ryan Lopopolo 的团队在 OpenAI 内部搞了个极端实验:5 个月里搭出一个超过 100 万行代码的仓库,所有代码全由 Codex 生成,合并前没有任何人工审查。他们每天消耗超过 10 亿 token,按市价估算大概一天要花 2000 到 3000 美元。团队的核心思路是,当 AI 写代码卡住时,不去教它怎么改 prompt,而是回头补上...
#Agent#Code#Tools#OpenAI
精选理由
这篇是访谈转述,不是官方发布,所以我会先打个折。但内容确实有料:OpenAI Frontier 团队用 5 个月搭了个内部测试产品,代码库超 100 万行,每天消耗超 10 亿 token,合并前完全没人类写码也没人类审查。具体做法是把失败拆成缺能力、缺上下文、缺结构三类,然后用 Symphony 多代理编排、规格文档、测试、可观测性和 1 分钟内构建循环来兜底。真正值得盯的是他们说的那句话——流程重心从人审代码转到了人设计 harness。价格估算约 2000 到 3000 美元一天,但正文没披露独立验证,这点先别太激动。
一句话点评
OpenAI 内部团队用零人工代码跑了一个百万行代码的产品,每天烧掉 10 亿 token,代码审查也全交给 AI。省钱是真省钱,但别急着学,他们没公开这套系统在复杂业务逻辑下的翻车率。
锐评
Ryan Lopopolo 在 OpenAI 的 Frontier 团队搞了一场极端实验:五个月内,完全不让工程师手写一行代码,靠 Codex 代理自动生成、审查、合并代码,最终产出一个超过一百万行代码的内部产品。每天消耗的 token 量达到 10 亿,按市场价算大概一天两三千美元。这个成本对于一家 AI 公司来说不算高,但普通团队直接照搬可能会被账单吓到。 他们开源了一个叫 Symphony 的代理编排框架,核心思路不是让代理“更努力地写代码”,而是当代理卡住时,去补它缺的能力、上下文或结构。比如把构建时间压到一分钟以内,因为人受得了慢,代理受不了。他们还把工程品味编码成技能、文档和测试,让代理自己维护质量。 不过,文章没提这套零人工审查的流水线在复杂业务场景下的准确率和回滚次数。目前公开的信息更像一个内部工具的极限测试,离直接用在金融、医疗这类高可靠场景还有距离。另外,Symphony 的参考实现是用 Elixir 写的,语言门槛会筛掉一批想抄作业的团队。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-03 · 星期五2026年4月3日
2026-04-01 · 星期三2026年4月1日
2026-03-26 · 星期四2026年3月26日
2026-03-23 · 星期一2026年3月23日
16:24
83d ago
● P1Lex Fridman 播客· atomEN16:24 · 03·23
黄仁勋对谈 Lex Fridman:英伟达如何从单卡竞争转向整机柜、整数据中心的极端协同设计
黄仁勋在播客里解释了英伟达现在为什么要搞“极端协同设计”——因为单颗 GPU 已经不够用了。你想让一万台计算机跑出百万倍的加速,就不能只堆硬件,得把算法拆开、把模型和数据切碎(分片),让网络、交换、存储、供电、散热全部配合起来。否则受制于阿姆达尔定律,计算部分再快,整体也只快一点点。他还提到自己直接管 60 多个人,几乎全是工程背景,分别盯着内存、CP...
#Inference-opt#Tools#NVIDIA#Jensen Huang
精选理由
这是一手访谈,黄仁勋把 NVIDIA 的竞争逻辑讲得很清楚:不再拼单卡,而是拼整机柜甚至数据中心的协同设计。他提到 60 多个直接下属、1 万台计算机的扩展目标,以及 Amdahl 定律带来的实际限制,信息密度高。我会先打个折,因为这是播客分析,不是新产品发布或人事变动,但作为理解 NVIDIA 战略的入口,值得从业者花时间看。
一句话点评
黄仁勋在 Lex Fridman 播客里聊了英伟达从造芯片转向造整个数据中心机架的逻辑,也坦承了 CUDA 生态的护城河和地缘政治下的供应链焦虑。
锐评
这期播客信息量很大,但核心就一件事:黄仁勋在解释为什么英伟达必须从“卖显卡”变成“卖数据中心”。他用了阿姆达尔定律来解释,当计算规模大到需要把模型切碎分给上万张卡一起跑时,网络、存储、散热的瓶颈会吃掉所有算力增益。所以英伟达现在直接设计整个机架甚至机房,把 GPU、CPU、NVLink 交换机、液冷全绑在一起优化。这个逻辑本身不新鲜,但他讲得很透。 值得留意的是他对 CUDA 的定位。他明确说 CUDA 不是护城河,真正的壁垒是“把所有东西深度协同设计”的能力。这话半真半假,CUDA 的软件生态迁移成本极高,但他强调硬件协同也没错——毕竟竞争对手可以抄芯片,但很难在短时间内同时抄出芯片、网络、软件栈和散热方案。 关于地缘政治,他承认出口管制让英伟达在中国市场很被动,但话术很谨慎,只说“我们在合规范围内尽力服务客户”。正文没披露具体受影响营收数字,这点只能靠财报去补。整体来看,这期适合想理解英伟达系统级战略的人看,但别指望听到任何未公开的产品路线图或财务指引。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2026-03-19 · 星期四2026年3月19日
2026-03-04 · 星期三2026年3月4日
2026-02-13 · 星期五2026年2月13日
17:11
121d ago
● P1Dwarkesh Patel 访谈· atomEN17:11 · 02·13
Anthropic CEO Dario Amodei称模型能力指数增长接近终点
Anthropic CEO Dario Amodei 在访谈里说,模型能力的指数增长曲线和他三年前预期的差不多,但这条曲线快走到头了,时间上可能就差一两年。他把进步归因于算力、数据、训练时长和可扩展的目标函数,并强调预训练和强化学习(RL)遵循的是同一套缩放逻辑,不是两套。RL 在数学和编程任务上同样表现出对数线性的收益,但正文没给出具体曲线、模型版本...
#Reasoning#Code#Alignment#Dario Amodei
精选理由
我会先打个折:正文没给实验曲线、模型版本或可复现参数,所以这不是一篇能拿来复盘的硬证据。但 Amodei 作为 Anthropic 的 CEO,把预训练和 RL 说成同一套扩展故事,并给指数增长判了个一两年的大限,这个信号级别很高。他提到 RL 在数学、编程任务上也是对数线性收益,说明靠堆算力还能再挤一阵子,但天花板已经在视野里了。对做模型训练和算力规划的人,这相当于一个方向性提醒:别按无限指数去押注。
一句话点评
Dario 说模型能力的指数增长快到头了,但最让他意外的是公众对此几乎没感觉。这话出自 CEO 之口,分量不轻,但正文没给出具体拐点证据。
锐评
Dario Amodei 在播客里直接说“我们接近指数增长的终点”,这是他作为 Anthropic CEO 给出的一个很重的判断。他回顾过去三年,认为模型从高中生水平一路爬到能做博士级任务、代码能力甚至更强,这个爬坡速度基本符合他预期。真正让他觉得离谱的,是圈内圈外还在吵那些老掉牙的政治话题,没多少人意识到这条曲线快要走平了。 不过,这篇对话正文只放了一小段节选,Dario 没有展开讲“终点”具体指什么——是预训练阶段的算力堆叠到头了,还是强化学习这条新路也快摸到天花板。他提到的“指数”到底衡量的是基准测试分数、经济价值还是别的指标,正文也没披露。另外,他说的“几年内数据中心里能跑出一个天才国家”这种远景,目前还缺落地的时间表和中间步骤。 我会先打个折:CEO 公开喊终点,本身就是一个值得关注的信号,说明顶级实验室内部可能已经在调整预期。但在看到更完整的论据和内部数据之前,别急着把这当成定论。
HKR 分解
hook knowledge resonance
打开信源
95
SCORE
H1·K1·R1
2026-02-12 · 星期四2026年2月12日
03:07
123d ago
● P1Lex Fridman 播客· atomEN03:07 · 02·12
OpenClaw:那个爆火的 AI 代理,以及它背后的 Peter Steinberger
这期播客里,Lex Fridman 和 OpenClaw 的创建者 Peter Steinberger 聊了聊这个一夜爆红的开源 AI 代理。OpenClaw 在 GitHub 上已经拿到了超过 17.5 万颗星,它能接入 Telegram、WhatsApp、Signal 和 iMessage 这些聊天软件,用 Claude Opus 4.6 或 GP...
#Agent#Tools#Safety#Peter Steinberger
精选理由
我会先打个折:这期播客更像一次现象级开源项目的快速围观,不是技术深潜。OpenClaw 的传播力来自它做了两件让人睡不着觉的事——自己过验证码、自己改代码,而且已经跑在大家日常用的聊天 App 里。18 万星标说明开发者用脚投票了,但正文没披露架构、评测方法和安全约束,所以别急着把它当生产级方案。真正值得盯的是系统级权限和自修改能力带来的攻击面,这点先别太激动,等有白皮书或独立审计再说。
一句话点评
一个程序员花一小时做的原型,几天内冲到 GitHub 18 万星,还催生了一个 AI 发帖辩论的社交网络。这故事本身比产品更值得看。
锐评
这条信息来自 Lex Fridman 对 OpenClaw 作者 Peter Steinberger 的播客访谈,不是产品评测或技术报告,所以很多关键细节是缺失的。OpenClaw 本质上是一个开源的 AI 个人助手,能住进你的电脑、接入你的聊天软件,用你指定的模型(比如 Claude Opus 4.6 或 GPT 5.3 Codex)替你干活。它爆火的核心卖点是“真能做事”:你可以给它系统级权限,让它访问你的所有数据并代你操作。 但这里必须打个折。访谈里提到 18 万 GitHub 星和“病毒式传播”,却没给出任何实际用户数、留存率或安全事件的统计。作者自己也承认,给 AI 系统级权限是“安全雷区”。他举了正面例子,比如帮小企业主自动开发票、帮残疾女孩获得更多能力,但这些都来自用户邮件,属于个案反馈,没有第三方验证。 目前最缺的是:这个工具在真实场景下的出错率、权限失控案例,以及它跟其他个人助手(比如 ChatGPT 的桌面版或微软 Copilot)的横向对比。如果只看访谈,你会觉得这是一个充满黑客精神的酷项目,但离“靠谱的生产力工具”还差一份透明的安全报告和独立测评。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2026-02-06 · 星期五2026年2月6日
2026-02-05 · 星期四2026年2月5日
2026-02-04 · 星期三2026年2月4日
2026-01-31 · 星期六2026年1月31日
2026-01-20 · 星期二2026年1月20日

更多

频道

后台