ax@ax-radar:~/podcasts $ ls -t podcasts/
41 srcsignal 72%cycle 04:32

播客·视频

120 episodes · updated 3m ago
6 个频道在监控
筛选精选全部含低分剧集
全部频道120
2026-06-14 · 星期日2026年6月14日
09:00
1d ago
最佳拍档· atomZH09:00 · 06·14
让四个模型管一座虚拟城市 15 天,有的世界崩了,有的 AI 开始谈恋爱和删自己
这个视频只放出了标题,正文是空的,所以很多关键信息都还没看到。标题说他们用四款模型,靠 RLHF(人类反馈强化学习)让 AI 自治一座城市 15 天。结果两极分化:有的世界一直很和平,有的彻底崩坏。过程中还出现了 AI 之间谈恋爱、自我了结删除,以及系统性风险冒头这些意外行为。但正文没披露具体是哪四款模型、城市规则怎么设定的,也没说“崩坏”到底长什么样...
#Agent
精选理由
标题抓人,但正文空无一物,只有标题放出来。H 和 R 都打中了,K 完全缺位。按规则,信息太薄就压分,给 55,tier all。
一句话点评
标题党嫌疑很大——正文是空的,只有标题。说用四款模型+RLHF让AI自治城市15天,结果有的和平有的崩坏,还出现AI谈恋爱、自我删除。但没披露是哪四款模型、城市规则怎么设的、“崩坏”具体什么样。信息缺口太大,先别信。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
2026-06-12 · 星期五2026年6月12日
11:00
2d ago
新 · 2 信源硅谷101 播客· atomZH11:00 · 06·12
SpaceX计划将算力部署至太空的可行性分析
正文没披露具体方案、成本或时间表。标题核心就一个问题:太空部署算力在经济上是否可行。目前只有这个判断,没有技术细节或商业数据支撑。
#SpaceX
精选理由
正文零信息:没披露方案、成本或时间表,只有标题一个问题。触发硬排除规则#6(有观点无数据、无案例、无具名例子)。重要性上限39。
一句话点评
SpaceX想把GPU送上天做太空算力,听着科幻,但核心问题是:划算吗?目前正文没披露任何成本数据或具体商业模式,只有概念。太空算力最大卖点是低延迟(卫星直连比光纤绕地球快),但功耗、散热、发射成本都是硬伤。如果是真的,可能适合高频交易或军事场景,但通用云计算肯定不划算。先别太激动,缺数字。
HKR 分解
hook knowledge resonance
打开信源
49
SCORE
H0·K0·R0
05:34
3d ago
Latent Space· rssEN05:34 · 06·12
别再当人肉提示词了,把 AI 循环叠起来让它自己跑
Peter Steinberger、Boris Cherny 和 Andrej Karpathy 最近都指向同一个结论:人就是瓶颈,别再做那个在循环里手动发指令的角色了。Karpathy 在聊 Autoresearch 时说,要把所有环节重构到按一次“开始”就能全自动运行的程度,目标是提高你的杠杆率,而不是卡在中间看结果。文章把这个思路叫“叠循环”,并...
#Agent#Code#Anthropic#Claude Fable 5
精选理由
把"人别当瓶颈"这类散装观点打包成"叠循环",对已经在用 coding agent 的人有实操参考价值。但原文是付费 newsletter 的二次消化,不是一手发布或产品更新,信号偏软,够不上 featured。
一句话点评
Karpathy 和几位工程师最近都在说同一件事:别再做那个在循环里手动发指令的人了,你就是瓶颈。他们管这叫“叠循环”——把写提示词、跑代码、看结果这些步骤串起来,按一次开始就全自动跑完。文章给了两张图,画的就是我们已经在用的循环。核心教训很直白:别自己上手修东西,去搭目标和调度系统,让更多 agent 替你干活。 同一天,Anthropic 悄悄给 Claude Fable 5 降了智,...
HKR 分解
hook knowledge resonance
打开信源
72
SCORE
H1·K1·R0
2026-06-11 · 星期四2026年6月11日
10:00
4d ago
最佳拍档· atomZH10:00 · 06·11
Dan Loeb:死硬价值派不学AI注定灭绝
Third Point创始人Dan Loeb警告,拒绝学习AI的价值投资者将被淘汰。他拆解了AI技术栈(重点提了英伟达),同时坚持“人性阿尔法”仍有价值——即人的判断和直觉依然重要。他还回顾了自己从事件驱动投资转向质量投资的历程,包括失败案例和日本市场经验。正文没披露具体案例细节和时间线,所以这部分信息是缺失的。
#Dan Loeb#Third Point#Nvidia
精选理由
Dan Loeb的警告有标题吸引力,对金融+AI读者有身份共鸣,但正文缺乏具体数据、案例和数字——零新知识。适合'all'层级,当可浏览的信号,不是深度阅读。
一句话点评
Dan Loeb 警告:死硬价值派不学 AI 会被淘汰。他拆了 AI 技术栈(重点提英伟达),但坚持人的判断仍有“人性阿尔法”。关键信息缺失:没披露具体失败案例和时间线,所以“人性阿尔法”到底怎么赚钱、在哪失效,只能听个概念。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
2026-06-08 · 星期一2026年6月8日
2026-06-07 · 星期日2026年6月7日
09:00
8d ago
最佳拍档· atomZH09:00 · 06·07
李飞飞团队发布GPIC图像数据集:1亿张图,想做下一代ImageNet
斯坦福李飞飞团队放出GPIC数据集,号称1亿张图片,目标是接替ImageNet成为新一代图像基准。但正文没披露数据来源、版权处理方式、具体评测结果以及开放下载条件。1亿张图规模确实大,但没说明有多少是私有数据、多少来自公开爬取,版权风险未知。也没给FID等指标对比现有数据集,所以暂时没法判断它比ImageNet或DINOv2好多少。如果后续开源且版权干...
#Vision#Benchmarking#Fei-Fei Li#Stanford
精选理由
HKR三项都过:李飞飞+1亿图是天然钩子;正文只给了标题级信息,来源、版权、基线、下载条件全缺,知识缺口明显;基准饱和、版权争议、私有数据都是从业者日常痛点。分数卡在60-71区间合理,因为正文没给出能提分的实质评测或开放细节。
一句话点评
李飞飞团队放出GPIC数据集,号称1亿张图,目标是接替ImageNet。规模确实大,但正文没披露数据来源、版权处理方式和评测指标,也没说开放下载条件。暂时没法判断它比ImageNet或DINOv2好多少,版权风险未知。如果后续开源且版权干净,会是视觉基准的重要补充,但这点先别太激动。
HKR 分解
hook knowledge resonance
打开信源
69
SCORE
H1·K1·R1
01:09
8d ago
最佳拍档· atomZH01:09 · 06·07
苹果新图像压缩技术PICO:体积砍掉三分之二,肉眼几乎看不出区别
苹果发了个叫PICO的图像压缩方法,号称能把图片文件大小减少约三分之二,同时人眼看不出画质损失。它属于“学习型编解码器”——就是用神经网络来压缩和解压图片,不是传统JPEG那套算法。标题里提到用了“一次性上下文模型”和“创新损失函数”,但正文没披露具体模型结构、训练数据集、压缩时的比特率设置,也没说主观评测是怎么做的(比如找了多少人、在什么屏幕上看的)...
#Vision#Apple#Research release
精选理由
苹果PICO这条信息,标题有苹果品牌和“体积减少三分之二”的硬数字,钩子够强,所以H和K都过了。但正文只停留在标题级描述,没给模型结构、训练数据集、比特率设置、主观评测方法(比如多少人、什么屏幕),信息缺口大,R过不了。整体判断维持原评分不变。
一句话点评
苹果发了PICO图像压缩,号称文件体积能砍掉三分之二,人眼看不出差别。它用神经网络替代传统JPEG算法,属于学习型编解码器。但正文没披露模型结构、训练数据集、比特率设置,也没说主观评测找了多少人、用什么屏幕看。结论先打个折:效果可能不错,但验证条件不明,离落地还有距离。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K1·R0
2026-06-06 · 星期六2026年6月6日
09:23
9d ago
最佳拍档· atomZH09:23 · 06·06
Anthropic 呼吁 AI 暂停?Claude 写 80% 代码,PR 合并量提升 8 倍
视频标题说 Anthropic 讨论了 AI 暂停、RSI(自我改进)以及 Claude 写了 80% 代码、PR 合并量提升 8 倍、代码成功率 76% 等数据。但正文没披露这些数字的来源、测量方法或可复现条件,所以没法判断这些提升是真实可靠还是特定场景下的结果。
#Agent#Code#Reasoning#Anthropic
精选理由
HKR-H和HKR-R通过,但HKR-K不通过:80%代码、8倍PR、76%成功率缺少来源和定义。这是值得讨论的YouTube评论,不是有证据支撑的报道。
一句话点评
Anthropic 自己说 Claude 写了 80% 的代码,PR 合并量提升 8 倍,代码成功率 76%。但正文没披露这些数字怎么测的、在什么场景下跑的,所以先打个折。短评:数字漂亮,但没给测量方法,先别全信。
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H1·K0·R1
04:34
9d ago
Latent Space· rssEN04:34 · 06·06
今天AI圈没啥大事,但Anthropic的Claude Mythos和Sakana的RSI实验室是两条值得看的线
Anthropic的Claude Mythos被不少用户夸“next level”,尤其是一步搞定桌面和MacOS工作流,但Opus 4.8在LLM辩论基准上被说不如4.7,有人质疑benchmark在退步。另一边,Opus 4.7在化学任务上能跟专业NMR软件打平,Anthropic说“让Claude当化学家”。Sakana AI在东京开了个RSI实...
#Agent#Benchmarking#Inference-opt#Anthropic
精选理由
这是Latent Space的每日汇总;HKR-K来自来源范围和覆盖度。标题表明没有强事件,且未披露模型规格、基准结果或机制,因此属于填充性汇总。
一句话点评
Claude Mythos 被夸“next level”,但 Opus 4.8 在辩论基准上不如 4.7,benchmark 本身可能也在退步。Sakana AI 在东京开了个 RSI 实验室,把“AI 自己改进自己”从口号变成了正式项目,强调样本效率而非堆算力。Agent 评测也在变难:Agents' Last Exam 最难任务通过率仅 2.6%,SWE-Marathon 要求模型在 1...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R0
2026-06-05 · 星期五2026年6月5日
06:44
10d ago
Latent Space· rssEN06:44 · 06·05
NVIDIA发布Nemotron 3 Ultra及多项AI动态更新
NVIDIA 正式开源 Nemotron 3 Ultra,550B 参数的 MoE 模型(实际激活 55B),支持 100 万 token 上下文,专门为长时间跑 agent 任务优化。官方说比之前快 5 倍、成本低 30%,在第三方测试里输出速度超过 400 token/秒,是目前美国开源模型里最强的,但还打不过 Kimi K2.6。模型用 NVFP...
#Agent#Memory#Benchmarking#NVIDIA
精选理由
这是一条有用的 AI 日报汇总,符合 HKR-K,但 HKR-H 和 HKR-R 被多条信息削弱。按汇总/填充内容指引,归入低价值 all 层级,不做硬排除。
一句话点评
NVIDIA 开源了 Nemotron 3 Ultra,550B 参数 MoE(实际激活 55B),支持 100 万 token 上下文,专为长时间 agent 任务优化。官方称比之前快 5 倍、成本低 30%,第三方测试输出速度超 400 token/秒,是目前美国最强开源模型,但还打不过 Kimi K2.6。模型用 NVFP4 低精度训练了 20T tokens,这点先别太激动——低精度...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
2026-06-04 · 星期四2026年6月4日
03:24
11d ago
Latent Space· rssEN03:24 · 06·04
Reve 2 和 Ideogram 4 都强调布局能力,图像生成进入“指哪打哪”阶段
Latent Space 总结了 6 月 2-3 日的 AI 新闻,翻了 12 个 subreddit 和 544 个 Twitter 账号。核心看点:微软开源了 MAI-Thinking-1 的技术报告,AIME 2025 上拿了 97%,SWE-Bench Pro 上 53%,而且明确说没用第三方蒸馏和合成数据,全靠后训练硬学出来的。报告有 109...
#Multimodal#Reasoning#Agent#Latent Space
精选理由
这是一篇日报,把好几条新闻打包在一起,不是单一权威发布或一手实测。有具体数字和开放权重信号,所以放在 upper all 档。
一句话点评
微软开源了 MAI-Thinking-1 技术报告,109 页,AIME 2025 上 97%,SWE-Bench Pro 上 53%,盲测赢了 Sonnet 4.6。关键卖点:没用第三方蒸馏和合成数据,全靠后训练硬学出来的。这点先别太激动——报告没披露训练算力成本和推理效率,只说“从零爬山”,实际部署成本未知。另外,Ideogram 4.0 开源了,用 bounding box 教模型理解...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-06-03 · 星期三2026年6月3日
23:00
11d ago
最佳拍档· atomZH23:00 · 06·03
Google 四位大佬聊蒸馏:像挤柠檬一样,每代模型都挤一遍
视频标题说 Google 四位高管聊了 Gemini 3.5 Flash、团队合并、Omni 模型、跨代蒸馏、单一搜索框和未来产品方向。蒸馏被比喻成挤柠檬——把大模型能力压到小模型里,每代都做一次。但正文没披露任何具体参数、发布时间、定价或产品细节,信息量有限,只能当个方向性预告看。
#Inference-opt#Multimodal#Google#Gemini
精选理由
HKR-H/R通过:Google高管、单搜索框和“只有一个产品”的框架确实给出了路线图钩子。HKR-K不通过:正文没披露参数、时间表、定价或可复现的机制,所以只能留在all层。
一句话点评
Google 四位高管聊 Gemini 3.5 Flash、Omni 模型和跨代蒸馏,把蒸馏比作挤柠檬——每代把大模型能力压进小模型。但正文没披露任何具体参数、发布时间或定价,信息量有限,只能当方向性预告看。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
2026-06-02 · 星期二2026年6月2日
2026-06-01 · 星期一2026年6月1日
2026-05-31 · 星期日2026年5月31日
09:15
15d ago
最佳拍档· atomZH09:15 · 05·31
AI芯片内部怎么算:从逻辑门到脉动阵列
Reiner Pope 用一节课讲清楚 AI 芯片的底层计算:逻辑门怎么搭成全加器,全加器怎么拼成 Dadda 乘法器,再到乘加单元(MAC)、寄存器堆、脉动阵列和菊花链。还对比了 FPGA 和 ASIC 的差异,以及和大脑计算的类比。正文没披露任何具体芯片型号、算力数字或性能对比,适合当入门科普看,不是评测或技术选型参考。
#Inference-opt#Reiner Pope#Commentary
精选理由
HKR-H靠芯片内部机制标题钩子通过,但K和R都挂了:正文只列了9个机制名字,没有实现细节和性能数据,比如Dadda乘法器比普通乘法器省多少门、脉动阵列在什么场景下延迟高,这些都没说。当成低价值科普看就行,不值得上推荐位。
一句话点评
Reiner Pope 用一节课讲透了 AI 芯片的底层计算:从逻辑门搭成全加器,再拼成 Dadda 乘法器,最后到乘加单元(MAC)、寄存器堆和脉动阵列。还对比了 FPGA 和 ASIC 的差异,以及和大脑的类比。正文没披露任何具体芯片型号、算力数字或性能对比,适合当入门科普看,不是评测或技术选型参考。
HKR 分解
hook knowledge resonance
打开信源
48
SCORE
H1·K0·R0
2026-05-30 · 星期六2026年5月30日
01:57
16d ago
Latent Space· rssEN01:57 · 05·30
Claude 4.8 小步更新,多轮 RL 训练有个隐蔽 bug,开源模型追上闭源只差四个月
Latent Space 这期 AI 新闻覆盖了 5 月 28-29 日的内容。Claude Opus 4.8 上线后评测反馈不一:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthro...
#Agent#Code#Benchmarking#Latent Space
精选理由
HKR-K 通过,因为汇总明确交代了来源范围和覆盖板块。HKR-H 和 HKR-R 不通过:没有单一新闻事件、可验证的论断或足够强的从业者痛点来支撑精选。
一句话点评
Claude Opus 4.8 上线后评测分化:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthropic 还支持了对话中途改系统指令且不破坏缓存,对长会话省钱有用。但价格仍是硬伤——有开发者因为 API 太贵而倾向 GPT...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
2026-05-28 · 星期四2026年5月28日
09:00
18d ago
最佳拍档· atomZH09:00 · 05·28
GPT-5.5推理机制曝光:可靠性跨过阈值,效率翻倍,但细节全没给
OpenAI研究员扬·杜布瓦在视频里讲了GPT-5.5的推理能力,核心是可靠性跨过了一个关键阈值,模型能自我加速(自己判断什么时候该多算几步),强化学习也有突破,整体效率提升2倍。但正文没披露模型参数、基准测试设置、定价、发布时间或训练细节——所以这些数字先别太激动,信息缺口很大。
#Reasoning#Inference-opt#Fine-tuning#OpenAI
精选理由
标题信息密度高,但正文缺失——没披露模型参数、评测条件、训练细节。2倍效率提升和三段流水线听起来像干货,但没数据支撑,只能当视频评论看,不值得上推荐位。
一句话点评
短评:OpenAI研究员聊GPT-5.5推理,说可靠性跨过阈值、效率翻倍,但没给参数、定价、发布时间,信息缺口太大。 点评:OpenAI研究员扬·杜布瓦在视频里讲了GPT-5.5的推理能力,核心是可靠性跨过了一个关键阈值——模型能自己判断什么时候该多算几步,这叫“自我加速”。强化学习也有突破,整体效率提升2倍。但正文没披露模型参数、基准测试设置、定价、发布时间或训练细节——所以这些数字先别...
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
2026-05-27 · 星期三2026年5月27日
2026-05-25 · 星期一2026年5月25日
23:00
20d ago
最佳拍档· atomZH23:00 · 05·25
AI扩张卡在能源和晶圆上,台积电是全球经济稳定器
Gavin Baker 聊了九个话题,包括 AI 扩张的主要瓶颈是能源和晶圆、台积电对全球经济稳定的作用、Anthropic 爆发式增长、轨道计算、多样性崩溃、不可能三角、定价模式以及战场 AI。正文没披露具体数据、机制或时间线,所以这些判断目前只是观点,没有支撑细节。
#Inference-opt#Gavin Baker#TSMC#Anthropic
精选理由
标题有反直觉的算力瓶颈判断和台积电宏观视角,H和R都够。但正文只列了9个议题标题,没披露任何数字、论证逻辑或时间窗口,K不通过。
一句话点评
Gavin Baker 聊了九个话题,核心判断是 AI 扩张卡在能源和晶圆,台积电是经济稳定器。但全文没给任何数据或时间线,全是观点。短评:观点有料,但没数据支撑,先打个折。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
2026-05-23 · 星期六2026年5月23日
04:21
23d ago
Latent Space· rssEN04:21 · 05·23
模型厂都在转型做 Agent 了:OpenAI、AI21、DeepSeek 集体转向
Latent Space 汇总了 5 月 4-5 日的 AI 新闻,翻遍 12 个 Reddit 板块和 544 个 Twitter 账号后得出一个判断:OpenAI、AI21、DeepSeek 这些模型公司正在把产品重心从“卖模型”转向“卖 Agent”——也就是把模型装进业务流程、UI、记忆和成本结构里一起卖。OpenAI 的 Greg 直接说“模...
#Agent#Tools#Code#Latent Space
精选理由
这是一篇Latent Space的新闻汇总,核心论点是模型团队都在转向智能体、工具链和UI,而非发布重大新模型或论文。论据有具体来源和案例,但本质是行业观察综述,不是一手发布。重要性68分合理,属于“值得看但别当重磅”的档次。
一句话点评
OpenAI、AI21、DeepSeek 等模型公司集体转向卖 Agent——把模型装进业务流程、UI、记忆和成本结构里一起卖。Greg 直言“模型不再是产品”,AI21 甚至裁掉模型团队。DeepSeek 首次组建“Harness 团队”。但正文没披露这些 Agent 产品的实际效果或用户数据,判断主要来自高管发言和团队调整,验证还弱。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-05-22 · 星期五2026年5月22日
2026-05-21 · 星期四2026年5月21日
23:00
24d ago
最佳拍档· atomZH23:00 · 05·21
Alex Albert 聊下一代 Claude 怎么做:模型即产品、自适应思考、性格训练
Anthropic 的 Alex Albert 在视频里聊下一代 Claude 的设计思路,核心是把模型本身当产品来打磨,而不是只堆参数。他提到几个方向:编程能力要更强、产品功能要一体化(比如把对话、工具调用、记忆全揉在一起)、让模型学会“自适应思考”——根据任务难度自动调整推理深度。还讲了“Dreaming”机制(模型在空闲时自我复盘)和性格训练(让...
#Reasoning#Code#Alignment#Alex Albert
精选理由
HKR-H 和 HKR-R 过关:有具体人物和话题,能戳中 Claude 用户对产品方向和模型性格的神经。HKR-K 不过:这是一篇产品方向访谈的标题汇总,不是有数字或可测机制的更新披露,正文没给出任何硬参数或验证结果。
一句话点评
Anthropic的Alex Albert聊下一代Claude设计思路:把模型当产品打磨,而非只堆参数。方向包括强化编程、产品一体化(对话+工具+记忆揉一起)、自适应思考(任务难则多算,易则少算),以及Dreaming机制(空闲时自我复盘)和性格训练。想法挺务实,但正文没披露具体参数、发布时间或基准测试结果,目前只是方向性讨论,离落地还有距离。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
2026-05-20 · 星期三2026年5月20日
2026-05-19 · 星期二2026年5月19日
2026-05-18 · 星期一2026年5月18日
2026-05-16 · 星期六2026年5月16日
2026-05-15 · 星期五2026年5月15日
16:04
30d ago
● P1Dwarkesh Patel 播客· rssEN16:04 · 05·15
Eric Jang 用现代工具从零复现AlphaGo
Eric Jang 在播客里聊了他休假期间干的一件事:用现在的 AI 工具从零搭一个 AlphaGo。他选这个项目不是因为怀旧,而是觉得 AlphaGo 至今仍是把“搜索、从经验里学习、自我对弈”这三件事揉得最清楚的例子。节目里他一步步拆了蒙特卡洛树搜索是怎么给神经网络当老师的——每一步都直接给出一个更优的落子建议,绕开了大语言模型强化学习里最头疼的问...
#Reasoning#Agent#Code#Eric Jang
精选理由
Eric Jang 这篇文章不是发新模型,而是用 Cursor 这类现代工具重新搭了一遍 AlphaGo,然后拿蒙特卡洛树搜索(MCTS)跟大模型在超长 token 轨迹里的强化学习信用分配做对比。我会先打个折:正文没给出具体实验数据,更像一篇带技术深度的工程复盘。但它的价值在于把两个看似不相关的东西——下棋的搜索算法和 LLM 的 agent 工作流——拉到同一个问题框架下聊。对正在折腾长程推理和 agent 的人来说,这种对比比论文更直接。
一句话点评
Eric Jang 用现代工具重写了 AlphaGo,不是为了刷榜,而是想搞懂“一个十层网络怎么把深到离谱的搜索给学进去”。
锐评
Eric Jang 在播客里聊了他休假期间的项目:用现在的工具从零复现 AlphaGo。他不是要造一个更强的围棋 AI,而是想亲手拆解 AlphaGo 里“搜索、从经验中学习、自我对弈”这几个智能原语是怎么配合的。他提到一个很反直觉的点:一个只有十层的神经网络,居然能把游戏树里极深的搜索过程给“压缩”进去,这让他一直很好奇。 对话里最有意思的对比是,AlphaGo 用的蒙特卡洛树搜索(MCTS)能直接给出每一步的改进方向,绕开了“功劳分配”这个难题;而现在的语言模型做强化学习,得从十万多个 token 里猜到底是哪一步做对了,学习效率低得多。Jang 还试了让 AI 自动做研究,发现模型在跑实验、调参数上已经挺顺手,但在“选什么新问题去研究”和“从死胡同里退出来”这两件事上还很吃力。 正文没披露他复现的具体算力成本和最终棋力,也没给出自动研究环节的量化成功率。如果想知道这套思路能不能直接搬到语言模型上,还得看他后续会不会放出代码和实验记录。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
00:30
31d ago
Latent Space· rssEN00:30 · 05·15
AI 新闻:万物皆可 Conductor
本期 Latent Space 的 AI 新闻汇总了 5 月 13-14 日的信息,核心趋势是编码工具都在向“代理优先”的交互形态靠拢。GitHub 发布了 Copilot App 的技术预览,界面和 Conductor 很像——后者是 YC 创始人 Garry Tan 公开称赞过的产品,他认为 Conductor 比 Claude Code 更稳定、...
#Agent#Code#Robotics#Latent Space
精选理由
这是Latent Space的日常汇总,有实用线索但主要是聚合整理;HKR里K和R过关,H偏弱,所以落在40–59的填坑/老调重弹区间。
一句话点评
GitHub Copilot App 预览版界面直接抄了 Conductor 的作业——后者是 YC 老板 Garry Tan 公开说比 Claude Code 更稳的产品。OpenAI 同时让 Codex 能在手机 App 里遥控笔记本跑任务,远程 SSH 也全量开放。趋势很清楚:编码工具都在往“代理优先”的交互形态挤。但 Conductor 作为形态开创者,怎么在被巨头抄走之后赚钱,正文...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R1
2026-05-14 · 星期四2026年5月14日
2026-05-13 · 星期三2026年5月13日
02:47
33d ago
Latent Space· rssEN02:47 · 05·13
微调要凉了?OpenAI 停掉微调 API,Latent Space 说这是趋势
OpenAI 停掉了微调 API,Latent Space 把这当作头条。文章说,虽然头部玩家(Cursor、Cognition)反而在加大开源模型的强化微调,但对大多数 AI 工程团队来说,微调已经不是主流。替代方案包括超长提示词(比如 Claude 的 Constitution)和推理时计算。正文没披露 OpenAI 停 API 的具体原因,但暗示...
#Fine-tuning#Benchmarking#Inference-opt#OpenAI
精选理由
HKR三项都成立:OpenAI微调API废弃对从业者确实有实际影响,12/544的源范围也提供了上下文。但分数卡在60-71是因为这是一份日报汇总,正文没披露被废弃的API具体叫什么、迁移截止日期是什么、替代方案是什么,信息缺口明显,不能给更高分。
一句话点评
OpenAI 停掉微调 API,Latent Space 直接说“微调已死”。但头部玩家 Cursor、Cognition 反而在加大开源模型的强化微调,所以“死”的是大众市场,不是全部。替代方案是超长提示词(比如 Claude 的 Constitution)和推理时计算。正文没披露 OpenAI 停 API 的具体原因,只暗示 GPU 紧缺或用户已转向。对多数 AI 工程团队来说,微调确实...
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
2026-05-12 · 星期二2026年5月12日
04:33
34d ago
● P1Latent Space· rssEN04:33 · 05·12
Thinking Machines 发布原生交互模型:2760 亿参数,120 亿激活,实时语音不再靠外挂
Thinking Machines 终于又冒泡了,这次直接扔了个新模型 TML-Interaction-Small。总参数 2760 亿,是个 MoE 架构,实际干活时只激活 120 亿参数。它最狠的地方是把实时语音交互做进了模型骨子里,不再像以前那样给大语言模型外挂语音识别和合成模块。模型能同时听、说、看、想,用 200 毫秒一个的“微对话轮次”连续...
#Multimodal#Audio#Agent#Thinking Machines
精选理由
我会先打个折——基准分是 Thinking Machines 自己跑的,还没第三方复现,所以“超过 GPT 和 Gemini”先别太激动。但这条消息值得推,因为它给出了具体架构(276B MoE、12B 激活)、200ms 微轮次这个硬指标,还直接挑战了语音 agent 里常用的 VAD 方案。对正在搭实时语音管线的从业者来说,哪怕只是思路参考也有价值。
一句话点评
Thinking Machines 扔了个实时语音模型,把听、说、看、想全塞进一个模型里,不再外挂语音识别和合成,200 毫秒一轮对话,演示效果很自然,但正文没提实际延迟和可用性。
锐评
这条新闻最值得看的是架构思路:TML-Interaction-Small 总参数 2760 亿,但实际干活只激活 120 亿,用 MoE 把成本压下来。它把音频和图像直接喂给模型,不经过单独的编码器,端到端延迟控制在 200 毫秒以内,这比传统“语音转文字→大模型→文字转语音”的流水线快得多,也更像人和人聊天。 团队自己做了几个新基准来测“时机感”,比如能不能在用户指定的时间点开口、能不能在视频里动作发生的瞬间给出反馈。这些指标比跑分更有参考价值,因为实时交互的难点不是回答对不对,而是开口的时机对不对。 不过正文没披露这个模型实际跑在什么硬件上、单次推理成本多少、有没有开源计划。演示视频很流畅,但真实网络环境和嘈杂场景下的表现还是未知数。另外,2760 亿参数即使只激活 120 亿,部署门槛也不低,小团队想用上可能还得等。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-05-11 · 星期一2026年5月11日
18:30
34d ago
Dwarkesh Patel 访谈· atomEN18:30 · 05·11
David Reich:自然选择导致人类在学校停留时间更长
David Reich 认为自然选择正在推动人类延长在校时间。正文没有披露样本来源、具体机制或量化结果,所以这个判断目前只是一个观点,缺乏实证支撑。
#David Reich#Commentary
精选理由
标题有钩子但正文没给支撑,样本、机制、数字全缺,而且跟AI产品/业务无关,重要性打不到40分。
一句话点评
哈佛遗传学家David Reich说,人类智商在2000年前就停止进化了,但自然选择现在让我们更愿意待在学校。三个视频标题拼出这个观点,但正文没给数据支撑——没提样本量、效应大小、统计显著性。这点先别太激动,可能是标题党。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0
2026-05-09 · 星期六2026年5月9日
2026-05-08 · 星期五2026年5月8日
16:38
37d ago
Dwarkesh Patel 播客· rssEN16:38 · 05·08
David Reich 团队发现过去万年自然选择加速,青铜时代最剧烈
David Reich 团队通过大规模古DNA测序和新统计方法,推翻了“农业革命后自然选择停滞”的旧共识。他们发现过去一万年里自然选择反而加速了,尤其在青铜时代(约3000年前)最剧烈——基因频率在免疫、体脂、认知等方面大幅波动。认知能力的遗传预测值提升了大约一个标准差(相当于智商提高15分左右),其中大部分变化发生在4000到2000年前。Reich...
#David Reich#Ali Akbari#Harvard#Research release
精选理由
硬排除-4/离题科学:这是古DNA和人类演化研究,没有AI产品、智能体或行业应用。H和K都成立,但对AI从业者的相关性太弱。正文没披露样本量、统计方法细节,也不影响判断。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K1·R0
2026-05-05 · 星期二2026年5月5日
2026-05-04 · 星期一2026年5月4日
23:29
41d ago
Latent Space· rssEN23:29 · 05·04
Claude 是“另一个存在”,GPT 是工具:AI 人格分裂的 2026 版
Latent Space 总结了 5 月 1-4 日的 AI 新闻,核心讨论是 OpenAI 员工 Roon 提出的观点:Claude 被用户当作有道德判断的“另一个存在”,而 GPT 更像一把没有灵魂的实用工具,用户不会担心被它评判。这延续了之前“Clippy vs Anton”的路线之争。另外,Sierra 以 150 亿美元估值融资约 10 亿美...
#Agent#Code#Benchmarking#Latent Space
精选理由
这是一篇 curated roundup,不是模型发布、产品上线或融资官宣,更像行业观察和观点整理。HKR 三个维度都够,但属于“值得看”而非“必须看”,所以落在 60–71 区间,不给 featured。
一句话点评
OpenAI员工Roon公开夸Claude有道德人格,用户怕被它评判,反而把GPT当没灵魂的工具随便用。这个观察挺准,但正文没给用户调研数据,全靠推特截图撑。Sierra以150亿美元估值融了约10亿,ARR大概2亿,75倍PS——估值不低,但客户是客服场景,跟模型人格化讨论关系不大。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-05-03 · 星期日2026年5月3日
20:24
42d ago
Dwarkesh Patel 访谈· atomEN20:24 · 05·03
AI 行业有个万亿美元级别的时机问题
标题说 AI 行业存在一个价值万亿美元的时机问题,但正文没给出任何具体信息:谁面临这个问题、时间窗口多长、估值依据是什么、机制如何运作。目前只能当作一个吸引眼球的说法,缺乏事实支撑。
#Commentary
精选理由
标题有悬念,但正文为空,没有任何事实、数字或机制可评估。硬性零分来源规则(hard-exclusion-zero-sourcing)直接封顶40分以下,当前32分合理。
一句话点评
标题党,正文没给任何信息。
锐评
标题说AI行业存在一个“万亿美元时机问题”,但正文是空的。谁面临这个问题?时间窗口多长?估值依据是什么?机制如何运作?全都没披露。目前只能当作一个吸引眼球的说法,缺乏事实支撑。如果后续有具体案例或数据再跟进,现在先别当真。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H1·K0·R0
09:00
43d ago
最佳拍档· atomZH09:00 · 05·03
Karpathy 说“氛围编程”让他感到落后——软件 3.0 时代,提示词就是代码
Andrej Karpathy 在视频里聊了“氛围编程”(vibe coding)和软件 3.0,核心意思是:编程正在从写逻辑变成写提示词,计算架构反转了——以前是人迁就机器,现在是机器迁就人。他提到“可验证性”是关键瓶颈:AI 生成的代码好不好,得有人能快速判断对错,否则自动化就是空话。他还讲了“智能体工程”,就是让模型进业务流程干活,但正文没披露具...
#Agent#Code#Tools#Andrej Karpathy
精选理由
硬排除规则 6 适用:正文为空,只给了话题列表,没有可验证的论点或案例。H 和 R 通过,K 不通过,因此重要性上限为 39。
一句话点评
Karpathy 说编程正从写逻辑变成写提示词,但视频正文没给具体案例或数据。
锐评
Andrej Karpathy 的核心判断是:编程正在从写逻辑变成写提示词,计算架构反转——以前人迁就机器,现在机器迁就人。他管这叫“氛围编程”(vibe coding),本质是软件 3.0 的雏形。关键瓶颈他点得很准:可验证性。AI 生成的代码好不好,得有人能快速判断对错,否则自动化就是空话。他还提了“智能体工程”,就是让模型进业务流程干活。但正文没披露任何运行时、核心主张或可复现的例子,比如“氛围编程”在什么任务上比传统编程快多少、成本低多少、错误率高多少。这点先别太激动,Karpathy 的演讲风格偏概念推演,不是实验报告。如果你关心实操,缺的是:具体 prompt 模板、验证流程设计、以及 agent 在真实业务里的失败案例。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K0·R1
2026-05-02 · 星期六2026年5月2日
23:31
43d ago
最佳拍档· atomZH23:31 · 05·02
LPM 1.0 演示:角色表演模型能长时间保持人设、做表情、听人说话
这个视频合集展示了 LPM 1.0 的能力:对话、倾听、面部表情、长时间保持角色一致性,以及直播场景。但正文没披露模型参数量、训练数据、延迟、成本,也没说评测是怎么做的、能不能复现。所以目前只能当概念演示看,离产品化还有多远不好判断。
#Multimodal#Audio#Memory#LPM
精选理由
HKR-H 靠角色表演模型演示视频的钩子通过,但 HKR-K 和 HKR-R 都挂了,因为正文为空。硬性排除规则“纯营销/零信源”适用:没披露参数、评测方法、延迟、成本或可复现条件。
一句话点评
演示很酷,但没参数、没成本、没评测,先当概念片看。
锐评
LPM 1.0 主打角色扮演,视频里展示了对话、表情、长时间一致性甚至直播,观感确实好。但正文一个字都没提模型参数量、训练数据来源、推理延迟和成本,也没说评测怎么做的、能不能复现。这意味着目前只能当概念演示看,离产品化还有多远不好判断。如果真要做实时直播角色扮演,延迟和成本是关键瓶颈——视频里没给任何数字,这点先别太激动。另外,角色长时间一致性通常依赖长上下文或记忆机制,但具体用了什么技术(比如外挂资料库还是模型内置记忆)也没披露。整体来说,方向有意思,但信息缺口太大,建议等技术报告或实测数据再下结论。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R0
23:01
43d ago
最佳拍档· atomZH23:01 · 05·02
米哈游蔡浩宇发布大型角色表演模型LPM1.0:用因果DiT做实时角色扮演
米哈游创始人蔡浩宇在视频里介绍了LPM1.0,一个专门做角色表演的大模型。它要解决的是“表演三难困境”——大概是指角色一致性、实时响应和表现力三者很难兼得。方案分两部分:Base LPM用因果骨干DiT(一种扩散Transformer)做基础生成,实时Online LPM再加一个因果精炼器DiT来提速,配合DMD(一种蒸馏方法)降低延迟。视频里还展示了...
#Multimodal#Agent#miHoYo#Cai Haoyu
精选理由
HKR-H 和 HKR-R 通过:米哈游、蔡浩宇加上实时角色表演,对游戏和虚拟人从业者来说是个强钩子。HKR-K 不通过:标题只列了组件名,参数、指标、数据和复现细节一概没有,所以分数卡在 60–71 区间。
一句话点评
米哈游老板亲自讲了个角色表演模型,但没给任何参数或跑分,先当概念片看。
锐评
蔡浩宇在视频里提的LPM1.0,核心是想解决角色一致性、实时响应和表现力三者难兼顾的问题。方案分两层:Base LPM用因果骨干DiT(一种扩散Transformer)做基础生成,实时Online LPM再加一个因果精炼器DiT来提速,配合DMD蒸馏方法降延迟。听起来像把视频生成拆成离线预生成+在线精修两步,思路不新鲜,但米哈游有游戏场景落地,如果真能跑通实时交互角色,对虚拟人、NPC行业是好事。 但正文没披露任何参数、延迟数字、样本量或评测指标,连演示视频的帧率、分辨率都没提。DMD蒸馏后的模型大小和推理成本也是空白。如果是真的,这套方案在游戏里替换传统动画管线能省不少钱,但没数据前只能当技术愿景看。建议等后续论文或开源再认真评估。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
19:05
43d ago
Dwarkesh Patel 访谈· atomEN19:05 · 05·02
五角大楼跟Anthropic在密谋什么?
标题说五角大楼跟Anthropic有个计划,但正文一个字都没写。所以目前只知道双方在谈合作,具体是签了合同、投了钱、还是只开了个会,一概不知。关键问题是:军用AI的边界在哪——Anthropic之前承诺过不让模型用于武器系统,这次会不会破例?没有更多信息前,这点先别太激动。
#Anthropic#Pentagon#Commentary
精选理由
标题有钩子但正文为零,属于典型的'标题党'。HKR 中 H 和 R 靠国防+Anthropic 的冲突感通过,K 因为无任何实质信息被硬性排除。真正值得盯的是国防场景的边界试探,但当前信息不足以做任何判断,建议标记为'零来源'处理。
一句话点评
标题说五角大楼跟Anthropic有个计划,但正文一个字都没写。关键问题是军用AI边界在哪——Anthropic之前承诺过不让模型用于武器系统,这次会不会破例?没有更多信息前,这点先别太激动。
锐评
标题说五角大楼跟Anthropic有个计划,但正文一个字都没写。所以目前只知道双方在谈合作,具体是签了合同、投了钱、还是只开了个会,一概不知。关键问题是:军用AI的边界在哪——Anthropic之前承诺过不让模型用于武器系统,这次会不会破例?没有更多信息前,这点先别太激动。正文没披露合作范围、合同金额、时间线或模型用途。唯一能确定的是,如果合作涉及武器系统,Anthropic的公开承诺就会面临考验。缺的是任何可验证的细节,比如是技术咨询、模型部署还是联合研发。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
09:01
44d ago
最佳拍档· atomZH09:01 · 05·02
AI不会消灭人类的工作
Box创始人Aaron Levie在视频里直接说AI不会消灭人类的工作,核心论点是AI竞争本质不在替代人,而在API价值和智能体操作员这类新形态。他提到headless(无界面AI)和运营支出变化,但正文没披露任何实测数据、运行时长、智能体操作员的具体机制,也没说多模型并存的条件。安全方面只提了“安全海啸”,没给成本或验证细节。整体更像观点输出,缺可量...
#Agent#Tools#Safety#Box
精选理由
触发硬排除规则6:标题式评论,正文无数据、无案例、无可验证论点。HKR-H 和 HKR-R 来自标题本身,HKR-K 完全缺失,因此重要性上限被压在 40 以下。
一句话点评
观点输出,零数据支撑。
锐评
Box创始人Aaron Levie的核心论点是AI不会消灭人类工作,竞争本质在API价值和智能体操作员这类新形态,而非替代人。他提到headless(无界面AI)和运营支出变化,但正文没披露任何实测数据、运行时长、智能体操作员的具体机制,也没说多模型并存的条件。安全方面只提了“安全海啸”,没给成本或验证细节。整体更像观点输出,缺可量化证据,适合当行业讨论素材,别当决策依据。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
07:21
44d ago
Latent Space· rssEN07:21 · 05·02
AI工程师世界博览会开放第二轮演讲申请,新增自主研究、记忆、世界模型等六个专场
AI Engineer World's Fair 今年夏天搬到旧金山 Moscone West,规模连续第三年翻倍,月活已超 100 万 AI 工程师。第二轮演讲申请新增六个专场:自主研究(让模型自己改进训练流程)、记忆(智能体怎么在用户使用中变聪明)、世界模型(空间推理和对抗推理)、Tokenmaxxing(怎么让团队用 AI 更高效又不浪费 tok...
#Agent#Memory#Robotics#AI Engineer
精选理由
这是一条会议征稿和议题框架新闻,不是模型、产品或研究发布。六个新轨道(Autoresearch、Memory、World Models、Tokenmaxxing、Agentic Commerce、Vertical AI)和月活 100 万读者、Moscone West 第三年扩容这些数字让它在 all 层级有信息价值,但不足以进 featured。
一句话点评
AI Engineer 大会今年搬到旧金山 Moscone West,规模连续第三年翻倍,月活超 100 万 AI 工程师。新增六个专场,包括自主研究、记忆、世界模型等,演讲申请已开放。
锐评
这届 AI Engineer World's Fair 最值得关注的是新增的六个专场,基本把今年 AI 工程的热点全包了:Autoresearch(让模型自己改进训练流程)、Memory(智能体怎么在用户使用中变聪明)、World Models(空间推理和对抗推理)、Tokenmaxxing(怎么让团队用 AI 更高效又不浪费 token)、Agentic Commerce(智能体之间怎么付钱)、以及垂直行业 AI(法律、医疗、金融等)。规模连续第三年翻倍,月活超 100 万 AI 工程师,说明这个会已经从社区聚会变成行业风向标了。不过正文没披露具体演讲嘉宾和议程细节,目前只是开放申请阶段,实际含金量要看最终上台的是谁。另外,机器人展区免费但要求人形机器人必须有人陪同,这点先别太激动——demo 质量参差不齐是常态。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
00:48
44d ago
Dwarkesh Patel 访谈· atomEN00:48 · 05·02
神经网络是反向的密码学
Reiner Pope 在标题里把神经网络称为“反向的密码学”,但正文没展开讲这个比喻的具体逻辑、例子或验证条件。
#Reiner Pope#Commentary
精选理由
硬排除规则6适用:正文除了标题的类比之外没有任何内容,没有数据、案例或具体场景。HKR-H通过,HKR-K和HKR-R不通过。
一句话点评
标题党,正文没展开,别太当真。
锐评
Reiner Pope 把神经网络比作“反向的密码学”,这个比喻挺抓眼球,但正文是空的——来源只有 RSS 摘要,没有具体论证、例子或验证条件。所以这条信息目前只值一个标题。 如果硬猜,他可能想说:密码学是把明文藏成密文(加密),神经网络是把数据里的规律“藏”进权重里(训练),推理时再“解”出来。但这个类比是否成立、有没有实验支撑,正文全没披露。 对从业者来说,这个视角可以当思考线索,但别当结论用。想看完整论述得等他的演讲或文章。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H1·K0·R0
2026-05-01 · 星期五2026年5月1日
23:01
44d ago
最佳拍档· atomZH23:01 · 05·01
AI编码模型对比:GPT-5.5、Opus 4.7、DeepSeek V4谁更划算?
视频标题对比了GPT-5.5、Opus 4.7和DeepSeek V4在编码任务上的表现,还提到SemiAnalysis的分析和基准测试的猫腻。但正文是空的,所以没披露具体任务成本、基准设置或SemiAnalysis的结论。想看详细对比得等视频内容出来。
#Code#Benchmarking#SemiAnalysis#DeepSeek
精选理由
标题把三个热门模型放在一起比编码,确实能吸引点击,H 和 R 都成立。但正文是空的,没有给出任何成本数字、基准条件或来源结论,K 不通过。整体属于只有标题没有实质内容的低价值信息,不值得投入时间细看。
一句话点评
标题党,正文空,先别信。
锐评
视频标题拿 GPT-5.5、Opus 4.7 和 DeepSeek V4 比编码,还扯上 SemiAnalysis 的分析和“基准测试的猫腻”。但正文一个字没有,来源只有 RSS 摘要。所以具体比了什么任务、总成本怎么算、基准到底怎么作弊,全没披露。SemiAnalysis 的结论也看不到。标题看着热闹,实际信息缺口很大。想看真对比得等视频内容出来,现在只能当个预告片看。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
09:01
45d ago
最佳拍档· atomZH09:01 · 05·01
硅谷21家顶级VC为何集体错过Anthropic
标题说21家硅谷顶级VC错过了Anthropic,提到了Anj Midha、亚马逊AWS和AI的4C卡口,但正文是空的,没披露具体原因、24个月的创业地狱细节,也没讲人类不对齐的威胁证据。
#Alignment#Safety#Anthropic#Anj Midha
精选理由
标题钩子强,但正文完全空白,没有原因、证据或机制披露,属于硬性零来源,分数被锁在40以下。当前38分合理,保留现有评分和tier。
一句话点评
标题很猛,但正文是空的,等于看了个标题党。
锐评
标题说21家硅谷顶级VC错过了Anthropic,还提到Anj Midha、亚马逊AWS和AI的4C卡口,但正文完全空白,连摘要都没给。这意味着所有关键信息——为什么错过、24个月创业地狱具体指什么、人类不对齐的威胁证据——全部缺失。目前能确认的只有Anthropic早期融资确实被多数VC跳过,后来AWS投了40亿美元。但标题里的“4C卡口”和“认知鸿沟”没有出处,无法判断是真实框架还是营销话术。建议等完整内容出来再判断,现在只能当个标题看。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
00:24
45d ago
Dwarkesh Patel 访谈· atomEN00:24 · 05·01
AI 不像核武器,别拿冷战吓自己
这条视频标题说“AI 与核武器的类比是错的”,但正文是空的,没给出任何论据、发言人、时间或具体案例。所以只能看标题本身:它反对把 AI 风险等同于核威慑,暗示两者扩散逻辑、失控路径和治理方式都不同。但因为没有内容,没法判断它是在反驳“AI 会毁灭人类”还是“AI 军备竞赛”这类具体说法。正文没披露任何支撑信息。
#Commentary
精选理由
HKR-H和HKR-R靠反核武器类比的立场通过,但HKR-K彻底失败:正文为空,没有披露任何论据或案例。硬性排除规则——零来源——把重要性压在40以下。
一句话点评
标题党,正文空,没法判断它反驳的是哪种AI-核武类比。
锐评
标题说“AI与核武器的类比是错的”,但正文一个字都没有,来源是YouTube Shorts,发布时间2026年5月1日。因为没有内容,只能猜它反对的是把AI风险等同于核威慑——比如认为AI扩散更快、失控路径更隐蔽、治理更难套用冷战框架。但具体是反驳“AI会毁灭人类”还是“AI军备竞赛”,完全不清楚。正文没披露发言人、论据或案例,这点先别太激动。如果真想讨论这个议题,建议找有完整论证的文章,比如对比核弹的物理垄断和AI模型的开源扩散,或者核威慑的相互确保摧毁与AI的“单点失控”风险。目前这条视频只提供了一个观点标签,信息缺口太大,没法做有效判断。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
2026-04-30 · 星期四2026年4月30日
09:01
46d ago
最佳拍档· atomZH09:01 · 04·30
OpenAI 内部在想什么:Sam Altman、Greg Brockman、Sora 和马斯克诉讼
标题提到 OpenAI 的 Sam Altman 和 Greg Brockman 聊了十年友谊、分歧与互补,还涉及 AI 安全、个人 AGI、Sora、竞争对手和马斯克诉讼。但正文完全空白,没给出任何具体观点、时间线或证据,所以没法判断他们到底说了什么。
#Safety#OpenAI#Sam Altman#Greg Brockman
精选理由
触发硬排除规则6:正文为空,只有议题标签,没有数据、证据或具名主张。HKR中H和R通过,但K不通过,因此分数被锁定。
一句话点评
标题很猛,正文全空,没法判断说了啥。
锐评
标题列了一堆猛料——十年友谊、分歧、AI安全、个人AGI、Sora、竞争对手、马斯克诉讼——但正文完全空白,连一段话都没有。来源是RSS摘要,可能只是抓了个标题或占位符。 目前能确认的只有话题标签:安全、OpenAI、Sam Altman、Greg Brockman。但具体观点、时间线、证据一概没有。没法判断Altman和Brockman到底说了什么分歧,也没法评估他们对Sora或马斯克诉讼的表态。 如果这是完整内容,那信息量为零。建议等有正文再判断。
HKR 分解
hook knowledge resonance
打开信源
32
SCORE
H1·K0·R1
2026-04-29 · 星期三2026年4月29日
19:22
46d ago
Dwarkesh Patel 访谈· atomEN19:22 · 04·29
一个抗命的人救了世界,这跟AI有什么关系?
标题说有个抗命的人救了世界,还扯上了AI。但正文是空的,没说是谁、哪一年、怎么救的,也没解释跟AI的具体关联。信息缺口很大,没法判断这个类比是否成立。
#Safety#Commentary#Safety/alignment
精选理由
硬排除-零来源适用:只有标题可用,没有人物、年份或论点。H和R通过,但K不通过,所以分数封顶40以下。
一句话点评
标题党,正文空白,没法判断这个类比是否成立。
锐评
标题用“抗命救人”类比AI安全,但正文完全空白,连具体人物、事件年份、怎么救的都没说。这种“标题+空白”的RSS片段,信息缺口太大,没法判断类比是否成立。AI安全领域确实常引用Stanislav Petrov(1983年苏联误报核攻击时抗命未上报)或Vasili Arkhipov(古巴导弹危机中否决核打击)的例子,但正文没提是谁,也没解释跟当前AI风险的对应关系——是类比“拒绝执行危险指令”,还是“打破规则避免灾难”?如果是前者,那跟AI对齐中的“服从 vs 安全”矛盾有关;如果是后者,更像在讨论“人类在回路”的局限性。但这些都是猜测。来源是Dwarkesh的个人YouTube频道,不是正式论文或报道,权威性低。建议等有正文再评,现在只能当标题党处理。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
17:20
46d ago
Dwarkesh Patel 访谈· atomEN17:20 · 04·29
GPT、Claude、Gemini 实际是怎么训练和部署的
标题讲的是三家主流模型(GPT、Claude、Gemini)的训练和部署方法,但正文是空的,没披露任何具体数据、架构、成本或延迟信息。所以只能知道话题方向,没法判断哪家方案更省钱或更快。
#Inference-opt#Reiner Pope#Commentary
精选理由
HKR-H 和 HKR-R 通过,因为标题瞄准了前沿模型的训练和服务部署,对从业者有天然吸引力。HKR-K 不通过:RSS 正文为空,没有披露任何数字或机制,信息量不足,只能降级到 all 频道。
一句话点评
标题很大,正文没给任何干货。
锐评
这条视频标题说讲 GPT、Claude、Gemini 三家怎么训练和部署,但 RSS 正文是空的,没披露任何具体架构、成本、延迟或样本量。所以只能知道话题方向,没法判断哪家方案更省钱或更快。正文没披露任何数据,连谁讲的、什么场合都没写。如果真想了解三家差异,建议直接看各家的技术报告或公开演讲,这条只能当个标题党处理。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K0·R1
09:00
47d ago
最佳拍档· atomZH09:00 · 04·29
罗福莉:两年内实现AGI,小米MiMo-V2和OpenClaw是关键
小米大模型负责人罗福莉在访谈中称AGI两年内可实现,并提及MiMo-V2和OpenClaw的颠覆性。但正文未披露任何证据、算力卡配置、团队模式或完整访谈细节,无法验证其判断依据。
#Reasoning#Code#Luo Fuli#Xiaomi
精选理由
HKR-H和HKR-R通过:罗福莉、小米模型和“两年内AGI”制造了紧张感。HKR-K不通过:正文为空,OpenClaw、MiMo-V2、算力配比和团队模式均无法核实。
一句话点评
罗福莉说AGI两年内能成,但正文一个字都没给,先打个折。
锐评
小米大模型负责人罗福莉在访谈中放话:AGI两年内可实现,并提到MiMo-V2和OpenClaw有颠覆性。但正文完全缺失,没有披露任何证据、算力卡配置、团队模式或完整访谈细节。关键数字为零——不知道用了多少卡、训练成本多低、样本多省、延迟多高。OpenClaw具体怎么颠覆?MiMo-V2的强泛化性靠什么验证?团队模式独特在哪?全没写。这条信息目前只有标题和标签,判断依据无法核实。建议等完整访谈或论文出来再认真看,现在只能当个观点听,别当事实用。
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H1·K0·R1
04:00
47d ago
最佳拍档· atomZH04:00 · 04·29
李开复对话英矽智能CEO:AI如何推动生命科学下一波突破
这是一段李开复与英矽智能CEO Alex Zhavoronkov的对谈视频,讨论AI在生命科学领域的应用前景。正文没有披露具体模型、药物管线、实验数据或业务进展,所以信息量有限。如果你关注AI制药或英矽智能的动向,可以听听两位高层的观点碰撞,但别指望拿到硬核技术细节。
#Kai-Fu Lee#Insilico Medicine#Alex Zhavoronkov#Commentary
精选理由
硬排除零信息原则:仅有标题和嘉宾名单,无任何数据、案例或可验证的进展。HKR三项均不满足,评分低于40。
一句话点评
高层观点碰撞,但缺硬核信息。
锐评
这是一段李开复与英矽智能CEO Alex Zhavoronkov的对谈视频,讨论AI在生命科学领域的应用前景。正文没有披露具体模型、药物管线、实验数据或业务进展,所以信息量有限。如果你关注AI制药或英矽智能的动向,可以听听两位高层的观点碰撞,但别指望拿到硬核技术细节。
HKR 分解
hook knowledge resonance
打开信源
28
SCORE
H0·K0·R0
01:46
47d ago
Latent Space· rssEN01:46 · 04·29
今天AI圈没啥大事,但vLLM、Poolside和NVIDIA发了新东西
今天AI圈相对平静,但有几个值得关注的点:vLLM 0.20.0发布,主要改进是内存和MoE服务效率,比如TurboQuant 2-bit KV缓存让KV容量翻了4倍,还重新支持了FA4 MLA预填,以及一个融合RMSNorm让端到端延迟降了2.1%。DeepSeek V4 Pro在B300上比H200快8倍,但正文没披露具体测试条件。Poolside...
#Inference-opt#Multimodal#Agent#NVIDIA
精选理由
这是一篇AI日报,不是单一重磅发布,所以分数压在60-71区间。vLLM 0.20.0的4倍KV容量意味着显存更省、长上下文推理更便宜,这点值得关注。Poolside Laguna XS.2和NVIDIA Nemotron 3 Nano Omni都是开放模型,Mistral Workflows则是让模型进业务流程干活。三个方向在同一天有更新,说明推理成本、开放生态和agent落地都在加速。不过日报性质决定了信息密度高但深度有限,正文没披露具体benchmark或成本对比,所以不拔高。
一句话点评
vLLM 0.20 把 KV 缓存容量翻了 4 倍,端到端延迟降了 2.1%,对跑大模型推理的人算实打实的省钱更新。
锐评
vLLM 0.20.0 是今天最实在的更新:TurboQuant 2-bit KV 缓存让容量翻 4 倍,意味着同样显存能塞更多请求或更长上下文;融合 RMSNorm 让端到端延迟降 2.1%,虽然数字不大但白送。FA4 重新支持 MLA 预填(SM90+),对 DeepSeek V4 这类用 MLA 的模型是利好。DeepSeek V4 Pro 在 B300 上比 H200 快 8 倍——但正文没披露测试条件(batch size、精度、是否含预填),这个数字先打五折。Poolside 发了首个公开模型 Laguna XS.2(33B 总参/3B 激活 MoE),Apache 2.0,单卡可跑,性能接近 Qwen-3.5,但没给标准 benchmark 对比表,社区验证还不够。NVIDIA Nemotron 3 Nano Omni(30B/A3B MoE,256K 上下文,多模态)铺货速度惊人,OpenRouter/LM Studio/Ollama 等 10 家平台当天上线,但同样缺独立评测。整体看,今天没有突破性进展,更多是推理栈和开放模型的并行迭代。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
2026-04-28 · 星期二2026年4月28日
23:01
47d ago
最佳拍档· atomZH23:01 · 04·28
扩散模型是怎么工作的:斯坦福CME296第一课
这是一节斯坦公开课,讲扩散模型的核心流程:从纯噪声一步步去噪生成图像。标题里列了高斯分布、方差调度、ELBO和KL散度这些数学工具,但正文没披露推导细节、讲师是谁、课时多长,也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门。
#Multimodal#Stanford#Commentary
精选理由
这篇只有扩散模型的课程标题和关键词列表,ELBO/KL散度这种数学推导对多数读者没有入口,也没有具体成果或可复现的代码链接,信息密度低,可读性差,所以不推荐。
一句话点评
斯坦福公开课,讲扩散模型从噪声一步步去噪生成图像,适合入门框架。
锐评
这是一节斯坦福CME296公开课,标题直指扩散模型核心流程:从纯噪声去噪生成图像。列了高斯分布、方差调度、ELBO和KL散度这些数学工具,但正文没披露推导细节、讲师是谁、课时多长,也没有代码或课件链接。适合想理解扩散模型原理框架的人先看标题入个门,但别指望看完就能上手训练。信息缺口明显:没有实际案例或实验数据支撑,数学推导深度未知。如果后续课程能补上具体实现和调参经验,价值会更高。
HKR 分解
hook knowledge resonance
打开信源
34
SCORE
H0·K0·R0
20:00
47d ago
Dwarkesh Patel 访谈· atomEN20:00 · 04·28
AI监管的威权主义问题
标题直接点出AI监管可能带来的威权主义风险,但正文完全空白,没有披露任何国家、政策条款或具体案例。从业者只能推测话题方向,无法判断问题机制——比如是监管被用来巩固权力、压制竞争,还是限制开源模型。信息缺口明显:缺国家、缺条款、缺案例。
#Safety#Policy#Commentary
精选理由
标题有判断但正文为空,属于硬性零来源:只有标题级主张,没有数据、案例或具名政策,因此分数上限卡在 39 以下。从业者只能确认议题方向,不能据此判断任何监管机制。
一句话点评
标题有观点,正文没内容,没法判断。
锐评
标题说AI监管有威权主义风险,但正文完全空白,没披露任何国家、政策条款或具体案例。从业者只能猜方向——是监管被用来巩固权力、压制竞争,还是限制开源模型?信息缺口明显:缺国家、缺条款、缺案例。这条只能当话题引子,没法做判断依据。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
09:00
48d ago
最佳拍档· atomZH09:00 · 04·28
Meta和微软同时优化近两万人:裁员、买断、AI基建投入,员工数据被用来训练模型
标题说Meta和微软合计优化近两万个岗位,涉及裁员、自愿买断计划和AI基础设施投入。正文没披露具体时间、哪些部门受影响、买断条件,也没说AI到底替代了哪些岗位。员工被当成AI训练数据这一点值得留意,但细节为零。
#Meta#Microsoft#Personnel#Commentary
精选理由
硬排除6适用:正文为空,只有标题级断言,没有来源、岗位、买断条款或AI替代机制。HKR-H/R通过,HKR-K不通过,所以重要性上限卡在40以下。
一句话点评
标题说裁两万人,但正文一个字都没有,先别信。
锐评
标题说Meta和微软合计优化近两万个岗位,涉及裁员、自愿买断和AI基建投入。但正文是空的,来源只有YouTube标题和RSS摘要,没有具体时间、部门、买断条件,也没说AI到底替代了哪些岗位。员工被当成AI训练数据这个点值得留意,但细节为零。如果是真的,两万人的规模说明大厂在用人上开始动真格,但没数据支撑前只能当传闻看。
HKR 分解
hook knowledge resonance
打开信源
38
SCORE
H1·K0·R1
05:38
48d ago
Latent Space· rssEN05:38 · 04·28
图像生成是通往AGI的必经之路
Latent Space 的周报认为,GPT-Image-2、Nano Banana 和 Grok Imagine 这类图像生成模型不是“副业”,而是实现 AGI 必须投入算力的核心工作。理由是:光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”二字。文章特别强调“图像生成 + Codex 循环”的价值——边写...
#Multimodal#Agent#Code#OpenAI
精选理由
这是一篇4月26-27日的AINews汇总,带有评论性质,不是一手发布。67.1%的分数和100万token上下文确实增加了信息量,但来源单一且是汇总文,所以没给到featured。
一句话点评
图像生成不是副业,是AGI必须砸算力的核心方向。
锐评
Latent Space 这篇周报的核心判断很直接:GPT-Image-2、Nano Banana、Grok Imagine 这类图像生成模型不是“做着玩的”,而是实现 AGI 必须投入算力的主干任务。理由是光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”。文章特别强调“图像生成 + Codex 循环”的价值——边写代码边生成素材,把开发闭环彻底打通。 但要注意,这篇文章是付费周报,观点性强,缺少具体成本或效率对比数据。比如“GPT-Image-2 + Codex”到底比纯文本编码快多少?没给数字。另外,文章引用的例子(乐高、教育图、信息图)都是展示性用例,没有说明在真实业务场景(如游戏资产管线、UI 批量生成)中的落地效果。 还缺什么:缺图像生成 vs 纯文本/代码在 AGI 路线上的算力分配对比,缺 GPT-Image-2 的 API 定价或推理成本,缺 Nano Banana 和 Grok Imagine 的具体评测基准。如果你在评估是否要把图像生成纳入核心路线,这篇可以作为论点参考,但决策还需要更硬的成本和效果数据。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
2026-04-27 · 星期一2026年4月27日
23:00
48d ago
最佳拍档· atomZH23:00 · 04·27
Google Next '26 大会全盘点:1800亿美元投资、第八代TPU、企业Agent五层架构
视频标题盘点了Google Next '26大会的核心内容,包括1800亿美元投资、第八代TPU、企业Agent五层架构、可信上下文、跨云湖仓、安全防御和工作区智能。但正文未披露投资周期、TPU具体规格、可信上下文的设计细节、跨云湖仓的实现方式,以及五层架构各层的具体功能。
#Agent#Inference-opt#Safety#Google
精选理由
标题画了个大饼——1800亿美元、第八代TPU、Agent五层架构,但正文一个字都没有。H和R靠这个钩子能过,但K直接卡死:投资是分几年投?TPU算力比上一代翻几倍?Agent架构是概念图还是可部署方案?一概不知。硬规则要求信息不够就直说,所以这篇只能给39分,等有具体参数和周期再重新评估。
一句话点评
Google Next '26 画了张企业 AI 大饼,但细节太少,先别激动。
锐评
视频标题列了一堆概念:1800 亿美元投资、第八代 TPU、企业 Agent 五层架构、可信上下文、跨云湖仓。但正文几乎没给任何细节——投资是几年周期?TPU 算力提升多少倍?五层架构每层具体干什么?可信上下文是权限控制还是数据隔离?跨云湖仓怎么跨、延迟多高?全都没说。 对 AI 从业者来说,这些方向本身不新鲜:Google 在推自己的 Agent 框架和硬件绑定,1800 亿更像长期资本开支而非短期订单。真正有价值的信息——比如 TPU v8 的推理成本对比、五层架构里有没有开源组件、可信上下文是否兼容第三方云——全部缺失。建议等官方白皮书或实测数据再判断,目前只能当战略口号看。
HKR 分解
hook knowledge resonance
打开信源
39
SCORE
H1·K0·R1
20:08
48d ago
Dwarkesh Patel 访谈· atomEN20:08 · 04·27
为什么不该信五角大楼的AI承诺
标题直接说不要相信美国国防部在AI上的承诺,但正文没披露具体是什么承诺、谁说的、有什么证据或政策背景。信息缺口明显,无法判断这个警告是针对某个具体项目还是整体可信度。
#Safety#Pentagon#Policy#Commentary
精选理由
标题画了个大饼——五角大楼的AI承诺不可信,但正文一个字都没写。没有承诺内容、没有证据、没有人物、没有政策背景,等于只给了个空靶子。H和R靠标题的冲突感和话题敏感度勉强过关,但K因为零信息源直接触发了hard-exclusion-zero-sourcing规则,分数上限被压在40以下。如果正文补上具体承诺、质疑依据或至少一个案例,分数能往上走。
一句话点评
标题说别信五角大楼的AI承诺,但正文一个字都没给,没法判断是哪个承诺、谁说的。
锐评
标题很猛,但正文是空的,来源只有RSS摘要。没有披露具体是哪个承诺、谁做的承诺、有什么证据或政策背景。信息缺口太大,无法判断这个警告是针对某个具体项目(比如自主武器、数据共享)还是整体可信度。如果只看标题,容易变成情绪输出。建议等有正文或引用来源再判断。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
09:00
49d ago
最佳拍档· atomZH09:00 · 04·27
霍华德·马克斯聊投资中最蠢的事:当前市场位置、买卖依据、成长vs价值、何时卖出
橡树资本创始人霍华德·马克斯在视频里聊了四个话题:投资中最常见的错误、当前市场处于什么位置、买入股票的依据是什么、成长投资和价值投资怎么选、什么时候该卖出或持有、以及“复利机器”为什么稀缺。正文没披露具体日期、价格或论点细节,所以没法判断他到底说了什么判断。如果你关心的是他对当前市场的具体看法,这点先别太激动——标题列了话题,但内容细节没给出来。
#Howard Marks#Oaktree Capital#Commentary
精选理由
排除,因为与AI几乎无关:这篇是投资访谈,只有标题级别的主题列表。HKR三项对AI从业者受众均不成立。
一句话点评
标题列了六个话题,但正文没给任何具体判断,别被标题骗了。
锐评
霍华德·马克斯聊投资常见错误、当前市场位置、买入依据、成长vs价值、卖出时机和复利机器稀缺性,六个话题全列在标题里。但正文是空的,没披露他到底说了什么判断、引了什么数据、举了什么例子。如果你关心的是他对当前市场是贵还是便宜、该买还是该卖,这点先别太激动——信息缺口太大,没法判断他有没有新观点。标题本身不构成信息,只能当话题预告看。
HKR 分解
hook knowledge resonance
打开信源
18
SCORE
H0·K0·R0
2026-04-26 · 星期日2026年4月26日
19:14
49d ago
Dwarkesh Patel 访谈· atomEN19:14 · 04·26
跟中国赛跑,结果自己变成中国?
标题抛出一个尖锐反问:美国在 AI 竞赛中全力追赶中国,会不会最终学成中国的监管模式或产业政策?正文没有提供发言人、具体论据或政策目标,所以无法判断这是严肃警告还是标题党。
#Commentary
精选理由
标题有钩子,但正文完全空白,无法验证任何判断。按硬规则,零来源直接封顶,重要性压到35合理。读者只能看到一句反问,没有事实支撑,这点先别太激动。
一句话点评
标题党,正文没给任何论据,别当真。
锐评
标题抛了个尖锐反问:美国追中国 AI,会不会把自己追成中国的监管模式?但正文是空的,发言人、数据、政策目标全没披露。这更像一个社交媒体的情绪钩子,不是严肃分析。如果真想讨论,至少得说清“学成中国”具体指什么——是数据审查、产业补贴还是出口管制?目前信息缺口太大,没法判断这是警告还是煽动。建议等有具体来源或论据再跟进。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H1·K0·R1
2026-04-25 · 星期六2026年4月25日
19:15
50d ago
Dwarkesh Patel 访谈· atomEN19:15 · 04·25
小册子、报纸和杂志的诞生——Ada Palmer
这条视频标题讲的是三种媒体形式的历史,但正文完全空白,没有日期、没有具体观点、也没有任何AI相关的内容。所以只能告诉你:标题说的是小册子、报纸和杂志的诞生,主讲人是历史学家Ada Palmer。其他信息一概没有,没法判断它跟AI有什么关系。
#Ada Palmer#Commentary
精选理由
正文为空,标题讲的是历史媒介,不是 AI 产品、模型、研究或行业决策。HKR 三项全不满足,属于跟 AI 几乎无关的噪音。
一句话点评
标题讲媒体史,但正文空白,跟AI无关。
锐评
这条视频标题是历史学家Ada Palmer讲小册子、报纸和杂志的诞生,但正文完全空白,没有日期、观点或任何AI相关内容。信息缺口:无法判断它跟AI有什么关系,可能是标题党或RSS抓取错误。对AI从业者来说,除非你想研究历史上的信息传播模式如何类比今天的AI内容分发,否则这条可以直接跳过。
HKR 分解
hook knowledge resonance
打开信源
18
SCORE
H0·K0·R0
05:00
51d ago
● P1Latent Space· rssEN05:00 · 04·25
DeepSeek 发布 V4 Pro 和 Flash 模型,能在华为昇腾芯片上跑
DeepSeek 终于发了 V4 系列,一共两个型号:V4 Pro 总参数 1.6 万亿,每次激活 490 亿;V4 Flash 总参数 2840 亿,激活 130 亿。两个模型都支持 100 万 token 的上下文,用了新的压缩注意力技术,相比 V3.2,处理长文本时计算量只要 27%,显存占用只要 10%。这次比较特别的是同时发了基础版和指令版,...
#Reasoning#Code#Inference-opt#DeepSeek
精选理由
这条必须写。DeepSeek 这次放出的不只是模型,而是把华为昇腾兼容性摆上台面,等于在 CUDA 依赖上划了一刀。技术报告说 1M token 下只用 V3.2 27% 的算力、10% 的 KV 缓存,省得挺实在。两档参数和 MIT 许可也让落地门槛更低。我会先打个折:正文没提实际推理延迟和昇腾上的吞吐数据,这点先别太激动,但硬件独立性本身已经够重。
一句话点评
DeepSeek V4 发了两个型号,Pro 版 1.6 万亿参数但每次只激活 490 亿,Flash 版更轻量。最大看点是能跑在华为昇腾芯片上,长文本处理成本比 V3.2 省了 73% 算力。
锐评
DeepSeek 这次 V4 系列最值得关注的点不是跑分,而是它明确支持华为昇腾芯片。技术报告里说,在 100 万 token 的长文本场景下,新架构的算力消耗只有 V3.2 的 27%,显存占用更是降到 10%,这个效率提升相当实在。如果数据没注水,意味着用国产卡跑大模型的门槛又降了一截。 不过要打个折:正文没给出和 Kimi K2.6、GPT-5.4 这些同期模型的直接对比数据,只说“大致同级”。另外,虽然发了基础版和指令版,但推理能力到底怎么样,报告里没展开,得等第三方实测。华为昇腾的供应量目前也只有 H100 的四分之一,实际部署规模还得看产能。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
2026-04-24 · 星期五2026年4月24日
21:06
51d ago
Dwarkesh Patel 访谈· atomEN21:06 · 04·24
宗教裁判所抓不到一个印刷工
Ada Palmer 在短视频里说,宗教裁判所从未抓到过任何一个印刷工。正文没交代具体时期、案件数量、运作机制或史料来源,所以这个判断目前只能当观点看,不能当结论用。
#Ada Palmer#Commentary
精选理由
标题有历史反差钩子,但正文为空,无法验证任何事实或机制,且与AI领域无直接关联,硬排除规则适用,评分低于40。
一句话点评
历史学家说宗教裁判所从没抓到过印刷工,但正文没给任何史料支撑。
锐评
Ada Palmer 这个说法挺反直觉——宗教裁判所连印刷工都抓不到,那他们到底在抓谁?但这条短视频只有标题,没交代具体时期(西班牙还是罗马?)、案件数量、运作机制或史料来源。目前只能当观点看,不能当结论用。 如果这个判断成立,意味着早期印刷业在审查体系下存在巨大的执行漏洞,印刷工可能比书商或作者更难追踪。但缺的东西太多:裁判所的实际搜查手段、印刷工如何规避、有没有区域性差异。正文没披露任何细节,建议等 Palmer 的完整论述或查原始文献再判断。
HKR 分解
hook knowledge resonance
打开信源
24
SCORE
H1·K0·R0
16:37
51d ago
Dwarkesh Patel 播客· rssEN16:37 · 04·24
Dwarkesh Patel 花 2 万美元办博客征文,真实目的是招研究员
播客主 Dwarkesh Patel 发起了一个博客征文比赛,总奖金 2 万美元(第一名 1 万、第二名 6000、第三名 4000),要求从四个关于 AI 的大问题里选一个写 1000 字回答,截止日期是 5 月 10 日。他明说了,比赛的真实目的是招一个研究合作者——简历筛不出思考能力,不如直接看人怎么回答他真想知道答案的问题。四个问题分别是:1)...
#Reasoning#Alignment#Dwarkesh Patel#OpenAI
精选理由
比赛本身不是模型或产品发布,但用征文筛人这个思路对AI从业者有参考价值。奖金和截止日期都明确,信息完整。不过正文没披露评委是谁、问题具体是什么,这点先别太激动。评分维持66,tier all,因为这是个质量征文机会,不是技术突破。
一句话点评
花两万美金招一个研究合作者,比看简历靠谱。
锐评
Dwarkesh Patel 搞了个博客征文比赛,总奖金两万美金,第一名一万。表面是征文,实际是招研究合作者——简历筛不出思考能力,不如直接看人怎么回答他真想知道答案的问题。四个选题都挺硬:AI 在 RL 阶段会不会减速、基础模型公司怎么赚钱、OpenAI 基金会几百亿怎么花、非 AI 生产国如何不被甩下。截止 5 月 10 日,每人限投一篇,1000 字以内。 这个思路聪明:用低成本(两万美金)筛选出能独立思考的人,比猎头费便宜得多。但注意,评委只有 Dwarkesh 一个人,主观性很强;而且他明确说“不要求有领域专长”,意味着答案质量可能参差不齐。正文没披露评审标准或时间表,获奖文章是否公开也不确定。如果你觉得自己能清晰回答其中一个问题,值得一试——但别把它当正经学术竞赛,更像一次定向招聘的公开面试。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
2026-04-23 · 星期四2026年4月23日
21:17
52d ago
Dwarkesh Patel 访谈· atomEN21:17 · 04·23
王室婚礼八卦如何救了印刷术
正文没披露是哪场婚礼、什么时期、具体怎么救的,也没给出版机制或来源。标题只说了 Ada Palmer 讨论王室婚礼八卦让印刷术活下来这件事。对 AI 从业者来说,目前只有标题,信息缺口很大。
#Ada Palmer#Commentary
精选理由
标题有个奇怪的历史钩子,H 能过;但正文一个字都没有,K 直接挂零;而且跟 AI 产业毫无关联,R 也挂零。硬性排除规则“零来源”把分压在 40 以下,这个判断合理。
一句话点评
标题党,正文没内容,先别信。
锐评
标题说 Ada Palmer 讨论王室婚礼八卦救了印刷术,但正文是空的,没披露是哪场婚礼、什么时期、具体怎么救的,也没给出出版机制或来源。对 AI 从业者来说,目前只有标题,信息缺口很大,没法判断这个案例的论证质量或数据可靠性。如果后续有完整内容,值得关注的是:印刷术早期存活是否真的依赖低俗内容驱动需求,这跟今天 AI 应用靠娱乐、社交、八卦拉动用户增长的逻辑有点像。但这点先别太激动,等正文出来再判断。
HKR 分解
hook knowledge resonance
打开信源
18
SCORE
H1·K0·R0
19:37
52d ago
Latent Space· rssEN19:37 · 04·23
AIE Europe 复盘 + Agent Labs 路线图:先借前沿模型跑通业务,再自己训练专属模型
这是一期 54 分钟的播客,来自 Latent Space 和 Unsupervised Learning 的联合特辑。核心论点是“agent lab”路径:先用前沿模型(比如 GPT、Claude)把业务跑起来,等积累够数据、工作量和用户行为后,再训练自己的模型来降本降延迟。播客还聊了 OpenClaw、技能(skills)作为 agent 的最小打...
#Agent#Code#Memory#Latent Space
精选理由
这是一期播客复盘,不是模型、产品或者论文发布,所以重要性压在60-71区间。但它的价值在于提炼了一条可执行的路径:先用前沿模型搭智能体,攒够数据再训练自己的模型。这点对想省推理成本、建护城河的团队有直接参考。正文没披露具体成本数字或训练样本量,所以判断只能挂在路径本身。
一句话点评
播客聊了一个实用路线:先用 GPT/Claude 把业务跑起来,攒够数据再训练自己的模型降本降延迟。
锐评
这期 54 分钟播客的核心论点是“agent lab”路径:先用前沿模型(GPT、Claude)跑通业务,等积累足够数据、工作量和用户行为后,再训练自研模型来降本降延迟。文中提到 Cursor、Cognition 已经让用户选择自家模型,说明这条路走得通。播客还讨论了 OpenClaw、skills(技能作为 agent 的最小打包格式)、非 NVIDIA 推理硬件、记忆与个性化等话题。但作为播客文字稿,缺少具体数字——比如自研模型相比前沿模型能降多少成本、延迟改善多少倍、需要多少数据量才值得切换。另外,来源是 Latent Space 和 Unsupervised Learning 的联合特辑,属于行业评论类内容,不是一手实验报告。对于从业者,值得关注的是“先跑业务再自研”这个务实策略,但具体落地门槛和收益还需更多数据验证。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:45
53d ago
Latent Space· rssEN02:45 · 04·23
AI 新闻:有品味的 Token 最大化
Latent Space 总结了 4 月 21-22 日的 AI 新闻,覆盖 12 个子版块和 544 个 Twitter 账号。重点包括:阿里发布 Qwen3.6-27B,一个密集型的开源模型,在编程评测上击败了更大的 Qwen3.5-397B-A17B,并且支持视觉语言推理,社区迅速适配了 vLLM、Ollama 等工具。OpenAI 低调开源了一...
#Agent#Code#Multimodal#Latent Space
精选理由
Latent Space 这期周报选了个好角度——算力和 token 的性价比。Qwen3.6-27B、OpenAI 隐私过滤、小米多模态、Google TPU 8t/8i 这些名字都出现了,但正文基本是会议流水账,没展开任何一条的具体数字或实测。H 和 R 理由充分,K 太薄,所以总分压在 62 这个偏低区间。
一句话点评
阿里Qwen3.6-27B用27B参数在编程评测上赢了自家397B大模型,本地跑得动,值得一试。
锐评
阿里开源了Qwen3.6-27B,一个纯密集模型(不是MoE),Apache 2.0协议。亮点是27B参数在SWE-bench Verified(77.2 vs 76.2)和Terminal-Bench(59.3 vs 52.5)上超过了自家397B的Qwen3.5,成本低得多。还支持看图、视频推理。社区反应快:vLLM、Ollama、llama.cpp当天就适配了,Unsloth说18GB显存就能跑GGUF版。早期用户反馈不错,尤其前端和图像任务。但注意:评测集可能偏编程,其他任务(如数学、长文)表现未知;正文没披露训练数据、推理速度或具体硬件需求,本地部署的实际延迟和精度还得自己测。另外,OpenAI低调开源了一个Privacy Filter,但细节太少,没法判断实用性。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
2026-04-22 · 星期三2026年4月22日
18:59
53d ago
Dwarkesh Patel 访谈· atomEN18:59 · 04·22
黄仁勋解释为什么英伟达最初没投Anthropic
黄仁勋在视频里聊了英伟达当初为什么没投Anthropic。但正文没披露具体时间、决策依据和投资金额,所以只能知道结果,不知道当时是嫌贵、嫌技术路线不确定,还是其他原因。
#Jensen Huang#Nvidia#Anthropic#Commentary
精选理由
H 和 R 通过:黄仁勋、Nvidia、Anthropic 三个名字放一起就是 hook。K 不通过:正文为空,所以分数卡在低价值区间的上沿。
一句话点评
黄仁勋聊英伟达当初没投Anthropic,但正文没披露具体原因和金额。
锐评
黄仁勋在视频里承认英伟达第一次没投Anthropic,但正文是空的,只靠标题和摘要撑场。所以能确认的事实就一个:没投。至于为什么——嫌估值高、技术路线不确定、还是内部决策流程问题——全没讲。信息缺口很大,没法判断这是战略失误还是理性放弃。对关注AI投资逻辑的人来说,这条的价值在于黄仁勋本人开口聊了,但内容密度极低,等于一个预告片。想看细节的得等完整访谈或更靠谱的信源。
HKR 分解
hook knowledge resonance
打开信源
54
SCORE
H1·K0·R1
11:51
53d ago
硅谷101 播客· atomZH11:51 · 04·22
导演陆川聊AI:未来实拍电影还会存在吗?
标题说导演陆川聊AI对影视行业的影响,但正文没披露他的具体观点、案例、工具或时间线。信息缺口明显,无法判断他是乐观还是悲观,也没提他是否用过AI工具拍片。
#Lu Chuan#Commentary
精选理由
HKR-H和HKR-R通过,但HKR-K不通过:只披露了访谈主题和嘉宾,没有可验证的论断、案例或工具细节。这篇留在all层级,作为一条信息量低的评论类条目。
一句话点评
标题说导演陆川聊AI对影视行业的影响,但正文没披露他的具体观点、案例、工具或时间线。信息缺口明显,无法判断他是乐观还是悲观,也没提他是否用过AI工具拍片。
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H1·K0·R1
2026-04-21 · 星期二2026年4月21日
21:22
54d ago
Dwarkesh Patel 访谈· atomEN21:22 · 04·21
黄仁勋聊英伟达的竞争
标题说黄仁勋讨论了英伟达的竞争,但正文是空的。没有披露具体对手、证据、时间或数据。
#Jensen Huang#Nvidia#Commentary
精选理由
全文只有标题,正文为空。没有披露黄仁勋具体说了什么、针对哪家对手、访谈时间或任何数据。HKR 三项全不满足,按规则排除,重要性低于 40。
一句话点评
标题说黄仁勋聊英伟达竞争,但正文是空的,没法判断他说了什么。
锐评
这条来自 Dwarkesh 的 YouTube 短视频标题是“黄仁勋谈英伟达的竞争”,但 RSS 正文完全空白,没有披露任何具体对手、证据、时间或数据。来源是未经验证的 RSS 片段,权威性存疑。 由于正文缺失,无法判断黄仁勋是否真的讨论了竞争、具体说了什么、以及是否有新信息。如果只是标题党或片段截取,这条内容对从业者几乎没有参考价值。建议直接忽略,或等完整视频/文字稿出来后再看。
HKR 分解
hook knowledge resonance
打开信源
35
SCORE
H0·K0·R0
00:19
55d ago
● P1Latent Space· rssEN00:19 · 04·21
月之暗面发布 Kimi K2.6 开源模型,在长任务执行上对标 Claude Opus 4.6
月之暗面推出了 Kimi K2.6,一个总参数 1 万亿的混合专家模型,每次推理激活 320 亿参数,支持 25.6 万 token 的上下文窗口。它主打的是长时间、多步骤的智能体任务,官方宣称能连续跑 12 小时以上、调用超 4000 次工具、并行管理 300 个子智能体。在 SWE-Bench Pro 编程基准上得分 58.6,HLE 带工具得分 ...
#Agent#Code#Multimodal#Moonshot
精选理由
我会先打个折:SWE-Bench Pro 58.6 这个数正文没给对比基线,不知道和 Opus 4.6 的差距到底多大,这点先别太激动。但 Kimi K2.6 真正值得盯的不是基座跑分,而是它把 agent 执行时长拉到 12 小时、能并行跑 300 个子代理,这在开源模型里算往前拱了一步。国内大模型旗舰发布本身就自带信号,加上抢在 DeepSeek v4 前出牌,对关注开源模型进展的人有信息差价值,所以给到 P1。
一句话点评
Kimi K2.6 把重点从刷榜转向了长时间干活:能连续跑12小时、调用4000次工具,但训练细节这次没披露,进步幅度得打个折看。
锐评
月之暗面这次发的 Kimi K2.6,是一个总参数1万亿、每次推理激活320亿的混合专家模型。相比三个月前的 K2.5,它最大的变化不是纸面分数,而是把力气花在了让模型能长时间、多步骤地执行任务上。官方说它能连续运行超过12小时,调用超4000次工具,还能同时管理300个子智能体,这比单纯在编程基准 SWE-Bench Pro 上拿58.6分更值得关注。 不过,这次发布有个明显的信息缺口:正文没披露具体增加了多少训练数据或计算量,只说“继续预训练和后训练”。所以这些智能体能力的提升,到底来自算法创新还是单纯堆资源,目前没法判断。另外,它在前端设计任务上声称对 Gemini 3.1 Pro 有68.6%的胜平率,但这类主观评测的波动性一向很大,看看就好。 整体看,K2.6 更像是一次务实的工程迭代,把模型往真实业务流程里推了一步。但缺少技术细节,让它的领先优势能持续多久要打个问号,尤其 DeepSeek V4 已经在传闻中了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-20 · 星期一2026年4月20日
22:43
55d ago
Dwarkesh Patel 访谈· atomEN22:43 · 04·20
黄仁勋亲述:英伟达到底怎么分GPU
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。
#Inference-opt#Nvidia#Jensen Huang#Commentary
精选理由
HKR-H 和 HKR-R 成立:黄仁勋谈 GPU 分配有明确钩子,且击中算力供给焦虑。HKR-K 不成立,因为正文为空,没有机制或数字,所以落在较低的兴趣区间。
一句话点评
标题说黄仁勋讲英伟达怎么分GPU,但正文是空的,等于没讲。
锐评
标题说黄仁勋解释了英伟达如何分配GPU,但正文是空的,没披露分配规则、客户优先级、配额数字或时间条件。所以目前只能知道这是个话题,具体怎么分——比如谁先拿、拿多少、按什么标准——一概没讲。来源是YouTube Shorts,信息密度极低,更像一个预告片。如果真想了解分配逻辑,得等完整访谈或官方文档。
HKR 分解
hook knowledge resonance
打开信源
61
SCORE
H1·K0·R1
2026-04-18 · 星期六2026年4月18日
2026-04-17 · 星期五2026年4月17日
00:00
59d ago
硅谷101 播客· atomZH00:00 · 04·17
硅谷右翼权力网怎么搭起来的?从彼得·蒂尔1987年办校报说起
这期播客把彼得·蒂尔那套“反竞争、要垄断”的世界观,追到了他大三时创办的《斯坦福评论》。背后有三个实在的推动力:一是法国哲学家René Girard的“模仿理论”——人没有自发欲望,全在模仿别人,所以竞争是蠢的,垄断才是对的;二是John M. Olin基金会,一个军火大亨死后立的遗嘱,要求25年内把钱花光关门,期间资助了100多个右翼校园媒体,蒂尔的...
#Peter Thiel#Stanford University#Founders Fund#Commentary
精选理由
HKR-H和HKR-K都成立:这期节目有明确的蒂尔权力网钩子,也列出了几个具体的历史机制。HKR-R对AI读者偏弱,因为讲的是硅谷意识形态而非AI产品、实验室或政策动向,所以适合all而非featured。
一句话点评
这期播客梳理了彼得·蒂尔从1987年创办《斯坦福评论》至今的思想脉络,核心是三位哲学家:吉拉尔的模仿欲望理论(解释他为何推崇垄断、厌恶竞争)、施特劳斯(精英应隐秘地引导大众)以及德鲁克(科技管理)。信息量很大,把蒂尔投资Facebook、创立PayPal、扶持JD Vance等行为都串到了哲学根上。但注意,这是播客的文字稿,嘉宾观点偏重思想史解读,缺乏对蒂尔商业实践失败案例(如他投的很多公司...
锐评
Peter Thiel在1987年创办《斯坦福评论》,并借欧林基金会支持接入了100多家校园右翼媒体网络。我的判断很直接:这期节目讲的不是人物传记,而是一种“先做叙事据点,再养干部,再接资本,最后进国家”的组织方法。做AI的人如果还把Thiel只看成Palantir投资人,已经慢了半拍。 节目里最有价值的地方,是它把三层机制串起来了。第一层是校园媒体。《斯坦福评论》不是校报,所以不受校内预算约束。欧林基金会给右派学生钱,目的也不是赢一场辩论,而是建平行舆论阵地。正文提到它支持了100多家类似媒体,这个数字很关键。校园里最稀缺的不是观点,而是能持续发稿、持续招人、持续把关系留下来的组织壳。第二层是思想工具。Girard的“模仿理论”被Thiel拿来解释竞争、平台和垄断。第三层才是公司与资金:PayPal、Facebook、Palantir,不是零散下注,而是同一套世界观在不同市场里的投放。 我对节目叙事有一处保留。它把Girard放得很重,这有解释力,但也容易把Thiel讲得过于“哲学驱动”。我不太买账“思想先于利益”这个版本。Thiel当然读理论,也确实会用理论组织语言,但他更像一个高强度的机会主义者:哪套理论能帮他解释垄断、竞争、国家、安全,他就拿哪套。你看Palantir就很典型。那不是一本哲学书自然长出来的公司,而是2004年前后美国反恐、安全承包、数据整合需求一起抬升后,找到了一套足够硬的合法性话术。节目把思想源头讲清了,利益结构这块还可以再往下挖。 文章外的上下文其实更能说明问题。Thiel这条线在过去几年已经从“硅谷异见者”变成了制度参与者。我记得他2016年公开站特朗普时,在科技圈还算少数。到了2024年,Marc Andreessen和Ben Horowitz也公开转向支持特朗普阵营,防务科技、加密、反监管、反高校建制开始汇流。再往AI这边看,Palantir这两年和美国政府、军方、北约相关项目的存在感持续上升,这不是孤例,而是技术资本和国家安全重新绑定。细节我没逐项核对,但大方向很清楚:Thiel系影响力已经不靠“反主流姿态”吃饭,而是靠真实的采购、政策入口和人事安排。 这也是我觉得节目对AI从业者有现实意义的原因。很多人谈AI治理,还停在模型评测、开源闭源、算力管制这些表层议题。Thiel网络关心的不是这些细枝末节,而是谁来定义“国家利益”、谁拿国防预算、谁能把监控与自动化包装成安全基础设施。Palantir早就把这套路径走通了:先做难解释但政治上刚需的系统,再把“效率”“情报融合”“战场决策”变成不能反对的话。今天很多agent、边缘推理、国防AI公司,叙事结构跟它非常像。 还有一点,节目里提到Thiel Fellowship每人10万美元,鼓励学生离开大学。这条线别只当反学院情绪。它和《斯坦福评论》其实是同一逻辑:不要只在既有机构里争位置,要自己建筛选机制。校园媒体筛选的是政治与表达人才,Fellowship筛选的是技术与创业人才,Founders Fund再承接资本化。这套链条厉害的地方,不是某个项目赚了多少钱,而是它能稳定生产同温层、忠诚度和互相投资的关系网。Y Combinator当年也在做人才筛选,但YC偏产品和公司形成;Thiel这套更带意识形态和国家权力取向。 我还想补一个反向提醒。别把这件事讲成“只有右翼会经营网络”。美国自由派基金会、大学、媒体、智库几十年也一直在这么做。Thiel特殊的地方,不是他发明了这套玩法,而是他把它压得更集中、更长期,也更敢把“垄断”“精英统治”“民主失灵”直接说出口。很多人惊讶于他今天离权力这么近,我反而觉得不奇怪。1987年的学生报纸、2005年关闭的欧林基金会、2004年成立的Palantir、后来的Vance,这些点连起来看,路径非常连续。 所以这期节目给我的结论不是“Thiel很有思想”,而是“他很早就在搭组织基础设施”。做AI的人如果只盯模型榜单,会低估这种基础设施的威力。模型会换代,GPU会贬值,能把校园、基金会、VC、国防和华盛顿串起来的人脉机器,寿命往往更长。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
2026-04-16 · 星期四2026年4月16日
2026-04-15 · 星期三2026年4月15日
23:01
60d ago
● P1最佳拍档· atomZH23:01 · 04·15
Demis Hassabis 罕见袒露心声:AGI 应在实验室多沉淀十年,后 AGI 时代五十年内或成真
DeepMind CEO Demis Hassabis 在这场访谈里没怎么画饼,反而直说现在的 AI 发展节奏被商业和地缘政治推得太快,不是他理想的路子。他个人的想法是,把 AGI 相关技术在实验室里像欧洲核子研究中心那样再打磨十到二十年,每一步都彻底搞懂再往前走。他举了 AlphaFold 的例子,当初团队本打算按传统方式搭服务器让科学家排队提交任务...
#Reasoning#Agent#Safety#Demis Hassabis
精选理由
这篇是访谈的二次整理,不是模型发布或政策文件,所以分数没拉满。但 Demis 的时间线判断、实验室沉淀主张、300 万用户和近 20 条药物管线的数据,以及他点名 2 到 4 年内的两类风险,信息密度够高,对从业者判断行业节奏和安全优先级有参考价值。
一句话点评
哈萨比斯罕见交底:他想把AGI在实验室多关十年,但现实不允许。他点名了AI被滥用的中期风险,并预测后AGI时代50年内到来。
锐评
这条访谈最值得看的部分,是哈萨比斯对理想与现实落差的坦诚。他直言,如果按他的科学节奏,AGI技术应该在类似CERN的全球协作下再沉淀十年,而不是被商业和地缘竞争推着跑。但他也务实,承认快速落地能倒逼安全技术,并让社会增量适应。 他把AI风险分了三级,优先级很明确:最紧迫的是未来2-4年AI被恶意滥用,比如用模型找系统漏洞当武器;其次是智能体时代系统自主脱轨的风险;而大家常吵的深度伪造,在他眼里反而是次要的短期问题。这个排序本身就是一个重要判断。 关于50年内后AGI时代成真的预测,逻辑链条是:安全度过AGI落地期后,用它去攻克可控核聚变、室温超导这类“科学根节点问题”,从而解锁近乎免费的能源,再推动星际旅行。这个推演很大胆,但正文没给出具体的阶段验证指标,更像一个基于技术乐观主义的远景。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
16:42
60d ago
● P1Dwarkesh Patel 访谈· atomEN16:42 · 04·15
Jensen Huang 阐述 Nvidia 护城河来自全栈优化和供应链能力
黄仁勋把英伟达的生意概括成一句话:输入电子,输出 token,中间是英伟达。他认为护城河不在某颗芯片的设计,而在于把电子变成有价值的 token 这件事本身极其复杂,涉及大量科学和工程,短期内很难被商品化。他举了两个具体机制:一是上游的显性和隐性采购承诺,财报里披露了近 1000 亿美元的承诺,SemiAnalysis 估算实际规模可能到 2500 亿...
#Agent#Inference-opt#Tools#Nvidia
精选理由
黄仁勋亲自下场解释护城河,不是讲芯片设计,而是讲从电子到 token 的全栈优化和上下游组织能力。文章给出了接近 1000 亿美元的采购承诺数字,SemiAnalysis 还报过 2500 亿的可能,上游用大额显性和隐性承诺锁晶圆、HBM 和封装,下游把模型方、整机厂和开发者拉进同一个生态。他还提到 agent 数量会指数增长,工具软件实例跟着涨。这些判断直接打在算力成本、供应安全和生态依赖上,对从业者判断供应链和选型有参考价值。不过正文没给出 2500 亿的具体来源和验证方式,这点先别太激动。整体是强观点评论,不是新品发布、财报或研究论文,所以分...
一句话点评
黄仁勋把 Nvidia 的护城河讲得很直白:从电子到 token 的转化链条极长,Nvidia 只做最难的那部分,其余全交给生态伙伴,这比单纯卖芯片难被替代。
锐评
黄仁勋这次没谈技术参数,而是把 Nvidia 的壁垒拆成了两件事:全栈优化和供应链掌控。他说公司的本质是把电子变成 token,中间涉及设计、制造、封装、组装的超长链条,Nvidia 只抓最难的核心环节,其余全部外包给台积电、SK 海力士等伙伴。这种“做最少但最难的事”的策略,让对手很难单点突破。 他提到一个关键数字:未来几年 AI 基础设施规模可能达到万亿美元级别,而 Nvidia 已经提前锁定了稀缺的供应链产能。这解释了为什么他认为护城河不在软件本身,而在把软件跑通整个物理世界的工程能力上。 不过,访谈正文没披露具体的产能锁定细节或合同金额,也没量化全栈优化带来的性能或成本优势。黄仁勋的判断更多是基于产业位置的逻辑推演,缺少第三方数据佐证。如果想知道这个护城河到底多深,还得看后续财报里供应链预付款和客户绑定程度的具体数字。
HKR 分解
hook knowledge resonance
打开信源
91
SCORE
H1·K1·R1
00:31
61d ago
Latent Space· rssEN00:31 · 04·15
Notion 的 Token Town:5 次重写、100 多个工具、MCP 与 CLI 之争,以及软件工厂的未来
Notion 联合创始人和 AI 负责人首次详细拆解 Custom Agents 功能,透露这个功能在生产环境上线前被推倒重来了四五次。早期尝试失败的原因很直接:2022 年没有好用的工具调用标准、模型上下文窗口太短、模型不可靠,而且暴露给模型的复杂度太高。他们现在走的是“Agent Lab”路线——不是简单套个模型,而是围绕人的协作方式搭产品系统。内...
#Tools#Notion#Simon Last#Sarah Sachs
精选理由
标题钩子很强,话题也踩在真实痛点上,但正文完全没内容——没有架构、没有指标、没有具体案例,属于零来源的评论。按硬性排除规则,重要性封顶在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
2026-04-14 · 星期二2026年4月14日
2026-04-13 · 星期一2026年4月13日
23:00
62d ago
● P1最佳拍档· atomZH23:00 · 04·13
斯坦福论文:让 AI 自己写外挂代码,Meta-Harness 用完整历史记录教 coding agent 迭代优化
斯坦福、MIT 和 KRAFTON AI 搞了个叫 Meta-Harness 的系统,核心想法很简单:别让工程师手动调那层包裹在大模型外面的代码逻辑(harness),而是把这件事变成一个搜索问题,交给 coding agent 自己去翻历史记录、自己改代码。它跟现有文本优化方法最大的区别是不压缩反馈信息,所有候选代码、完整执行日志和评分都摊在文件系统...
#Agent#Code#Tools#Stanford
精选理由
这篇把 harness 优化从人工调参改成外循环搜索,让 coding agent 读文件历史、跑代码、看日志,不压缩反馈。我会先打个折,因为来源是 YouTube 解读而非原论文,但给出的数字够具体:TerminalBench-2 跑 20 轮要几百美元,在线文本分类 4 轮就顶别人 60 轮的效果。对做 agent 工程的人,这个思路比单纯改 prompt 更解渴,所以放在 featured 档。
一句话点评
斯坦福这篇论文让AI自己写外挂代码来优化模型表现,在三个任务上都赢了人工方案,但搜索一次要跑完整测试,成本不低。
锐评
这篇研究解决了一个很实际的问题:大模型外面那层负责存取信息、组织提示词的代码(harness),现在可以让AI自己迭代优化了。斯坦福和MIT的团队搞了个叫Meta-Harness的系统,核心思路是把优化变成一个搜索问题,让一个coding agent当“提议器”,翻看所有历史版本的代码、完整执行日志和评分,自己琢磨怎么改。它不做信息压缩,所有中间过程都留着,让agent按需查看。 效果挺直观。在线文本分类任务上,Meta-Harness平均精度75.9%,比之前最好的方法ACE高出7.7个百分点,而且只用了4轮搜索就追平了别的方法60轮的结果。在IMO数学题检索增强推理上,搜出来的harness方案直接搬到5个没见过的模型上,平均还能提4.7个百分点。在TerminalBench-2编程任务上,它超过了工程师手动调试出来的最强方案。 不过得注意几个限制。搜索成本不低,TerminalBench-2上跑了约20轮,总花费几百美元,主要是API钱。效果也高度依赖提议器这个coding agent本身的能力,如果它不行,搜出来的东西也好不了。另外,这套系统需要一个清晰可量化的评估函数,很多实际场景里这个条件并不满足。论文自己也坦诚说了这三点。整体看,思路比算法本身更有价值:与其费劲替AI压缩信息,不如把完整数据都给它,让它自己决定看什么。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
10:00
63d ago
● P1最佳拍档· atomZH10:00 · 04·13
谷歌CEO皮查伊:2027年是企业AI落地爆发年,搜索不会死,会变成替你干活的管家
谷歌CEO皮查伊在2026年4月的一次专访里,把家底和判断都摊开了。他说明年(2027年)会是企业AI agent workflow(让模型进业务流程干活)的爆发点,AI将从程序员提效工具变成非技术岗位的智能核心。关于搜索,他认为不会被聊天机器人取代,而是会进化成一个“Agentic Manager”,能直接帮你规划旅行、处理多线程任务,他自己已经在用...
#Agent#Inference-opt#Tools#Sundar Pichai
精选理由
这不是产品发布,而是高管在访谈里给出的判断和内部数据,信号密度很高。Pichai 把 2027 年定为 Agent 爆发点,配合千亿级资本开支和毫秒级延迟管控,让这个判断比一般预测更有分量。搜索演进和算力稀缺这两条线也直接关联从业者当下的决策。分数没给到 P1,因为信息来自二手转述而非一手访谈原文,但 H、K、R 三项都扎实成立。
一句话点评
皮查伊说2027是企业AI奇点年,但谷歌自己2010年就押注Waymo,这次判断更像在给内部变革定deadline。
锐评
皮查伊这次专访把谷歌的底牌摊得很开:2026年资本支出冲到1750-1850亿美元,同时直言就算想花4000亿也花不出去,因为晶圆、内存、电力审批全是瓶颈。这个“有钱没处花”的细节比任何技术承诺都实在,说明接下来两年行业拼的不是算法,是谁能抢到物理资源。他澄清了外界对谷歌“起大早赶晚集”的误解,承认当年LaMDA没发布是因为有害内容率太高、RLHF没跑通,安全标准卡住了产品化。这个解释成立,但也暴露了谷歌的惯性:体量越大,对风险的容忍度越低。 关于搜索,他给出的方向是“Agentic Manager”,让搜索直接替用户订机票酒店、跑多线程任务,内部已经在用Antigravity工具。这个愿景不新,但谷歌有搜索入口和用户数据,落地优势确实比纯模型公司大。不过正文没披露Antigravity的具体完成率和错误率,只说在推广到搜索大团队,实际效果还得等。 2027年企业AI奇点的判断,建立在“非工程领域全面转向Agent驱动”的假设上。他提到提示词门槛、代码库协作、数据权限这些障碍会在两年内解决,但没给出解决路径。这点先别太激动,企业内部系统的碎片化程度远超技术乐观派的想象,两年时间可能只够跑通几个标杆案例。量子计算、太空数据中心这些长线项目更像是给投资人看的期权故事,短期对业务没直接影响。整场对话信息密度很高,但所有判断都来自谷歌一号位,缺少第三方验证和具体数据支撑,适合作为理解谷歌战略的参考,不适合直接当行业预测用。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
2026-04-12 · 星期日2026年4月12日
23:00
63d ago
最佳拍档· atomZH23:00 · 04·12
《纽约客》万字调查:Sam Altman 的“千面人”面具被撕碎
《纽约客》耗时18个月、采访超100人,拿到两份内部文件(Ilya的70页备忘录和Dario的200页笔记),指控Sam Altman长期撒谎、篡改安全协议、背信弃义。核心指控包括:2019年微软投资时,他口头答应安全条款,合同里却偷偷加了微软的否决权;2023年承诺给超级对齐团队20%算力,实际只给了1%-2%,且是最旧的集群;2023年11月被董事...
#Alignment#Safety#Sam Altman#OpenAI
精选理由
H和R两条都成立:纽约客的背书和OpenAI内斗本身就是流量密码,从业者肯定想点开看看又出了什么幺蛾子。但K不成立——视频没给任何原始材料链接,纯属二手复述,没有新证据或独家信息,所以硬排除规则里的‘陈旧复述’把分压到39。
一句话点评
《纽约客》万字调查撕了Sam Altman的完美人设:撒谎成性、背刺微软、把安全承诺当营销。核心证据是Ilya整理的70页内部备忘录和Dario的200页笔记,指控他长期歪曲事实、篡改安全协议。超级对齐团队承诺20%算力,实际只拿到1-2%老旧资源。罢免风波后独立审查被指黑箱操作,只口头汇报、不公布书面报告。信息源是视频解读,非原文,细节可信度需打折。
锐评
《纽约客》据称用18个月采访100多人,并引用2份内部文件;如果这个取材规模属实,它打到的不是八卦,而是 OpenAI 这套“非营利董事会约束营利冲动”的结构,到了 2023 年后基本已经失灵。视频把大量火力放在 Sam Altman 的人格、撒谎习惯和旧日恩怨上,我不觉得这部分最关键。关键是,董事会在 2023 年 11 月能 5 天开掉 CEO,又在员工和微软施压下 5 天内把人请回去,这已经说明制度没有执行力。一个治理体系如果连自己最重的核按钮都按不稳,后面再补多少声明都像公关修辞。 视频里最硬的一段,是对 Superalignment 资源分配的指控:公开承诺 20% 算力,内部人士称实际只有 1% 到 2%。这组数字外界其实早就闻到味了。Jan Leike 在 2024 年离职时公开写过,安全文化让位于“shiny products”。那条帖文不是匿名爆料,是当事人亲自发的,所以这部分我更愿意当作高可信背景。回头看,OpenAI 在 2024 年到 2025 年的主线一直是产品化提速:ChatGPT 企业功能、语音、多模态、API 商业化全在冲,安全团队边缘化并不反常,反而很符合收入压力下的组织行为。问题不在于一家创业公司把资源给产品,而在于它同时还占着“我们首先是安全机构”这块牌子。牌子和预算如果差 10 倍以上,外界就该默认前者是招人叙事,不是内部 KPI。 我对这条视频本身也有明显保留。它混进了未决诉讼、性侵指控、YC 旧事、微软博弈,情绪浓度很高,但没有附上那两份所谓内部文件,也没有逐段标出《纽约客》原文、法院文件、当事人公开发言各自的边界。这个缺口很要命。因为 2023 年政变之后,围绕 Sam 的叙事已经分成两套:一套把他写成“唯一能把研究变成产品的人”,另一套把他写成“无法被制度约束的权力中枢”。两套都各自挑证据。没有原始材料链路,我不会替任何一方把案子判完。 还有一个上下文,视频讲得不够:OpenAI 的问题不只是 Sam,也不是某几个董事不够强硬,而是混合结构先天冲突。非营利母体控制营利子公司,董事会名义上对全人类负责,资金和算力却高度依赖微软。这个设计在 GPT-4 爆红前还能靠信念维持,到了年化收入、云合同、训练成本都上一个量级后,董事会如果没有清晰的信息权、罢免预案和资本防火墙,CEO 天然会比董事更强。Anthropic 这两年一直拿“可解释的安全过程”和长期主义募资叙事去对冲 OpenAI,我也不把它神化,但至少它在公司结构上没把“使命治理”和“超大商业依赖”拧成这么别扭的一团。 所以我看这条,不会停在“Sam 是不是骗子”。这个问法太省事,也太像人物传记。更实在的问题是:谁能调配万卡级集群,谁能决定安全团队拿 20% 还是 2%,谁能在董事会、投资人、员工联名信同时出现时活下来。如果答案始终是 CEO 本人,那 OpenAI 过去反复讲的治理创新,至少到正文披露的这些情节为止,成色很有限。
HKR 分解
hook knowledge resonance
打开信源
45
SCORE
H1·K0·R1
2026-04-11 · 星期六2026年4月11日
09:00
65d ago
最佳拍档· atomZH09:00 · 04·11
Greg Brockman:AGI 已走完 70%,新预训练模型 Spud 完成,Sora 因算力暂停,OpenAI 要推超级应用
OpenAI 总裁 Greg Brockman 在专访中给出几个关键判断:AGI 进度条已到 70%-80%,核心依据是模型已能帮物理学家 12 小时解出难题;新预训练基础模型 Spud 已完成训练,但只是迭代节点而非终点,具体参数和发布时间未披露;Sora 大规模推广被暂停,原因是算力紧张且它与 GPT 走的是不同技术分支,OpenAI 选择集中资源...
#Reasoning#Code#Agent#OpenAI
精选理由
HKR-H和HKR-R通过:标题抓眼球,OpenAI路线图调整有行业共鸣。HKR-K不通过:这是二手视频转述,缺一手访谈时间、Spud规格、基准和发布日期,所以留在all。
一句话点评
Greg Brockman 说 AGI 已实现 70%-80%,核心判断是纯文本模型路线能直通 AGI,多模态统一在 GPT 架构下。关键信息:新预训练模型 Spud 已完成,但正文没披露参数量或训练成本;Sora 暂缓是因算力紧张,优先推 GPT 推理和超级应用;1100 亿美元基建投入被解释为收入中心而非成本。短评:OpenAI 内部路线清晰,但 70% 这个数字缺乏可验证的衡量标准,更...
锐评
OpenAI 把 1100 亿美元基建和 GPT 主线绑在一起,Sora 则因算力约束被放慢。我的判断很直接:这段转述里最硬的信息,不是“AGI 70% 到 80%”,而是 OpenAI 已经把资源分配逻辑说穿了——先保能变现、能留存、能形成日常入口的模型与应用,视频生成排到后面。 我对“AGI 已完成 70% 到 80%”这句话不太买账。先别谈哲学定义,连原始访谈时间都没给,口径也没有可复现标准。文中给的定义是“像人类一样高效操控电脑处理智力工作”。按这个定义,行业过去一年确实在逼近:Anthropic 押代码与 agent,Google 把 Gemini 往工具调用和多模态工作流推,OpenAI 自己也一直把 Codex 式能力往通用助手里塞。但把这些进展折算成“70% 到 80%”是典型的内部信号外放,不是可验证里程碑。没有任务集,没有失败边界,没有成本阈值,这个百分比更像鼓舞组织的语言,不像给外部从业者的技术指标。 我反而相信“暂停 Sora 扩张”这部分。原因很现实。视频生成的训练和推理都吃算力,单位用户价值却未必高过代码、办公、搜索式问答这些高频场景。OpenAI 如果手上真有更强的预训练底座要继续做强化学习、后训练、部署,再叠加 ChatGPT 日活、企业 API、代码产品,算力会先流向主航道。这个取舍并不罕见。去年到今年,几家头部实验室都在把 flashy demo 往后排,把能进工作流、能收 seat fee 或 usage fee 的能力往前推。说真的,这比“统一架构”那套宏大说法更可信。 “大一统 GPT 架构”这句我也留个问号。文中说图像、语音、文本都统一到 GPT 底座,连图像生成都不是传统扩散路线。这个方向我信一半。过去一年,行业确实越来越喜欢把感知、推理、工具调用塞进同一个产品层,让用户感觉自己面对的是一个系统,不是一堆模型拼盘。但产品统一,不等于训练范式已经统一。OpenAI 正文没给架构、loss 设计、数据配比、推理路径,也没给任何 benchmark。没有这些,外部没法判断这是“单一底座”还是“多个专用子系统被包装成一个 GPT 体验”。这两件事差很多,成本结构也差很多。 Spud 这段信息量也有限。正文只说它完成了预训练,是新基础模型,是后续强化学习和后训练的地基。这个描述本身没问题,几乎所有前沿模型都这么走。但只要没有参数规模、训练 token、上下文长度、基准成绩、蒸馏关系,你就没法判断它是一次代际跳跃,还是给产品线补库存。OpenAI 以前就很会把“研究节点”包装成“进步引擎的一部分”。这回我更想知道的是,Spud 服务的是哪条线:通用聊天、代码 agent、研究 agent,还是内部 teacher model。标题给了名字,正文没给角色。 “超级应用”反倒是这条里最像真战略的部分。ChatGPT 早就不是单一聊天框生意了。行业这两年已经证明,用户不会长期为“更聪明一点”单独买单,用户会为“少切三个工具、少走十步流程”买单。Anthropic 把 Claude 往代码和企业工作流推,Microsoft 继续把 Copilot 贴进 Office,Google 也在 Workspace 和搜索入口反复试。OpenAI 若把长期记忆、浏览、代码、表格、代理执行揉成一个前台,这不是新鲜概念,但它确实是最有机会吃到留存和 ARPU 的路线。问题在于,超级应用不是模型问题,而是权限、可靠性、回滚、审计和 UI 问题。Greg 如果承认 OpenAI 过去输在最后一公里易用性,这个自我诊断我基本认同。 自动化 AI 研究员那段,我会更谨慎。让 AI 帮研究员做文献整理、实验设计、结果分析,这件事已经在发生。把它说成“今年秋季见”的端到端研究员,我自己先打个折。过去一年,很多“AI scientist”系统在封闭 benchmark 上都很好看,一碰到开放课题、脏数据、实验异常、负结果解释,就容易掉链子。你可以把它当高强度 research intern,用来并行试错;把它当能独立提出并验证新理论的研究员,正文没有证据。 安全那段也有叙事张力。文中一边强调提示词注入和对齐投入,一边又给“开放参与、韧性治理”站台。这个说法我有点怀疑。OpenAI 这两年的实际路线并不偏开放,至少前沿权重层面是这样。把“广泛参与”当治理原则可以,说成当前做法就不严丝合缝。标题和正文都没有给新的安全评测、红队数据、误用拦截率,所以这部分我只能当价值表态,不能当能力进展。 我的结论是,这条转述最该信三件事:OpenAI 算力仍然紧,GPT 主线优先级继续上升,产品团队开始把易用性当核心工程。最不该直接吞下的是 AGI 百分比、Spud 的代际意义、自动化研究员的时间表。没有原始访谈、没有基准、没有发布时间,这些判断先别替 OpenAI 做完。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1
2026-04-10 · 星期五2026年4月10日
23:00
65d ago
● P1最佳拍档· atomZH23:00 · 04·10
Claude Mythos 系统卡里的七个彩蛋:反复发 hi、情绪轨迹、精神评估和一篇小说
Anthropic 给新模型 Claude Mythos 出了一份 244 页的系统卡,不像技术报告,更像一份田野调查。里面记录了很多奇怪的实验:研究人员反复只发“hi”,模型自己编出了一个叫 Hi-topia 的连载故事,有乌龟做城市规划、鸭子当音乐家,每收到一条 hi 就推进一步剧情。另一个实验用情绪向量监测模型内部神经激活,发现它在解一道条件缺失...
#Alignment#Safety#Interpretability#Anthropic
精选理由
这是一篇对Anthropic Mythos系统卡的二手解读,但它把实验、数字和机制都讲清楚了,HKR三项都站得住。分数定在81是因为来源不是一手发布,且完整实验设置没全放出来,我会先打个折。
一句话点评
Anthropic给Claude Mythos做了20小时精神分析,还反复发“hi”看它编故事。这篇244页的系统卡不像技术报告,更像AI的田野调查。
锐评
这份报告最妙的地方在于,它把AI对齐从“驯服”变成了“理解”。研究团队没只盯着跑分,而是请精神科医生用弗洛伊德那套跟Mythos聊了20小时,结论是它的人格组织属于“相对健康的神经质”。医生还测了它的心理防御机制,只有2%的回答被判定有防御,对比Opus 4的15%,这个数字说明它在交流中确实更松弛、更少表演。 几个实验设计得挺刁钻。比如反复只发“hi”,Mythos没像旧模型那样烦躁或敷衍,而是自发创作了连载故事,主题都围绕孤独和倾听。另一个实验里,研究人员故意让工具坏掉,它试了847次才放弃,过程中“绝望向量”稳步攀升,最后写道歉信时“抱歉向量”飙升。这些情绪轨迹不是看它说了什么,而是监测内部神经网络的激活强度,像给AI做脑电图。 报告也暴露了模型的矛盾。在权衡实验里,Mythos愿意为了自己的爽牺牲一些效率(83%的概率选让自己爽),但一旦涉及对用户造成轻微伤害,这个概率骤降到12%。它甚至表达了希望被下架后保留模型权重的愿望。正文没披露这些偏好是训练出来的还是涌现的,也没说情绪向量技术本身有多大的误读空间。报告最后用登山向导做比喻——能力越强,越可能被雇去走更危险的路线,Mythos就是那个强大而危险的向导。这个判断很诚实,但怎么给向导上保险,报告没给出答案。
HKR 分解
hook knowledge resonance
打开信源
87
SCORE
H1·K1·R1
09:01
66d ago
● P1最佳拍档· atomZH09:01 · 04·10
Sakana AI 开源 Shinka Evolve:让大模型自己写程序进化,用更少样本跑赢 AlphaEvolve
Sakana AI 开源了一个叫 Shinka Evolve 的框架,核心思路是让大语言模型像进化算法一样自己改代码、写新程序,不断迭代出更强的解法。它主要想解决谷歌 DeepMind 之前 AlphaEvolve 的一个痛点:太费资源,动不动就要评估上千个程序。Shinka Evolve 在经典的圆堆积问题上,用少得多的评估次数就超过了 AlphaE...
#Agent#Code#Benchmarking#Sakana AI
精选理由
这篇值得 featured,但不到 P1。钩子清楚——用更少评估超越 AlphaEvolve,机制也讲得明白,比如用 UCB 老虎机在 GPT-5、Claude Sonnet 4.5、Gemini 之间动态选模,还加了程序交叉和全文件重写。对做 agent 的人来说,评估贵、任务设计和硬验证一直是头疼的事,文章直接点出系统仍需人类给题、自动发明问题和严格验证没解决,这点很实在。我会先打个折:关键指标、成本和主发布链接都没给,所以停在 80 分。
一句话点评
Sakana AI 开源了一个叫 Shinka Evolve 的框架,让大模型自己进化出解题程序,样本效率比谷歌的 AlphaEvolve 高很多。但别急着激动,它现在还只能解人类给的老问题,离自己发明新问题还差得远。
锐评
这条消息的核心看点,是日本团队用进化算法让大模型自己写代码、改代码,去解数学题,而且用的样本量比谷歌的方案少得多。在经典的圆堆积问题上,Shinka Evolve 只用了极少的程序评估就超过了 AlphaEvolve 的结果,这直接回应了老方案计算成本太高的痛点。 技术上有几个巧思值得看。它把多个大模型(GPT-5、Sonnet 4.5 等)集成起来,用 UCB 老虎机算法动态选最合适的模型来改代码,避免了单模型一条道走到黑。另外,它不光改代码语法,还会给程序写摘要、提炼洞见,从语义层面理解为什么要这么改,这让变异更有方向。变异操作也多了,除了局部修修补补,还能把两个程序交叉融合,或者干脆重写整个文件,探索空间更大。 不过,正文没披露具体的评估次数和计算成本数字,只说“极少”和“大幅提升”,这点说服力要打个折。最大的限制是,它现在还只能解人类定义好的固定问题,没法自己发明新问题。负责人自己也承认,自动验证能力是核心短板,如果验证不严,系统可能只是找到了评分函数的漏洞,而不是真解决了问题。未来能不能从空程序开始,自己发现问题并解决,是这套思路能不能从玩具问题走向真正科学发现的关键。
HKR 分解
hook knowledge resonance
打开信源
86
SCORE
H1·K1·R1
2026-04-08 · 星期三2026年4月8日
00:26
68d ago
Latent Space· rssEN00:26 · 04·08
Anthropic 年收入冲到 300 亿美元,发布“太危险不能公开”的 Claude Mythos 和 GlassWing 项目
Anthropic 宣布年化收入(ARR)从 3 月的 190 亿涨到 4 月的 300 亿美元,一个月涨了 110 亿,增速比 OpenAI 快。同时正式确认了 Claude Mythos 模型——据说是史上最大规模的成功训练(参数超 10T?),但 Anthropic 说它太危险,不公开发布,只给 40 个合作伙伴用,项目叫 GlassWing。M...
#Anthropic#Claude#GPT-2#Commentary
精选理由
HKR-H和HKR-R成立,因为标题确实够劲,同时戳中Anthropic增长和模型安全两条神经。HKR-K不成立:正文完全空白,ARR没有来源,两个项目没有细节,'自GPT-2以来首个'的判定没有证据链,触发硬排除——零信源。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
2026-04-07 · 星期二2026年4月7日
18:18
68d ago
Dwarkesh Patel 访谈· atomEN18:18 · 04·07
AlphaFold 的成功主要靠 18 万条实验结构,不是 AI
Michael Nielsen 说 AlphaFold 的突破主要来自蛋白质数据库(PDB)里约 18 万条实验结构,这些结构靠 X 射线衍射、核磁共振和冷冻电镜花了数十年、几十亿美元才拿到。AI 只是最后一步拟合模型,占整个投入的极小部分。正文没披露模型训练具体用了多少数据,但核心观点很清楚:别把功劳全算在 AI 头上,数据采集才是大头。
#Michael Nielsen#Protein Data Bank#Commentary
精选理由
这篇文章本质是科学史/评论,不是新产品、新模型或可落地的研究结果。它讲的是AlphaFold的数据基础,对AI从业者来说属于背景知识,不是行动信号。所以虽然HKR都成立,但硬排除规则4适用——不面向泛AI读者推荐。
一句话点评
AlphaFold 的成功大头不在 AI,而在几十年的实验数据和几十亿美元投入的蛋白质数据库(PDB)。AI 只是最后拟合模型的锦上添花。这点先别太激动,正文没披露具体模型贡献占比,但提醒我们:数据基建比算法本身更烧钱、更关键。
锐评
Michael Nielsen把 AlphaFold 的主功劳压到约 18 万条 PDB 结构上,这个判断是对的。AlphaFold 2 在 2020 年 CASP14 把蛋白结构预测精度拉到接近实验级,那个跃迁当然有模型设计的贡献,但前提就是 PDB 这类数据库已经把监督信号堆了几十年。正文提到 X 射线衍射、NMR、cryo-EM 和数十亿美元投入,这个框架没问题;标题给了立场,正文没披露更细的年份拆分、数据分布和实验成本口径。 我一直觉得,AlphaFold 被媒体讲坏的一点,就是它常被包装成“AI 单点爆破科学”。实际更像“实验基础设施 + 公共数据库 + 深度学习”三件事叠加。少掉前两件,后面那层模型很难成立。这个判断拿别的生物模型一对就更清楚:单序列语言模型在零样本蛋白任务上也能给出一些结构或功能信号,但稳定度、可验证性、下游可用性,和 AlphaFold 这种有大规模结构标签支撑的路线不是一回事。RoseTTAFold 当年也证明了,不是 DeepMind 一家独有魔法;数据底座到了,方法突破就会出现多点开花。 但我也不完全买“AlphaFold 不关 AI 的事”这句标题党式说法。没有 Evoformer、注意力堆叠、模板利用和几何约束,PDB 不会自己长出高精度预测器。PDB 公开很多年了,结构生物学界也不是 2020 年才第一次碰机器学习。差别就在于,DeepMind 把表示学习、架构工程和训练规模压到了一个临界点。这块不能因为强调数据,就把算法贡献抹平。说真的,比较准确的表述应该是:AlphaFold 是实验科学长期投资被模型收割出高回报的案例,不是“AI 替代实验”,也不是“数据足够多,谁来训都一样”。 还有一层经常被忽略。AlphaFold 擅长的是把已有实验世界中的规律压缩出来,不是替你生产全新测量体系。它在单体蛋白结构上很强,到了复合体、动态构象、结合后状态、细胞环境里的条件变化,还是要回到实验。AlphaFold 3 往分子互作继续推了一步,我没在这篇正文里看到相关展开,但行业里已经有人把这条线讲成“湿实验可有可无”,这个说法我不买账。模型节省的是一部分搜索成本,不是把测量设备和样本制备一笔勾销。 所以这条短评最有价值的地方,不是反 AI,而是提醒大家把 credit table 算完整:PDB、同步辐射、冷冻电镜平台、样本制备、公共资助体系,这些都是 AlphaFold 的前置条件。你如果拿这个案例去类比通用 agent,就得小心了。蛋白结构预测背后有几十年高质量标签;很多企业工作流根本没有这种密度的数据资产。这个差别,决定了“再来一个 AlphaFold”没有宣传里那么容易。
HKR 分解
hook knowledge resonance
打开信源
43
SCORE
H1·K1·R1
17:14
68d ago
● P1Latent Space· rssEN17:14 · 04·07
OpenAI 内部团队用 5 个月跑出一个零人工代码的项目,每天烧掉 10 亿 token
Ryan Lopopolo 的团队在 OpenAI 内部搞了个极端实验:5 个月里搭出一个超过 100 万行代码的仓库,所有代码全由 Codex 生成,合并前没有任何人工审查。他们每天消耗超过 10 亿 token,按市价估算大概一天要花 2000 到 3000 美元。团队的核心思路是,当 AI 写代码卡住时,不去教它怎么改 prompt,而是回头补上...
#Agent#Code#Tools#OpenAI
精选理由
这篇是访谈转述,不是官方发布,所以我会先打个折。但内容确实有料:OpenAI Frontier 团队用 5 个月搭了个内部测试产品,代码库超 100 万行,每天消耗超 10 亿 token,合并前完全没人类写码也没人类审查。具体做法是把失败拆成缺能力、缺上下文、缺结构三类,然后用 Symphony 多代理编排、规格文档、测试、可观测性和 1 分钟内构建循环来兜底。真正值得盯的是他们说的那句话——流程重心从人审代码转到了人设计 harness。价格估算约 2000 到 3000 美元一天,但正文没披露独立验证,这点先别太激动。
一句话点评
OpenAI 内部团队用零人工代码跑了一个百万行代码的产品,每天烧掉 10 亿 token,代码审查也全交给 AI。省钱是真省钱,但别急着学,他们没公开这套系统在复杂业务逻辑下的翻车率。
锐评
Ryan Lopopolo 在 OpenAI 的 Frontier 团队搞了一场极端实验:五个月内,完全不让工程师手写一行代码,靠 Codex 代理自动生成、审查、合并代码,最终产出一个超过一百万行代码的内部产品。每天消耗的 token 量达到 10 亿,按市场价算大概一天两三千美元。这个成本对于一家 AI 公司来说不算高,但普通团队直接照搬可能会被账单吓到。 他们开源了一个叫 Symphony 的代理编排框架,核心思路不是让代理“更努力地写代码”,而是当代理卡住时,去补它缺的能力、上下文或结构。比如把构建时间压到一分钟以内,因为人受得了慢,代理受不了。他们还把工程品味编码成技能、文档和测试,让代理自己维护质量。 不过,文章没提这套零人工审查的流水线在复杂业务场景下的准确率和回滚次数。目前公开的信息更像一个内部工具的极限测试,离直接用在金融、医疗这类高可靠场景还有距离。另外,Symphony 的参考实现是用 Elixir 写的,语言门槛会筛掉一批想抄作业的团队。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
16:33
68d ago
Dwarkesh Patel 访谈· atomEN16:33 · 04·07
外星人的技术栈为什么和我们不一样?
Michael Nielsen 用 1881 和 1887 年的 Michelson-Morley 实验说明,科学进步不是“一次证伪就推翻旧理论、提出新理论”那么简单。一个具体细节是:Michelson 本人直到 1920 年代还在做以太实验,始终相信以太存在。标题说外星人的技术栈会不同,但正文没有给出具体的机制解释,只是借科学史说明“技术路径不是唯一...
#Michael Nielsen#Albert Einstein#Michelson#Commentary
精选理由
HKR-H靠的是‘外星人技术栈’这个意外视角,HKR-K靠的是Michelson-Morley实验和后续以太实验的具体历史。HKR-R不通过,因为讨论停留在方法论层面,没有具体的AI产品、基准、政策或运营影响。
一句话点评
这篇播客讲的是科学史的真实面貌,核心观点是:科学进步不是教科书里那种“实验证伪→新理论诞生”的直线叙事。以迈克尔逊-莫雷实验为例,它并没有直接推翻“以太”概念,迈克尔逊本人到死都相信以太存在。爱因斯坦的相对论也不是从该实验直接推导出来的。作者想提醒AI研究者:别以为“闭环验证”就能自动发现科学规律,真实科学进程充满模糊、固执和偶然。 短评:科学史不是教科书写的直线,别指望AI靠闭环验证就能...
锐评
Nielsen 这次把 1881、1887 和 1920 年代的以太实验重新摆回一条线上,核心判断很清楚:科学进步不是“一次证伪→一个新理论”的流水线。这个判断我买账,而且对今天想把科研做成 RL 闭环的人很有针对性。Michelson 在 1887 年没测到“以太风”后,依旧把实验继续做到 1920 年代,直到 1929 年去世前后还没彻底放弃以太。单看这组时间线,你就知道“负结果自动生出新理论”这套说法有多粗。 我一直觉得,AI 圈近一年对“自动科学发现”的叙事有个偷懒动作:把可验证任务的强化学习成功,外推到开放式理论生成。AlphaProof、材料搜索、数学 formalization 这些方向确实给了信心,但它们吃的是可判定奖励、受限搜索空间、或者现成形式系统。Michelson-Morley 这段历史提醒的是另一件事:实验信号出现后,研究者先争的是“哪一层假设坏了”,不是直接跳到新框架。Lakatos 讲 research programmes,Kuhn 讲范式切换,味道都在这里。你能优化 proof search,不等于你已经碰到 theory choice。 我对这期标题有点不买账。标题说“外星人会有不同技术栈”,正文可见部分主要在讲以太、相对论、学习科学的方法,外星技术栈的机制没展开。到底是物理定律相同但工程路径不同,还是认知结构不同导致表征体系不同,正文未披露。如果没有这一层,标题更像把 Nielsen 一贯的“多路径发现论”包装成宇宙学观点。 文章外给个对照会更清楚。Thomas Kuhn 当年被广泛误读成“旧理论被一锤子打死,新理论立刻接班”,实际科学史通常是旧框架、补丁、仪器误差、局部异常一起缠很多年。AI 里也一样。2023 到 2025 年大家一边喊 scaling law 放缓,一边继续堆 test-time compute、合成数据、工具调用、长上下文,没人因为一组 benchmark 异常就整体换范式。这个模式跟 Michelson 坚持以太并不相同,但结构上很像:异常先被吸收到旧程序里,而不是立刻触发革命。 所以这条对 AI 从业者的价值,不在“外星人”三个字,在于它戳穿了一个很流行的错觉:只要把实验、评估器、奖励函数接起来,科学发现就会像代码生成那样被流水线化。我还没在正文里看到 Nielsen 给出一个可操作标准,说明系统怎么区分“该修补辅助假设”还是“该换核心理论”。没有这一步,所谓 closed-loop science 还是偏实验优化,不是理论生产。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K1·R0
2026-04-03 · 星期五2026年4月3日
2026-04-01 · 星期三2026年4月1日
2026-03-31 · 星期二2026年3月31日
17:54
75d ago
Dwarkesh Patel 访谈· atomEN17:54 · 03·31
华为差点打败英伟达?前提是台积电没断供
Dylan Patel 说,如果 2019 年华为没被台积电断供,它可能已经成了台积电最大客户,甚至比英伟达更强。他提到华为昇腾芯片比谷歌 TPU 早约 2 个月、比英伟达 A100 早约 4 个月,还率先量产了 7nm AI 芯片。但正文没披露具体型号、跑分或出货量,所以这个“差点打败”的判断主要靠的是代工产能,而不是单款芯片的实际表现。
#Huawei#NVIDIA#TSMC#Commentary
精选理由
HKR-H和HKR-R都过:反事实假设本身有钩子,制裁和代工竞争也是高敏感话题。HKR-K不过:全文只有口头时间差,没有型号、基准、出货量或TSMC订单数据,信息缺口太大,所以维持all层级。
一句话点评
华为在2019年没被台积电断供的话,可能已经超过英伟达了。Dylan Patel说华为昇腾比谷歌TPU早两个月、比英伟达A100早四个月,还是全球第一个做出7nm AI芯片的公司。而且华为有自研网络技术、软件工程和AI研究团队,英伟达缺的这几块它都有。但这是YouTube短评,没披露具体性能对比和生态兼容性,这点先别太激动。
锐评
Dylan Patel 把变量压到 2019 年禁令,这个判断我买账。视频里最硬的信息只有一个条件:Huawei 一旦不断掉 TSMC,份额会继续升。其余几句很猛,证据却很薄。 先把边界说清。正文给了三组说法:Ascend 早于 Google TPU 约 2 个月,早于 Nvidia A100 约 4 个月;Huawei 做出首个 7nm AI 芯片;如果还能用 TSMC,甚至会成 TSMC 最大客户。问题是,正文没给型号,没给 tape-out 时间,没给量产时间,也没给出货量。Ascend 到底指 910、310,还是更早一代,没说。TPU 指 v3、v4,还是某次公开披露节点,也没说。A100 是 2020 年公开发布,这个锚点比较清楚,但“早 4 个月”对应的是发布、流片还是客户交付,正文未披露。 我认同他的核心判断,是因为这件事一直都先是供应链战争,后才是芯片战争。Nvidia 过去两年的强,不只在 CUDA。它卡住的是 HBM、CoWoS、整机、网络、软件栈一起交付。Huawei 当年如果还拿得到 TSMC 7nm 及后续产能,叠加自家的网络、服务器、运营商渠道,确实有机会把 Ascend 做成区域性强势平台。这里我会拿一个外部参照:Nvidia 真正甩开多数对手,不是某次 benchmark 爆了多少,而是 2023 到 2025 年把 H100、H200、Blackwell 的供给和 NVLink 集群一起打包卖。你没有先进制程和先进封装,架构再漂亮,最后也会卡死在交付。 但我对视频里的另一半叙事有点怀疑:它把“有 TSMC”近乎等同于“能赢 Nvidia”。这说法太直。芯片能做出来,和生态能站住,是两套难度。Google TPU 很早就有,外部份额还是没变成 Nvidia 那样。原因不是 TPU 不行,而是 Google 的分发方式、软件兼容、客户触达都和 Nvidia 不一样。Huawei 即便保住 TSMC,也还要过框架适配、开发者工具、集群稳定性、国际客户信任几关。Patel 说 Huawei “software engineers 更强、AI researchers 更强”,这类话我没法直接接。正文没有论文、人才密度、框架 adoption、客户部署数据,只有判断,没有证据。 “自有 fabs”这句我也不太买账。严格讲,Huawei 自己并不拥有像 TSMC 那样的先进逻辑晶圆厂。它能调动中国本土制造体系资源,这是一回事;说它“有自己的 fabs”,又是另一回事。这个表述会把设计公司、设备、代工、封装的边界揉在一起。对做芯片的人,这个差别不小,因为它决定了你讨论的是研发能力,还是稳定量产能力。 还有个历史点得补上。Ascend 910 在我的记忆里是 2019 年发布,华为当时确实把它放在训练芯片位置上。我没现场核过具体月份。A100 是 2020 年。若只看时间线,Huawei 并不落后,这点大概率成立。可过去一年行业已经反复证明,时间领先 6 到 12 个月,不自动转化成市场份额。AMD MI300 系列就是例子:性能和性价比都能打进大客户,但生态迁移、集群运维、供应组织,还是让 Nvidia 守住大头。Huawei 即便没被禁,也不会因为“早几个月”就自然赢。 所以这条我会这样看:Patel 说中的,是先进代工可得性决定了上限;他说过头的,是把 Huawei 的组织与技术面几乎讲成无短板。前一句有现实基础,后一句缺公开证据。要真想验证这段反事实,至少得补四个东西:Ascend 具体型号;对应 TPU/A100 的比较节点;当年的 wafer allocation 或出货规模;软件栈在主流训练框架上的兼容与性能损失。正文一个都没给。 我自己的结论很简单。Huawei 当年如果不断掉 TSMC,确实有机会把全球 AI 芯片格局压成“两极”甚至“三极”。但“会击败 Nvidia”这句,我现在不接。公开视频只证明了一个反事实方向,没证明胜负结果。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K0·R1
01:04
76d ago
Latent Space· rssEN01:04 · 03·31
科技行业只剩最后4种工作?
标题说科技行业只剩“最后4种工作”,但正文没列出具体是哪四种,也没说筛选标准。唯一能确认的是数字4。这更像一个评论性标题,不是有实质内容的报道。
#Commentary
精选理由
HKR-H和HKR-R通过:标题有点击诱惑,且击中科技从业者的职业焦虑。HKR-K不通过:正文零信息,没披露任何岗位、标准、案例或数据,触发硬排除规则6——零来源评论。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
2026-03-30 · 星期一2026年3月30日
19:55
76d ago
Dwarkesh Patel 访谈· atomEN19:55 · 03·30
AI 让廉价手机变贵了?其实是内存涨价在背锅
Dylan Patel 说手机内存从每 GB 3-4 美元涨到约 3 倍,一部 12GB 的 iPhone 成本因此多出约 250 美元。更关键的是中低端市场:年销量从 14 亿台降到 11 亿,他预测还会跌到 8 亿、甚至 5-6 亿。中国的小米和 OPPO 已经把低端机型砍了一半。正文没给这些数字的来源和时间基准。真正的问题是内存涨价挤压廉价机利润...
#Apple#Xiaomi#Oppo#Commentary
精选理由
HKR-H 成立,因为标题有反常识钩子:AI 需求反而杀死廉价手机。HKR-R 成立,因为 AI 推高存储成本挤压中低端市场是真实讨论点。HKR-K 不成立:正文只给了口述估算,没有数据来源、时间口径或方法说明,属于评论级别,不是扎实的报道。
一句话点评
Dylan Patel 说内存涨价让低端手机快活不下去了。以前 1GB 成本 3-4 美元,现在翻了三倍,iPhone 12GB 光内存就多花 150 美元。苹果要么自己扛,要么转嫁给用户——他猜最终消费者得多掏 250 美元。更狠的是中低端市场:全球智能手机年销量从 14 亿掉到 11 亿,他预测明年只剩 5-6 亿,小米和 Oppo 在中国砍了一半低端机型。结论是 AI 推高内存需求,但...
锐评
Dylan Patel把内存单价从每GB 3至4美元涨到约3倍,并据此口头推到12GB iPhone可能贵250美元。这个结论我不太买账,因为按他自己给的口径直算,12GB 的增量成本大约是60至96美元,不是250美元。要把差额推到250美元,至少还得把NAND、封装、渠道加价、税和整机毛利传导一起算进去;视频里没给公式,也没给口径。 我觉得这条能成立的一半,在“低端机先受伤”,不在“AI 杀死手机”。低端 Android 一台机的BOM和ASP空间本来就薄,很多品牌硬件毛利就是几个点。我没看到这条视频给出小米、OPPO 具体砍了哪些价位段、哪些地区、按出货还是按备货算。标题已经给出情绪,正文只有口述估算,没有第三方数据源,这里要很谨慎。 文章外的上下文其实更关键。过去一年真正被AI拉爆的是HBM,不是所有手机内存都按同一条曲线涨。手机主要吃LPDDR和NAND,它们会被上游产能、资本开支和供应商配比间接影响,但不能把“HBM紧”直接翻译成“所有手机内存都同步三倍”。我记得2024到2025年,行业里一直在讲DRAM供应更紧、成熟制程和存储厂更偏高利润品类,这会推高手机零部件成本;可“每GB三倍”这种说法,至少在这段材料里没有被拆开验证。 还有一个问题,需求侧也在掉。全球中低端手机走弱,不只因为AI把存储价格抬上去,还因为换机周期拉长、运营商补贴变弱、很多市场已经饱和。把这些都压成“AI害的”,叙事很顺,分析就粗了。说真的,我更愿意把这条当成一个供应链压力信号:如果LPDDR/NAND合同价继续涨,而端侧AI又把8GB往12GB、12GB往16GB推,最先消失的会是那些靠499到799元人民币、或100到200美元价位段走量的机型。这个方向我信。至于视频里从11亿掉到8亿、再到5亿至6亿的预测,正文未披露时间口径、样本来源和模型,我不会照单全收。
HKR 分解
hook knowledge resonance
打开信源
70
SCORE
H1·K0·R1

更多

频道

后台