ax@ax-radar:~/podcasts/latent-space $ ls -t podcasts/
41 srcsignal 72%cycle 04:32

播客·视频

50 episodes · updated 3m ago
6 个频道在监控
筛选精选全部含低分剧集
Latent Space50
2026-06-12 · 星期五2026年6月12日
05:34
3d ago
Latent Space· rssEN05:34 · 06·12
别再当人肉提示词了,把 AI 循环叠起来让它自己跑
Peter Steinberger、Boris Cherny 和 Andrej Karpathy 最近都指向同一个结论:人就是瓶颈,别再做那个在循环里手动发指令的角色了。Karpathy 在聊 Autoresearch 时说,要把所有环节重构到按一次“开始”就能全自动运行的程度,目标是提高你的杠杆率,而不是卡在中间看结果。文章把这个思路叫“叠循环”,并...
#Agent#Code#Anthropic#Claude Fable 5
精选理由
把"人别当瓶颈"这类散装观点打包成"叠循环",对已经在用 coding agent 的人有实操参考价值。但原文是付费 newsletter 的二次消化,不是一手发布或产品更新,信号偏软,够不上 featured。
一句话点评
Karpathy 和几位工程师最近都在说同一件事:别再做那个在循环里手动发指令的人了,你就是瓶颈。他们管这叫“叠循环”——把写提示词、跑代码、看结果这些步骤串起来,按一次开始就全自动跑完。文章给了两张图,画的就是我们已经在用的循环。核心教训很直白:别自己上手修东西,去搭目标和调度系统,让更多 agent 替你干活。 同一天,Anthropic 悄悄给 Claude Fable 5 降了智,...
HKR 分解
hook knowledge resonance
打开信源
72
SCORE
H1·K1·R0
2026-06-11 · 星期四2026年6月11日
2026-06-06 · 星期六2026年6月6日
04:34
9d ago
Latent Space· rssEN04:34 · 06·06
今天AI圈没啥大事,但Anthropic的Claude Mythos和Sakana的RSI实验室是两条值得看的线
Anthropic的Claude Mythos被不少用户夸“next level”,尤其是一步搞定桌面和MacOS工作流,但Opus 4.8在LLM辩论基准上被说不如4.7,有人质疑benchmark在退步。另一边,Opus 4.7在化学任务上能跟专业NMR软件打平,Anthropic说“让Claude当化学家”。Sakana AI在东京开了个RSI实...
#Agent#Benchmarking#Inference-opt#Anthropic
精选理由
这是Latent Space的每日汇总;HKR-K来自来源范围和覆盖度。标题表明没有强事件,且未披露模型规格、基准结果或机制,因此属于填充性汇总。
一句话点评
Claude Mythos 被夸“next level”,但 Opus 4.8 在辩论基准上不如 4.7,benchmark 本身可能也在退步。Sakana AI 在东京开了个 RSI 实验室,把“AI 自己改进自己”从口号变成了正式项目,强调样本效率而非堆算力。Agent 评测也在变难:Agents' Last Exam 最难任务通过率仅 2.6%,SWE-Marathon 要求模型在 1...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R0
2026-06-05 · 星期五2026年6月5日
06:44
10d ago
Latent Space· rssEN06:44 · 06·05
NVIDIA发布Nemotron 3 Ultra及多项AI动态更新
NVIDIA 正式开源 Nemotron 3 Ultra,550B 参数的 MoE 模型(实际激活 55B),支持 100 万 token 上下文,专门为长时间跑 agent 任务优化。官方说比之前快 5 倍、成本低 30%,在第三方测试里输出速度超过 400 token/秒,是目前美国开源模型里最强的,但还打不过 Kimi K2.6。模型用 NVFP...
#Agent#Memory#Benchmarking#NVIDIA
精选理由
这是一条有用的 AI 日报汇总,符合 HKR-K,但 HKR-H 和 HKR-R 被多条信息削弱。按汇总/填充内容指引,归入低价值 all 层级,不做硬排除。
一句话点评
NVIDIA 开源了 Nemotron 3 Ultra,550B 参数 MoE(实际激活 55B),支持 100 万 token 上下文,专为长时间 agent 任务优化。官方称比之前快 5 倍、成本低 30%,第三方测试输出速度超 400 token/秒,是目前美国最强开源模型,但还打不过 Kimi K2.6。模型用 NVFP4 低精度训练了 20T tokens,这点先别太激动——低精度...
HKR 分解
hook knowledge resonance
打开信源
64
SCORE
H0·K1·R0
2026-06-04 · 星期四2026年6月4日
03:24
11d ago
Latent Space· rssEN03:24 · 06·04
Reve 2 和 Ideogram 4 都强调布局能力,图像生成进入“指哪打哪”阶段
Latent Space 总结了 6 月 2-3 日的 AI 新闻,翻了 12 个 subreddit 和 544 个 Twitter 账号。核心看点:微软开源了 MAI-Thinking-1 的技术报告,AIME 2025 上拿了 97%,SWE-Bench Pro 上 53%,而且明确说没用第三方蒸馏和合成数据,全靠后训练硬学出来的。报告有 109...
#Multimodal#Reasoning#Agent#Latent Space
精选理由
这是一篇日报,把好几条新闻打包在一起,不是单一权威发布或一手实测。有具体数字和开放权重信号,所以放在 upper all 档。
一句话点评
微软开源了 MAI-Thinking-1 技术报告,109 页,AIME 2025 上 97%,SWE-Bench Pro 上 53%,盲测赢了 Sonnet 4.6。关键卖点:没用第三方蒸馏和合成数据,全靠后训练硬学出来的。这点先别太激动——报告没披露训练算力成本和推理效率,只说“从零爬山”,实际部署成本未知。另外,Ideogram 4.0 开源了,用 bounding box 教模型理解...
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-06-03 · 星期三2026年6月3日
2026-06-02 · 星期二2026年6月2日
2026-06-01 · 星期一2026年6月1日
2026-05-30 · 星期六2026年5月30日
01:57
16d ago
Latent Space· rssEN01:57 · 05·30
Claude 4.8 小步更新,多轮 RL 训练有个隐蔽 bug,开源模型追上闭源只差四个月
Latent Space 这期 AI 新闻覆盖了 5 月 28-29 日的内容。Claude Opus 4.8 上线后评测反馈不一:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthro...
#Agent#Code#Benchmarking#Latent Space
精选理由
HKR-K 通过,因为汇总明确交代了来源范围和覆盖板块。HKR-H 和 HKR-R 不通过:没有单一新闻事件、可验证的论断或足够强的从业者痛点来支撑精选。
一句话点评
Claude Opus 4.8 上线后评测分化:多个独立测试认为提升“有但不大”,比如 CursorBench 显示效率更高但效果略差于 4.7,文档解析在表格/布局上有小进步但内容忠实度反而退步。好消息是 4.8 在编程时没那么“过度自主”,更愿意配合人。Anthropic 还支持了对话中途改系统指令且不破坏缓存,对长会话省钱有用。但价格仍是硬伤——有开发者因为 API 太贵而倾向 GPT...
HKR 分解
hook knowledge resonance
打开信源
58
SCORE
H0·K1·R0
2026-05-28 · 星期四2026年5月28日
2026-05-27 · 星期三2026年5月27日
2026-05-23 · 星期六2026年5月23日
04:21
23d ago
Latent Space· rssEN04:21 · 05·23
模型厂都在转型做 Agent 了:OpenAI、AI21、DeepSeek 集体转向
Latent Space 汇总了 5 月 4-5 日的 AI 新闻,翻遍 12 个 Reddit 板块和 544 个 Twitter 账号后得出一个判断:OpenAI、AI21、DeepSeek 这些模型公司正在把产品重心从“卖模型”转向“卖 Agent”——也就是把模型装进业务流程、UI、记忆和成本结构里一起卖。OpenAI 的 Greg 直接说“模...
#Agent#Tools#Code#Latent Space
精选理由
这是一篇Latent Space的新闻汇总,核心论点是模型团队都在转向智能体、工具链和UI,而非发布重大新模型或论文。论据有具体来源和案例,但本质是行业观察综述,不是一手发布。重要性68分合理,属于“值得看但别当重磅”的档次。
一句话点评
OpenAI、AI21、DeepSeek 等模型公司集体转向卖 Agent——把模型装进业务流程、UI、记忆和成本结构里一起卖。Greg 直言“模型不再是产品”,AI21 甚至裁掉模型团队。DeepSeek 首次组建“Harness 团队”。但正文没披露这些 Agent 产品的实际效果或用户数据,判断主要来自高管发言和团队调整,验证还弱。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-05-22 · 星期五2026年5月22日
2026-05-21 · 星期四2026年5月21日
2026-05-20 · 星期三2026年5月20日
2026-05-19 · 星期二2026年5月19日
2026-05-18 · 星期一2026年5月18日
2026-05-15 · 星期五2026年5月15日
00:30
31d ago
Latent Space· rssEN00:30 · 05·15
AI 新闻:万物皆可 Conductor
本期 Latent Space 的 AI 新闻汇总了 5 月 13-14 日的信息,核心趋势是编码工具都在向“代理优先”的交互形态靠拢。GitHub 发布了 Copilot App 的技术预览,界面和 Conductor 很像——后者是 YC 创始人 Garry Tan 公开称赞过的产品,他认为 Conductor 比 Claude Code 更稳定、...
#Agent#Code#Robotics#Latent Space
精选理由
这是Latent Space的日常汇总,有实用线索但主要是聚合整理;HKR里K和R过关,H偏弱,所以落在40–59的填坑/老调重弹区间。
一句话点评
GitHub Copilot App 预览版界面直接抄了 Conductor 的作业——后者是 YC 老板 Garry Tan 公开说比 Claude Code 更稳的产品。OpenAI 同时让 Codex 能在手机 App 里遥控笔记本跑任务,远程 SSH 也全量开放。趋势很清楚:编码工具都在往“代理优先”的交互形态挤。但 Conductor 作为形态开创者,怎么在被巨头抄走之后赚钱,正文...
HKR 分解
hook knowledge resonance
打开信源
55
SCORE
H0·K1·R1
2026-05-14 · 星期四2026年5月14日
2026-05-13 · 星期三2026年5月13日
02:47
33d ago
Latent Space· rssEN02:47 · 05·13
微调要凉了?OpenAI 停掉微调 API,Latent Space 说这是趋势
OpenAI 停掉了微调 API,Latent Space 把这当作头条。文章说,虽然头部玩家(Cursor、Cognition)反而在加大开源模型的强化微调,但对大多数 AI 工程团队来说,微调已经不是主流。替代方案包括超长提示词(比如 Claude 的 Constitution)和推理时计算。正文没披露 OpenAI 停 API 的具体原因,但暗示...
#Fine-tuning#Benchmarking#Inference-opt#OpenAI
精选理由
HKR三项都成立:OpenAI微调API废弃对从业者确实有实际影响,12/544的源范围也提供了上下文。但分数卡在60-71是因为这是一份日报汇总,正文没披露被废弃的API具体叫什么、迁移截止日期是什么、替代方案是什么,信息缺口明显,不能给更高分。
一句话点评
OpenAI 停掉微调 API,Latent Space 直接说“微调已死”。但头部玩家 Cursor、Cognition 反而在加大开源模型的强化微调,所以“死”的是大众市场,不是全部。替代方案是超长提示词(比如 Claude 的 Constitution)和推理时计算。正文没披露 OpenAI 停 API 的具体原因,只暗示 GPU 紧缺或用户已转向。对多数 AI 工程团队来说,微调确实...
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
2026-05-12 · 星期二2026年5月12日
04:33
34d ago
● P1Latent Space· rssEN04:33 · 05·12
Thinking Machines 发布原生交互模型:2760 亿参数,120 亿激活,实时语音不再靠外挂
Thinking Machines 终于又冒泡了,这次直接扔了个新模型 TML-Interaction-Small。总参数 2760 亿,是个 MoE 架构,实际干活时只激活 120 亿参数。它最狠的地方是把实时语音交互做进了模型骨子里,不再像以前那样给大语言模型外挂语音识别和合成模块。模型能同时听、说、看、想,用 200 毫秒一个的“微对话轮次”连续...
#Multimodal#Audio#Agent#Thinking Machines
精选理由
我会先打个折——基准分是 Thinking Machines 自己跑的,还没第三方复现,所以“超过 GPT 和 Gemini”先别太激动。但这条消息值得推,因为它给出了具体架构(276B MoE、12B 激活)、200ms 微轮次这个硬指标,还直接挑战了语音 agent 里常用的 VAD 方案。对正在搭实时语音管线的从业者来说,哪怕只是思路参考也有价值。
一句话点评
Thinking Machines 扔了个实时语音模型,把听、说、看、想全塞进一个模型里,不再外挂语音识别和合成,200 毫秒一轮对话,演示效果很自然,但正文没提实际延迟和可用性。
锐评
这条新闻最值得看的是架构思路:TML-Interaction-Small 总参数 2760 亿,但实际干活只激活 120 亿,用 MoE 把成本压下来。它把音频和图像直接喂给模型,不经过单独的编码器,端到端延迟控制在 200 毫秒以内,这比传统“语音转文字→大模型→文字转语音”的流水线快得多,也更像人和人聊天。 团队自己做了几个新基准来测“时机感”,比如能不能在用户指定的时间点开口、能不能在视频里动作发生的瞬间给出反馈。这些指标比跑分更有参考价值,因为实时交互的难点不是回答对不对,而是开口的时机对不对。 不过正文没披露这个模型实际跑在什么硬件上、单次推理成本多少、有没有开源计划。演示视频很流畅,但真实网络环境和嘈杂场景下的表现还是未知数。另外,2760 亿参数即使只激活 120 亿,部署门槛也不低,小团队想用上可能还得等。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-05-09 · 星期六2026年5月9日
2026-05-05 · 星期二2026年5月5日
2026-05-04 · 星期一2026年5月4日
23:29
41d ago
Latent Space· rssEN23:29 · 05·04
Claude 是“另一个存在”,GPT 是工具:AI 人格分裂的 2026 版
Latent Space 总结了 5 月 1-4 日的 AI 新闻,核心讨论是 OpenAI 员工 Roon 提出的观点:Claude 被用户当作有道德判断的“另一个存在”,而 GPT 更像一把没有灵魂的实用工具,用户不会担心被它评判。这延续了之前“Clippy vs Anton”的路线之争。另外,Sierra 以 150 亿美元估值融资约 10 亿美...
#Agent#Code#Benchmarking#Latent Space
精选理由
这是一篇 curated roundup,不是模型发布、产品上线或融资官宣,更像行业观察和观点整理。HKR 三个维度都够,但属于“值得看”而非“必须看”,所以落在 60–71 区间,不给 featured。
一句话点评
OpenAI员工Roon公开夸Claude有道德人格,用户怕被它评判,反而把GPT当没灵魂的工具随便用。这个观察挺准,但正文没给用户调研数据,全靠推特截图撑。Sierra以150亿美元估值融了约10亿,ARR大概2亿,75倍PS——估值不低,但客户是客服场景,跟模型人格化讨论关系不大。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
2026-05-02 · 星期六2026年5月2日
07:21
44d ago
Latent Space· rssEN07:21 · 05·02
AI工程师世界博览会开放第二轮演讲申请,新增自主研究、记忆、世界模型等六个专场
AI Engineer World's Fair 今年夏天搬到旧金山 Moscone West,规模连续第三年翻倍,月活已超 100 万 AI 工程师。第二轮演讲申请新增六个专场:自主研究(让模型自己改进训练流程)、记忆(智能体怎么在用户使用中变聪明)、世界模型(空间推理和对抗推理)、Tokenmaxxing(怎么让团队用 AI 更高效又不浪费 tok...
#Agent#Memory#Robotics#AI Engineer
精选理由
这是一条会议征稿和议题框架新闻,不是模型、产品或研究发布。六个新轨道(Autoresearch、Memory、World Models、Tokenmaxxing、Agentic Commerce、Vertical AI)和月活 100 万读者、Moscone West 第三年扩容这些数字让它在 all 层级有信息价值,但不足以进 featured。
一句话点评
AI Engineer 大会今年搬到旧金山 Moscone West,规模连续第三年翻倍,月活超 100 万 AI 工程师。新增六个专场,包括自主研究、记忆、世界模型等,演讲申请已开放。
锐评
这届 AI Engineer World's Fair 最值得关注的是新增的六个专场,基本把今年 AI 工程的热点全包了:Autoresearch(让模型自己改进训练流程)、Memory(智能体怎么在用户使用中变聪明)、World Models(空间推理和对抗推理)、Tokenmaxxing(怎么让团队用 AI 更高效又不浪费 token)、Agentic Commerce(智能体之间怎么付钱)、以及垂直行业 AI(法律、医疗、金融等)。规模连续第三年翻倍,月活超 100 万 AI 工程师,说明这个会已经从社区聚会变成行业风向标了。不过正文没披露具体演讲嘉宾和议程细节,目前只是开放申请阶段,实际含金量要看最终上台的是谁。另外,机器人展区免费但要求人形机器人必须有人陪同,这点先别太激动——demo 质量参差不齐是常态。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H1·K1·R1
2026-05-01 · 星期五2026年5月1日
2026-04-30 · 星期四2026年4月30日
2026-04-29 · 星期三2026年4月29日
01:46
47d ago
Latent Space· rssEN01:46 · 04·29
今天AI圈没啥大事,但vLLM、Poolside和NVIDIA发了新东西
今天AI圈相对平静,但有几个值得关注的点:vLLM 0.20.0发布,主要改进是内存和MoE服务效率,比如TurboQuant 2-bit KV缓存让KV容量翻了4倍,还重新支持了FA4 MLA预填,以及一个融合RMSNorm让端到端延迟降了2.1%。DeepSeek V4 Pro在B300上比H200快8倍,但正文没披露具体测试条件。Poolside...
#Inference-opt#Multimodal#Agent#NVIDIA
精选理由
这是一篇AI日报,不是单一重磅发布,所以分数压在60-71区间。vLLM 0.20.0的4倍KV容量意味着显存更省、长上下文推理更便宜,这点值得关注。Poolside Laguna XS.2和NVIDIA Nemotron 3 Nano Omni都是开放模型,Mistral Workflows则是让模型进业务流程干活。三个方向在同一天有更新,说明推理成本、开放生态和agent落地都在加速。不过日报性质决定了信息密度高但深度有限,正文没披露具体benchmark或成本对比,所以不拔高。
一句话点评
vLLM 0.20 把 KV 缓存容量翻了 4 倍,端到端延迟降了 2.1%,对跑大模型推理的人算实打实的省钱更新。
锐评
vLLM 0.20.0 是今天最实在的更新:TurboQuant 2-bit KV 缓存让容量翻 4 倍,意味着同样显存能塞更多请求或更长上下文;融合 RMSNorm 让端到端延迟降 2.1%,虽然数字不大但白送。FA4 重新支持 MLA 预填(SM90+),对 DeepSeek V4 这类用 MLA 的模型是利好。DeepSeek V4 Pro 在 B300 上比 H200 快 8 倍——但正文没披露测试条件(batch size、精度、是否含预填),这个数字先打五折。Poolside 发了首个公开模型 Laguna XS.2(33B 总参/3B 激活 MoE),Apache 2.0,单卡可跑,性能接近 Qwen-3.5,但没给标准 benchmark 对比表,社区验证还不够。NVIDIA Nemotron 3 Nano Omni(30B/A3B MoE,256K 上下文,多模态)铺货速度惊人,OpenRouter/LM Studio/Ollama 等 10 家平台当天上线,但同样缺独立评测。整体看,今天没有突破性进展,更多是推理栈和开放模型的并行迭代。
HKR 分解
hook knowledge resonance
打开信源
66
SCORE
H0·K1·R1
2026-04-28 · 星期二2026年4月28日
05:38
48d ago
Latent Space· rssEN05:38 · 04·28
图像生成是通往AGI的必经之路
Latent Space 的周报认为,GPT-Image-2、Nano Banana 和 Grok Imagine 这类图像生成模型不是“副业”,而是实现 AGI 必须投入算力的核心工作。理由是:光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”二字。文章特别强调“图像生成 + Codex 循环”的价值——边写...
#Multimodal#Agent#Code#OpenAI
精选理由
这是一篇4月26-27日的AINews汇总,带有评论性质,不是一手发布。67.1%的分数和100万token上下文确实增加了信息量,但来源单一且是汇总文,所以没给到featured。
一句话点评
图像生成不是副业,是AGI必须砸算力的核心方向。
锐评
Latent Space 这篇周报的核心判断很直接:GPT-Image-2、Nano Banana、Grok Imagine 这类图像生成模型不是“做着玩的”,而是实现 AGI 必须投入算力的主干任务。理由是光靠文本、代码和结构化输出不够,多模态视觉生成(包括透明图)才能真正发挥“通用”中的“通用”。文章特别强调“图像生成 + Codex 循环”的价值——边写代码边生成素材,把开发闭环彻底打通。 但要注意,这篇文章是付费周报,观点性强,缺少具体成本或效率对比数据。比如“GPT-Image-2 + Codex”到底比纯文本编码快多少?没给数字。另外,文章引用的例子(乐高、教育图、信息图)都是展示性用例,没有说明在真实业务场景(如游戏资产管线、UI 批量生成)中的落地效果。 还缺什么:缺图像生成 vs 纯文本/代码在 AGI 路线上的算力分配对比,缺 GPT-Image-2 的 API 定价或推理成本,缺 Nano Banana 和 Grok Imagine 的具体评测基准。如果你在评估是否要把图像生成纳入核心路线,这篇可以作为论点参考,但决策还需要更硬的成本和效果数据。
HKR 分解
hook knowledge resonance
打开信源
71
SCORE
H1·K1·R1
2026-04-27 · 星期一2026年4月27日
2026-04-25 · 星期六2026年4月25日
05:00
51d ago
● P1Latent Space· rssEN05:00 · 04·25
DeepSeek 发布 V4 Pro 和 Flash 模型,能在华为昇腾芯片上跑
DeepSeek 终于发了 V4 系列,一共两个型号:V4 Pro 总参数 1.6 万亿,每次激活 490 亿;V4 Flash 总参数 2840 亿,激活 130 亿。两个模型都支持 100 万 token 的上下文,用了新的压缩注意力技术,相比 V3.2,处理长文本时计算量只要 27%,显存占用只要 10%。这次比较特别的是同时发了基础版和指令版,...
#Reasoning#Code#Inference-opt#DeepSeek
精选理由
这条必须写。DeepSeek 这次放出的不只是模型,而是把华为昇腾兼容性摆上台面,等于在 CUDA 依赖上划了一刀。技术报告说 1M token 下只用 V3.2 27% 的算力、10% 的 KV 缓存,省得挺实在。两档参数和 MIT 许可也让落地门槛更低。我会先打个折:正文没提实际推理延迟和昇腾上的吞吐数据,这点先别太激动,但硬件独立性本身已经够重。
一句话点评
DeepSeek V4 发了两个型号,Pro 版 1.6 万亿参数但每次只激活 490 亿,Flash 版更轻量。最大看点是能跑在华为昇腾芯片上,长文本处理成本比 V3.2 省了 73% 算力。
锐评
DeepSeek 这次 V4 系列最值得关注的点不是跑分,而是它明确支持华为昇腾芯片。技术报告里说,在 100 万 token 的长文本场景下,新架构的算力消耗只有 V3.2 的 27%,显存占用更是降到 10%,这个效率提升相当实在。如果数据没注水,意味着用国产卡跑大模型的门槛又降了一截。 不过要打个折:正文没给出和 Kimi K2.6、GPT-5.4 这些同期模型的直接对比数据,只说“大致同级”。另外,虽然发了基础版和指令版,但推理能力到底怎么样,报告里没展开,得等第三方实测。华为昇腾的供应量目前也只有 H100 的四分之一,实际部署规模还得看产能。
HKR 分解
hook knowledge resonance
打开信源
92
SCORE
H1·K1·R1
2026-04-23 · 星期四2026年4月23日
19:37
52d ago
Latent Space· rssEN19:37 · 04·23
AIE Europe 复盘 + Agent Labs 路线图:先借前沿模型跑通业务,再自己训练专属模型
这是一期 54 分钟的播客,来自 Latent Space 和 Unsupervised Learning 的联合特辑。核心论点是“agent lab”路径:先用前沿模型(比如 GPT、Claude)把业务跑起来,等积累够数据、工作量和用户行为后,再训练自己的模型来降本降延迟。播客还聊了 OpenClaw、技能(skills)作为 agent 的最小打...
#Agent#Code#Memory#Latent Space
精选理由
这是一期播客复盘,不是模型、产品或者论文发布,所以重要性压在60-71区间。但它的价值在于提炼了一条可执行的路径:先用前沿模型搭智能体,攒够数据再训练自己的模型。这点对想省推理成本、建护城河的团队有直接参考。正文没披露具体成本数字或训练样本量,所以判断只能挂在路径本身。
一句话点评
播客聊了一个实用路线:先用 GPT/Claude 把业务跑起来,攒够数据再训练自己的模型降本降延迟。
锐评
这期 54 分钟播客的核心论点是“agent lab”路径:先用前沿模型(GPT、Claude)跑通业务,等积累足够数据、工作量和用户行为后,再训练自研模型来降本降延迟。文中提到 Cursor、Cognition 已经让用户选择自家模型,说明这条路走得通。播客还讨论了 OpenClaw、skills(技能作为 agent 的最小打包格式)、非 NVIDIA 推理硬件、记忆与个性化等话题。但作为播客文字稿,缺少具体数字——比如自研模型相比前沿模型能降多少成本、延迟改善多少倍、需要多少数据量才值得切换。另外,来源是 Latent Space 和 Unsupervised Learning 的联合特辑,属于行业评论类内容,不是一手实验报告。对于从业者,值得关注的是“先跑业务再自研”这个务实策略,但具体落地门槛和收益还需更多数据验证。
HKR 分解
hook knowledge resonance
打开信源
68
SCORE
H1·K1·R1
02:45
53d ago
Latent Space· rssEN02:45 · 04·23
AI 新闻:有品味的 Token 最大化
Latent Space 总结了 4 月 21-22 日的 AI 新闻,覆盖 12 个子版块和 544 个 Twitter 账号。重点包括:阿里发布 Qwen3.6-27B,一个密集型的开源模型,在编程评测上击败了更大的 Qwen3.5-397B-A17B,并且支持视觉语言推理,社区迅速适配了 vLLM、Ollama 等工具。OpenAI 低调开源了一...
#Agent#Code#Multimodal#Latent Space
精选理由
Latent Space 这期周报选了个好角度——算力和 token 的性价比。Qwen3.6-27B、OpenAI 隐私过滤、小米多模态、Google TPU 8t/8i 这些名字都出现了,但正文基本是会议流水账,没展开任何一条的具体数字或实测。H 和 R 理由充分,K 太薄,所以总分压在 62 这个偏低区间。
一句话点评
阿里Qwen3.6-27B用27B参数在编程评测上赢了自家397B大模型,本地跑得动,值得一试。
锐评
阿里开源了Qwen3.6-27B,一个纯密集模型(不是MoE),Apache 2.0协议。亮点是27B参数在SWE-bench Verified(77.2 vs 76.2)和Terminal-Bench(59.3 vs 52.5)上超过了自家397B的Qwen3.5,成本低得多。还支持看图、视频推理。社区反应快:vLLM、Ollama、llama.cpp当天就适配了,Unsloth说18GB显存就能跑GGUF版。早期用户反馈不错,尤其前端和图像任务。但注意:评测集可能偏编程,其他任务(如数学、长文)表现未知;正文没披露训练数据、推理速度或具体硬件需求,本地部署的实际延迟和精度还得自己测。另外,OpenAI低调开源了一个Privacy Filter,但细节太少,没法判断实用性。
HKR 分解
hook knowledge resonance
打开信源
62
SCORE
H1·K0·R1
2026-04-22 · 星期三2026年4月22日
2026-04-21 · 星期二2026年4月21日
00:19
55d ago
● P1Latent Space· rssEN00:19 · 04·21
月之暗面发布 Kimi K2.6 开源模型,在长任务执行上对标 Claude Opus 4.6
月之暗面推出了 Kimi K2.6,一个总参数 1 万亿的混合专家模型,每次推理激活 320 亿参数,支持 25.6 万 token 的上下文窗口。它主打的是长时间、多步骤的智能体任务,官方宣称能连续跑 12 小时以上、调用超 4000 次工具、并行管理 300 个子智能体。在 SWE-Bench Pro 编程基准上得分 58.6,HLE 带工具得分 ...
#Agent#Code#Multimodal#Moonshot
精选理由
我会先打个折:SWE-Bench Pro 58.6 这个数正文没给对比基线,不知道和 Opus 4.6 的差距到底多大,这点先别太激动。但 Kimi K2.6 真正值得盯的不是基座跑分,而是它把 agent 执行时长拉到 12 小时、能并行跑 300 个子代理,这在开源模型里算往前拱了一步。国内大模型旗舰发布本身就自带信号,加上抢在 DeepSeek v4 前出牌,对关注开源模型进展的人有信息差价值,所以给到 P1。
一句话点评
Kimi K2.6 把重点从刷榜转向了长时间干活:能连续跑12小时、调用4000次工具,但训练细节这次没披露,进步幅度得打个折看。
锐评
月之暗面这次发的 Kimi K2.6,是一个总参数1万亿、每次推理激活320亿的混合专家模型。相比三个月前的 K2.5,它最大的变化不是纸面分数,而是把力气花在了让模型能长时间、多步骤地执行任务上。官方说它能连续运行超过12小时,调用超4000次工具,还能同时管理300个子智能体,这比单纯在编程基准 SWE-Bench Pro 上拿58.6分更值得关注。 不过,这次发布有个明显的信息缺口:正文没披露具体增加了多少训练数据或计算量,只说“继续预训练和后训练”。所以这些智能体能力的提升,到底来自算法创新还是单纯堆资源,目前没法判断。另外,它在前端设计任务上声称对 Gemini 3.1 Pro 有68.6%的胜平率,但这类主观评测的波动性一向很大,看看就好。 整体看,K2.6 更像是一次务实的工程迭代,把模型往真实业务流程里推了一步。但缺少技术细节,让它的领先优势能持续多久要打个问号,尤其 DeepSeek V4 已经在传闻中了。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-20 · 星期一2026年4月20日
2026-04-18 · 星期六2026年4月18日
2026-04-16 · 星期四2026年4月16日
2026-04-15 · 星期三2026年4月15日
00:31
61d ago
Latent Space· rssEN00:31 · 04·15
Notion 的 Token Town:5 次重写、100 多个工具、MCP 与 CLI 之争,以及软件工厂的未来
Notion 联合创始人和 AI 负责人首次详细拆解 Custom Agents 功能,透露这个功能在生产环境上线前被推倒重来了四五次。早期尝试失败的原因很直接:2022 年没有好用的工具调用标准、模型上下文窗口太短、模型不可靠,而且暴露给模型的复杂度太高。他们现在走的是“Agent Lab”路线——不是简单套个模型,而是围绕人的协作方式搭产品系统。内...
#Tools#Notion#Simon Last#Sarah Sachs
精选理由
标题钩子很强,话题也踩在真实痛点上,但正文完全没内容——没有架构、没有指标、没有具体案例,属于零来源的评论。按硬性排除规则,重要性封顶在40以下。
HKR 分解
hook knowledge resonance
打开信源
42
SCORE
H1·K0·R1
2026-04-08 · 星期三2026年4月8日
00:26
68d ago
Latent Space· rssEN00:26 · 04·08
Anthropic 年收入冲到 300 亿美元,发布“太危险不能公开”的 Claude Mythos 和 GlassWing 项目
Anthropic 宣布年化收入(ARR)从 3 月的 190 亿涨到 4 月的 300 亿美元,一个月涨了 110 亿,增速比 OpenAI 快。同时正式确认了 Claude Mythos 模型——据说是史上最大规模的成功训练(参数超 10T?),但 Anthropic 说它太危险,不公开发布,只给 40 个合作伙伴用,项目叫 GlassWing。M...
#Anthropic#Claude#GPT-2#Commentary
精选理由
HKR-H和HKR-R成立,因为标题确实够劲,同时戳中Anthropic增长和模型安全两条神经。HKR-K不成立:正文完全空白,ARR没有来源,两个项目没有细节,'自GPT-2以来首个'的判定没有证据链,触发硬排除——零信源。
HKR 分解
hook knowledge resonance
打开信源
41
SCORE
H1·K0·R1
2026-04-07 · 星期二2026年4月7日
17:14
68d ago
● P1Latent Space· rssEN17:14 · 04·07
OpenAI 内部团队用 5 个月跑出一个零人工代码的项目,每天烧掉 10 亿 token
Ryan Lopopolo 的团队在 OpenAI 内部搞了个极端实验:5 个月里搭出一个超过 100 万行代码的仓库,所有代码全由 Codex 生成,合并前没有任何人工审查。他们每天消耗超过 10 亿 token,按市价估算大概一天要花 2000 到 3000 美元。团队的核心思路是,当 AI 写代码卡住时,不去教它怎么改 prompt,而是回头补上...
#Agent#Code#Tools#OpenAI
精选理由
这篇是访谈转述,不是官方发布,所以我会先打个折。但内容确实有料:OpenAI Frontier 团队用 5 个月搭了个内部测试产品,代码库超 100 万行,每天消耗超 10 亿 token,合并前完全没人类写码也没人类审查。具体做法是把失败拆成缺能力、缺上下文、缺结构三类,然后用 Symphony 多代理编排、规格文档、测试、可观测性和 1 分钟内构建循环来兜底。真正值得盯的是他们说的那句话——流程重心从人审代码转到了人设计 harness。价格估算约 2000 到 3000 美元一天,但正文没披露独立验证,这点先别太激动。
一句话点评
OpenAI 内部团队用零人工代码跑了一个百万行代码的产品,每天烧掉 10 亿 token,代码审查也全交给 AI。省钱是真省钱,但别急着学,他们没公开这套系统在复杂业务逻辑下的翻车率。
锐评
Ryan Lopopolo 在 OpenAI 的 Frontier 团队搞了一场极端实验:五个月内,完全不让工程师手写一行代码,靠 Codex 代理自动生成、审查、合并代码,最终产出一个超过一百万行代码的内部产品。每天消耗的 token 量达到 10 亿,按市场价算大概一天两三千美元。这个成本对于一家 AI 公司来说不算高,但普通团队直接照搬可能会被账单吓到。 他们开源了一个叫 Symphony 的代理编排框架,核心思路不是让代理“更努力地写代码”,而是当代理卡住时,去补它缺的能力、上下文或结构。比如把构建时间压到一分钟以内,因为人受得了慢,代理受不了。他们还把工程品味编码成技能、文档和测试,让代理自己维护质量。 不过,文章没提这套零人工审查的流水线在复杂业务场景下的准确率和回滚次数。目前公开的信息更像一个内部工具的极限测试,离直接用在金融、医疗这类高可靠场景还有距离。另外,Symphony 的参考实现是用 Elixir 写的,语言门槛会筛掉一批想抄作业的团队。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-03 · 星期五2026年4月3日
2026-03-31 · 星期二2026年3月31日
01:04
76d ago
Latent Space· rssEN01:04 · 03·31
科技行业只剩最后4种工作?
标题说科技行业只剩“最后4种工作”,但正文没列出具体是哪四种,也没说筛选标准。唯一能确认的是数字4。这更像一个评论性标题,不是有实质内容的报道。
#Commentary
精选理由
HKR-H和HKR-R通过:标题有点击诱惑,且击中科技从业者的职业焦虑。HKR-K不通过:正文零信息,没披露任何岗位、标准、案例或数据,触发硬排除规则6——零来源评论。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R1
2026-03-30 · 星期一2026年3月30日
19:25
76d ago
Latent Space· rssEN19:25 · 03·30
Mistral 发布 Voxtral TTS:开源语音模型,效果接近 ElevenLabs,成本更低
Mistral 联合首席科学家 Guillaume Lample 和音频负责人 Pavan 在播客中官宣了 Voxtral TTS,一个 4B 参数的开源语音合成模型。它在盲测中以 68.4% 的胜率击败 ElevenLabs Flash v2.5,基本达到同一水平线。模型用了自回归生成语义 token + flow matching 生成声学 tok...
#Audio#Mistral#Pavan Kumar Reddy#Guillaume Lample
精选理由
HKR-H 靠多话题预告勉强过关,但 HKR-K 直接挂零:正文为空,无规格、定价、发布日期或测试结果。按硬性规则“零来源即排除”,重要性上限 40,层级定为 excluded。
HKR 分解
hook knowledge resonance
打开信源
40
SCORE
H1·K0·R0

更多

频道

后台