ax@ax-radar:~/podcasts/latent-space $ ls -t podcasts/
44 srcsignal 72%cycle 04:32

播客·视频

5 episodes · updated 3m ago
6 个频道在监控
筛选精选全部仅精选
Latent Space5
2026-04-18 · 星期六2026年4月18日
2026-04-16 · 星期四2026年4月16日
2026-04-07 · 星期二2026年4月7日
17:14
20d ago
● P1Latent Space· rssEN17:14 · 04·07
面向“Token Billionaires”的极限 Harness Engineering:100万行代码、日耗10亿 token、0 人类写码、0 人类审查
OpenAI Frontier 团队称其用 5 个月构建内部测试产品,代码库超 100 万行、每天消耗超 10 亿 token,且合并前 0 人类写码、0 人类审查。正文给出的具体机制是把失败归因到缺失的能力、上下文或结构,并用 Symphony 多代理编排、规格文档、测试、可观测性和 1 分钟内构建循环来约束 Codex。真正值得盯的是流程重心已从“人审代码”转到“人设计 harness”;价格估算约 2000 到 3000 美元/天,但该数值来自文中转述。
#Agent#Code#Tools#OpenAI
精选理由
HKR 三轴都成立:标题有强钩子,正文也给了流程机制与量级数字。分数压在 featured 而非 p1,因为它是访谈转述,不是官方产品发布,1B token/天与成本等关键说法缺少独立佐证。
编辑点评
OpenAI Frontier 把代码评审前移成测试与编排设计,这条路我买账;“0% 人审”更像流程胜利,不是模型已会自己负责。
深度解读
OpenAI Frontier 用 5 个月跑出 100 万行代码和 10 亿 token/天,这件事先说明一个事实:代码代理的瓶颈,已经从“会不会写”转到“你能不能把失败关进笼子里”。我对这条基本买账。因为文中最扎实的部分,不是 0% 人类写码,也不是 0% 合并前人审,而是他们把失败拆成能力、上下文、结构三类,再用规格、测试、可观测性和 1 分钟内构建循环去压缩误差面。这个思路比“再 prompt 一下”硬得多。 我一直觉得,很多团队把 coding agent 用废了,不是模型差,是工程环节还停在副驾驶时代。Cursor、Devin、Copilot 这一轮产品,2025 年就已经把“自动改一串文件、自动提 PR、自动跑部分测试”做出来了,但默认前提还是人来兜底。OpenAI 这次公开讲的东西,是把兜底位置改了:不是最后的人审,而是前面的 harness。这个变化很大。因为它默认接受一个现实:在 100 万行仓库里,人类 review 本来就经常只看局部语义,抓不住系统性回归;测试覆盖、观测指标、回滚路径,反而更接近真实控制面。 但我对“0% human review”这个口号有点警觉。文章给了 repo 规模、token 用量、开发周期,也给了方法论;正文没披露缺陷率、回滚率、线上事故数、测试逃逸比例,也没给出和人工团队的交付速度对照。没有这些数,这句口号更像管理学信号,不是可靠性结论。工程团队当然可以在 merge 前不看代码,可前提是测试集、验收条件、沙箱隔离、发布闸门都足够硬。要是 harness 本身有盲区,模型只会更快把错误做大。 价格叙事我也不完全买。文中 2000 到 3000 美元/天是转述,不是官方账单。按 10 亿 token/天算,这个成本对 OpenAI 内部团队几乎不构成约束,对多数创业公司也未必离谱;贵的是把整套 harness 养起来的人力和组织纪律。你需要 PRD 写得像可执行合同,需要一分钟级构建,需要每次失败都归档到能力、上下文、结构,而不是甩锅给“模型今天抽风”。这比买 token 难多了。很多公司看到这里,会误判成“多烧 token 就行”;我看正好相反,没测试工厂,token 烧得越多,噪声越多。 还有一个上下文,文章没展开,但很关键。OpenAI 现在自己就是 Codex 的最高强度用户,这跟过去模型公司把内部 dogfooding 当展示橱窗不一样。这里暴露的是产品路线:代码代理不再只是 IDE 插件,而是在往“受约束的软件工厂”走。Symphony 这种多代理编排,如果真能稳定复现,影响的不只是写码效率,还会改掉团队分工——资深工程师写的将更少是业务逻辑,更多是规范、测试、评估器、发布策略。我觉得这才是这篇里最有信息量的地方。 说真的,我还是保留一层怀疑:这套方法目前成立,多半依赖 OpenAI 内部几个奢侈条件——自家模型优先适配、自家工具深度联动、足够高的 token 配额、对失败样本的持续回灌。外部团队能不能照搬,正文没证明。去年很多 autonomous coding demo 都死在同一个地方:demo 里的 repo 干净、边界清楚、依赖可控;一到遗留系统、脏数据、跨团队接口,代理就开始失速。OpenAI 这次至少给出了一条靠谱方向,但它证明的是“极强 harness 可以托住极强 agent”,还没证明“普通团队靠现成工具就能复制 dark factory”。这两件事差得很远。
HKR 分解
hook knowledge resonance
打开信源
88
SCORE
H1·K1·R1
2026-04-03 · 星期五2026年4月3日

更多

频道

后台