全部 · 2026-03-12

▸ 6 items · updated 3m ago

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 262 2722 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2101 379 432 535 691 7126 8129 9112 1087 1142 1271 13159 14140 15122 16246 1781 1853 1960 20347 21687 22363 23348 24256 259 26 273282930

2026-03-12 · 星期四2026年3月12日

23:59

45d ago

FEATURED阮一峰的网络日志· rssZH23:59 · 03·12

科技爱好者周刊第388期：测试是新的护城河

一名 Cloudflare 工程师用 AI 在 1 周内复刻了 Next.js，做出 vinext，Token 成本 1100 美元，API 覆盖率拉到 94%。文中给出早期基准：构建快 4 倍、客户端包小 57%，现有生产 Next.js 应用可直接运行。真正值得盯的是测试：SQLite 代码 15.6 万行，测试 9205 万行，核心 TH3 闭源。

#Code#Benchmarking#Cloudflare#Vercel

精选理由

这篇文章有明确样本和实数，HKR 三项都成立：AI 复刻成熟框架的成本、速度、兼容性都被量化，测试护城河的判断也有 SQLite 测试规模作支撑。分数停在 featured 中段，因为它是二手评论，不是一手发布或完整实验报告。

编辑点评

vinext 用 1100 美元复刻 Next.js 这事很抓眼，但我不买“测试就是新护城河”这句满分结论；护城河先落在分发、托管和默认选型权。

深度解读

vinext 在 1 周内复刻 Next.js、Token 成本 1100 美元、API 覆盖率做到 94%，这组数字已经足够说明一件事：框架层代码资产的稀缺性在快速下滑。你再拿“我们积累了 10 年代码”当壁垒，今天基本没人信。一个能跑生产 Next.js 应用的兼容实现，只要文档全、社区语料够、接口测试可见，AI 就能把多年工程劳动压缩成几天迭代。这对 Vercel 确实不是小事。它不一定直接打穿收入，但会打穿“高研发投入天然该有高软件溢价”这套说法。但我对文里的主判断有保留：测试很重要，甚至越来越重要；把它直接讲成“新的护城河”，有点说满了。Next.js 的价值从来不只是一堆 API 行为。它还有宿主平台、默认脚手架、生态插件、和 React 官方关系、以及团队在框架演进上的议程设置权。就算 vinext 兼容 94%，剩下那 6% 往往才是企业线上最疼的部分：边缘缓存、构建插件、奇怪的 hydration bug、升级路径、以及谁来背 SLA。测试能证明“像”，不自动等于“可迁移、可维护、可担责”。这几个维度，今天仍然主要握在原厂和托管方手里。我还想给这条补一个行业背景。过去一年，代码生成把“实现一个框架”这件事的门槛压得很低，但“验证一个框架”反而变成主成本。很多团队已经体会到，Claude Code、Codex 这类工具能在几小时里铺出 80% 的实现，后面 80% 的时间花在回归、兼容、基准和线上事故复盘。这个节奏跟 2024 年大家炫 demo 完全不同。那时看谁写得快，现在看谁知道自己哪里没测到。也因为这个变化，开源项目会重新估值自己的非代码资产：测试、CI 数据、故障样本、用户工单、性能回归历史。文里拿 SQLite 举例是对的。SQLite 15.6 万行代码，对应 9205 万行测试，比例接近 590 倍，这个量级已经把“代码只是入口”说得很清楚。TH3 闭源也说明，最贵的不是 SQL 语法实现，而是极端边界条件的知识库。不过，我还是要泼一点冷水：SQLite 的例子不能直接套到 Next.js。数据库引擎和 Web 框架的失效成本不一样。数据库错一次，可能就是数据损坏；框架错一次，很多时候是页面坏、缓存错、SEO 掉。都痛，但风险结构不同。所以 SQLite 愿意把核心测试当机密资产，很合理；Next.js 或 tldraw 如果也全面收紧测试，代价会更大，社区 PR 会下降，第三方适配会变慢，生态外溢会受伤。开源项目一旦把测试和行为规范都锁起来，短期能卡 AI 复刻，长期也会削弱自己作为标准实现的地位。这笔账，不是“防复制”三个字就能算完。文里还碰到版权，这块我觉得说得有点快。MIT 项目被功能复刻，争议确实小得多；LGPL/GPL 项目被“重新实现”后换许可证，争议会大很多。但“美国法律规定 AI 生成产物无版权，所以许可证无效”这句不能这么顺着推。美国版权局对纯 AI 生成作品的态度一直偏严格，这我知道；可软件项目很少是“纯 AI、零人类选择”的状态。架构决策、提示词、筛选、修改、测试、发布，这些都可能构成人类作者性。正文没有给出判例，也没有把功能兼容、代码相似、衍生作品这几个法律问题拆开，我没法接受它一把梭地下结论。这里的信息缺口很大。我自己更在意的是另一个后果：如果大家都认定“公开测试=给 AI 送弹药”，开源世界会开始出现一批“源码开放、测试半封闭、线上数据私有”的新许可证和新协作模式。这个方向已经有苗头了。前几年大家争的是 source available；现在会转成 eval available、test available、trace available。谁掌握真实工单、失败日志、性能回归样本，谁就更难被一比一咬住。AI 把软件竞争从“写出功能”推到“积累行为证据”。所以这篇里我认同一半。代码护城河确实在塌。测试资产的重要性也确实猛增。可如果你把胜负手只放在测试上，就会低估平台控制力、分发权、托管收入和默认心智。Vercel 最该怕的，不是有人又写了一个 Next.js；是越来越多人意识到，兼容实现已经便宜到可以拿来跟原厂谈价，或者干脆把框架和托管解绑。那一天一旦到来，Next.js 的商业逻辑才会真开始松。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

22:23

45d ago

● P1MIT 科技评论· rssEN22:23 · 03·12

一名国防官员披露 AI 聊天机器人如何用于目标排序决策

一名美国国防官员称，五角大楼可把目标清单输入生成式 AI，由模型按飞机位置等因素排序，并给出先打击建议，再由人工复核。正文举例称，这类系统可叠加在 Maven 之上以加快检索和分析；提速幅度正文未披露，官员也未确认这已在实战中使用。真正值得盯的是，聊天式输出更易调用，但比 Maven 的地图界面更难核验。

#Agent#Vision#Safety#Pentagon

精选理由

这条拿满 HKR：标题把聊天式 AI 接进目标排序，冲击感够强；正文也给出可讨论的机制，含人工复核和叠加 Maven 的路径。我给 80 分，不再上调，因为官员描述的是“可如何使用”，提速数据和实战部署都未确认。

编辑点评

五角大楼把生成式 AI 接到目标排序链路里，这不是“多一层助手”，而是在把核验负担转嫁给最后那个点确认的人。

深度解读

五角大楼这次透露的关键信号很直接：生成式 AI 可以接收目标清单，并按飞机位置等条件给出先打击建议。我的判断是，这一步比很多“AI 参与军事决策”的表述更靠近武力使用本身。官员一直强调有人复核，但这套说法我不太买账。正文没有披露提速幅度、误报率、复核时长，也没说明模型输出会不会附带证据链。没有这些，所谓 human review 很容易沦为 legal air cover，不是实质制衡。问题不在于模型会不会“直接开火”。问题在于目标排序本身就是决策。你把 20 个候选目标排成 1 到 20，前 3 个先打，后果已经被重写了。军事系统里最危险的自动化，常常不是最终按钮，而是把人的注意力、时间预算、怀疑阈值都压到一个更窄的窗口里。文章自己其实已经点到这层：Maven 的地图界面逼着人看地理关系和友军位置，聊天式输出读起来更快，核验却更难。这个变化很像把“看传感器”改成“看摘要”。在高压场景里，摘要通常赢。这里有个现成参照。2024 年多家媒体报道过以色列在加沙使用 Lavender、Gospel 一类系统做目标筛选和优先级分发，争议点从来不是有没有人在回路里，而是人均审查时间被压到几秒到十几秒。具体数字各家报道口径不一，我不想硬引。但那个教训很清楚：一旦系统先给出名单和排序，人类复核常常是在追认，不是在独立判断。美国军方现在给出的叙事，和当时那套“机器提议、人来批准”非常接近。差别只在界面从 dashboard 变成 chatbot，审计难度反而更高。再往前看，Maven 2017 年启动时用的是更传统的计算机视觉路线。那类系统至少还能把框、轨迹、热区直接叠在图像或地图上。生成式 AI 接上去以后，用户得到的是语言结论。语言结论的麻烦在于，它天然会压平不确定性。模型即便内部只是基于不完整数据做模式匹配，输出也会长得像“有依据的参谋意见”。这和 GPT、Claude、Grok 在企业知识库场景里的幻觉问题是同一类机制，只是企业里错的是报表，战场上错的是人命。我对文中另一条线也有疑虑：OpenAI、xAI、Anthropic 在涉密环境里可用，不等于它们适合承担 targeting workflow。模型能进密网，只说明部署和合规过了一关，不说明评估过关。正文没披露任何红队结果，也没说是否做过对抗样本测试，比如坐标扰动、时间戳过期、友军标记缺失、传感器冲突这几类常见脏输入。军用场景里，最不该接受的说法就是“先上，再靠人兜底”。如果没有针对排序错误的专门评估，聊天机器人只是在把 Maven 的脆弱点换一种形式放大。还有个政治层面的变化不能忽略。文章把近期伊朗学校袭击、过时目标数据、AI 使用争议放在同一篇里，这不是陪衬。它说明军方正试图在舆论高压下，提前为“AI 参与但非 AI 决定”这套责任结构定口径。说真的，这种口径我见得太多了。系统负责缩短链路，人类负责承担后果，供应商负责强调有使用限制，最后没有任何一方完整拥有因果链。所以这条新闻的重点，不是 Pentagon 是否已经让 ChatGPT 或 Grok 决定打谁。正文明确没确认。重点是 targeting 这条链路里，排序、摘要、建议这三个环节已经被默认为可以语言模型化。门一旦开了，后面争的就不是“能不能用”，而是“证据展示要到什么粒度、人工复核要花几分钟、谁来留审计日志”。这些要是还没有硬规则，那“人在回路里”只剩一句公关话。

HKR 分解

hook ✓knowledge ✓resonance ✓

→ 打开信源

SCORE

H1·K1·R1

13:02

46d ago

MIT 科技评论· rssEN13:02 · 03·12

《Download》：中国 OpenClaw 热催生安装生意，美国电池业转冷

MIT Technology Review 报道，中国工程师 Feng Qingyang 1月接触 OpenClaw 后，数周内把安装副业做成超100人团队，累计完成7000单。另一条主线是美国电池业转冷，估值曾超10亿美元的 24M Technologies 据报正关闭；这不是单一公司失手，而是需求、融资和新化学路线一起降温。

#Agent#Tools#Feng Qingyang#24M Technologies

精选理由

HKR-H 与 HKR-R 成立：百人团队和 7000 单让中国 AI 安装潮有了可讨论的样本。HKR-K 偏弱，正文没交代 OpenClaw 的机制、价格和复现条件，且电池副线分散主题，信息密度只够 all。

编辑点评

OpenClaw 在中国几周催生 7000 单安装生意，先跑出来的不是模型壁垒，是灰产化服务链。

深度解读

OpenClaw 先催生了 7000 单安装服务，这条新闻里最硬的信号不是工具多强，而是中国消费侧对“可代操作 AI”几乎零等待。一个北京工程师 1 月上手，几周内拉起 100 多人团队，这说明门槛根本不在模型推理，而在部署、调参、代装、售后这些脏活累活。每次 agent 工具冒头，最先赚到钱的常常不是底模公司，而是把不稳定系统包成可交付服务的人。去年 Manus、Computer Use、Rabbit 式演示火的时候，圈内就已经反复出现同一幕：demo 很顺，真实设备环境一落地，全是权限、浏览器、验证码、远控和失败重试的问题。OpenClaw 这波看着也是这个结构。

HKR 分解

hook ✓knowledge —resonance ✓

→ 打开信源

SCORE

H1·K0·R1

13:00

46d ago

FEATUREDMIT 科技评论· rssEN13:00 · 03·12

务实设计：为现实世界做 AI 工程

调查显示，300名受访者中九成产品工程负责人计划在未来1至2年增加AI投入。45%只增至多25%，近三成增幅为26%至50%，仅15%计划增51%至100%。真正值得盯的是，投资优先项是预测分析、仿真与验证，前提是分层信任、治理和明确人工负责。

#Tools#Safety#MIT Technology Review#Research release

精选理由

这篇稿子的价值在 HKR-K 和 HKR-R：它给出 300 名产品工程负责人的增投区间，且把重点落在预测分析、仿真验证和分层信任。缺口也很明显：标题不强，正文未披露更细的样本结构与可复现方法，所以更像中等质量行业观察，不到 featured。

编辑点评

300名受访者里90%要加投AI，但这不是激进扩张信号。它更像高风险行业把生成式热潮压回验证、仿真和责任链。

深度解读

300名受访者计划在1至2年内提高AI投入，且45%只增加25%以内。我的判断很直接：这条材料讲的不是“AI全面进入产品工程”，而是产品工程把AI驯化成一套受约束的辅助系统，先放进能审计、能回放、能签责任的环节里。先说我为什么这么看。文中把优先项压在预测分析、仿真、验证，逻辑很硬，因为这几类场景有闭环。模型给出一个设计建议，你能拿历史失效率、仿真误差、测试覆盖率、法规指标去验。车规、医疗器械、工业控制都一样，出错不是聊天机器人答非所问，而是召回、停线，严重时就是伤人。这里面“分层信任”和“明确人工负责”不是保守口号，是工程组织在给AI划责任边界。谁能自动执行，谁只能提建议，谁必须人工签字，这些都得写进流程。这跟过去一年软件行业那套“先上copilot再补治理”的节奏差很多。我记得2024到2025年，很多企业软件团队先买代码助手，再慢慢补审计、权限和数据隔离。产品工程反过来走：先问验证怎么做，责任谁背，模型输出能不能过认证，再决定投多少。调查里90%要加投听着很热，但分布一拆就没那么热了：45%增幅不超过25%，接近三成增26%到50%，只有15%增51%到100%。这不是豪赌，是预算试探。我对这份材料还有两个保留。第一，它来自MIT Technology Review Insights 的定制内容，不是新闻编辑部报道。这个身份不自动让数据失效，但会影响叙事重心：它更像一份赞助型行业白皮书，天然偏向“AI正在被务实采纳”的结论。第二，正文没披露样本构成。300人来自哪些行业、地区、公司规模、是否含现有客户，正文都没给。汽车、航空、消费电子、医疗设备对风险和认证的要求差异很大，混在一起看，均值容易掩盖结构差异。我还不太买账的一点，是它把“优化优先于创新”讲得过于顺滑。现实里很多制造企业并不是主动选择务实路线，而是卡在系统集成和数据质量。仿真模型的历史数据是否完整，PLM、MES、CAD、测试台架是否打通，决定了AI能不能进流程。没有这些底座，再好的模型也只能停在报告生成和文档检索。文章把 adoption barrier 讲得比较抽象，没有给出一条硬数字，比如仿真缩短了多少周期、缺陷率降了多少、认证时间少了多少，这让我对ROI叙事保留意见。不过它抓到了一件很重要的事：在物理世界里，AI先吃掉的不是“创意”，而是“验证成本”。这跟纯软件场景不同。代码写错能回滚，实体产品发出去就没这个待遇。所以工程团队把钱先投到验证、仿真、预测维护，我觉得完全合理。西门子、达索、Ansys、PTC 这类工业软件公司这两年一直在往这个方向推，把生成式接口包进数字孪生、CAE、需求管理和质量系统里。大家都知道开放式生成很吸睛，但真正能过采购会的，通常还是能把良率、能耗、缺陷率做成报表的工具。我的结论是，这份调查的价值不在“九成会加投”这个标题数字，而在它把工业AI的排序讲清了：先证明不会出事，再证明能省钱，最后才谈设计范式变化。要是后续报告拿不出行业拆分、基线指标和验证结果，这条就只是一份气氛调查；要是能补上“哪些团队把AI接进了发布签核链路”，那就有硬度了。

HKR 分解

hook —knowledge ✓resonance ✓

→ 打开信源

SCORE

H0·K1·R1

10:42

46d ago

Google 研究院· rssEN10:42 · 03·12

Google Research 推出 Groundsource：用 Gemini 把新闻报道转成数据

Google Research 介绍 Groundsource，条件只有标题：它用 Gemini 把新闻报道转成数据。RSS 片段正文为空，发布时间、输入形式、抽取字段、评测数字都未披露。真正该盯的是可复现细节；现在能确认的只有产品名、Gemini 参与，以及面向新闻数据化这个方向。

#Tools#Google Research#Gemini#Groundsource

精选理由

现在能确认的只有 Google Research 发布 Groundsource，并用 Gemini 处理新闻数据化。HKR 只命中 H；K 缺少机制、字段和评测，R 也没落到采编或数据业务影响，所以放在低分 all，不进 featured。

编辑点评

Google Research 只放出一个标题。没有字段、评测、输入样例的“新闻转数据”，我先不买账。

深度解读

Google Research 这次只公布了 Groundsource 这个名字，并说它用 Gemini 把新闻报道转成数据；发布时间有 1 个时间戳，正文对输入格式、抽取字段、评测数字都未披露。我的判断很直接：这条现在还不够构成能力声明，它更像方向预告，不像可验证发布。我对“把新闻变成数据”这句口号一直比较警觉。新闻抽取不是新问题，GDELT、Diffbot、Event Registry 这类系统很多年前就在做，区别从来不在“能不能抽”，而在 3 个硬指标：schema 是否稳定、跨来源冲突怎么解、时间更新后的回填怎么做。标题只给了 Gemini 参与，这离可用还差很远。要是没有明确 schema，模型今天抽 company、tomorrow 抽 organization，数据仓库直接烂掉。要是没有 source attribution 和 confidence，后续分析根本没法审计。 Google 自己其实最该知道这件事有多难。Gemini 近一年的长上下文和工具调用能力确实适合做信息抽取，我记得 Google 在多文档理解、长文处理上一直把这当卖点，但那是模型能力，不等于数据产品成立。数据产品要看 precision、recall、去重率、延迟、人工复核成本。正文一个数都没给，我还没法判断它是 research demo，还是能进生产。我还有个疑虑：如果 Groundsource 主要依赖通用模型做后处理，成本会很难看。新闻流是高频输入，按篇抽取再做实体对齐，token 成本和人工质检会一起涨。OpenAI、Anthropic、Google 过去一年都在推结构化输出和 function calling，原因很现实：大家都发现“抽成 JSON”比“写得像懂了”难得多。Groundsource 要证明自己，至少得拿出一组可复现样例：给 100 篇新闻、定义 20 个字段、报 F1 或人工一致性，再说多语种和时效。现在只有标题，我只能把它看成 Google 在给 Gemini 找一个很顺的展示场景，不把它当成熟系统。

HKR 分解

hook ✓knowledge —resonance —

→ 打开信源

SCORE

H1·K0·R0

08:01

46d ago

阮一峰的网络日志· rssZH08:01 · 03·12

零安装“云养虾”：ArkClaw 使用指南

字节把 ArkClaw 作为 Coding Plan 绑定服务推出，Pro 首月49.9元可长期使用，Lite 首月9.9元仅免费体验7天。文中确认 ArkClaw 在火山方舟云主机预装 OpenClaw，支持飞书、钉钉、企业微信消息绑定，网页终端显示底层为 Ubuntu；正文未披露长期续费价格与主机规格。真正值得盯的是，它把云端代理、模型配额和消息推送绑成一套，省掉本地安装，但能力边界仍取决于 OpenClaw 与所加载 Skill。

#Agent#Tools#Memory#ByteDance

精选理由

H、K 有信息量：标题有反差，正文也给出49.9/9.9元、7天体验和预装 OpenClaw。分数仍压到 excluded，因为题材是火山方舟托管服务的使用指南，命中云厂商促销；长期续费、主机规格和独立效果验证都未披露。

HKR 分解

hook ✓knowledge ✓resonance —

→ 打开信源

SCORE

H1·K1·R0

全部 · 2026-03-12

更多

频道

后台