AX 的 AI 日报 · 2026-04-19工程补课

今天 AI 圈在补工程课

2026年4月19日

今天几条最有意思的事，表面上都在讲模型更强、机器人更会动、AI 更会写代码，底下其实是一门朴素的工程课：记忆怎么续上，边界怎么收住，风险谁来买单。苏度 Sudo R1 把「零真机数据」抓取成功率报到 98%，人大 AiScientist 跑了 23 小时 74 轮实验，Anthropic 则把 Vibe Coding 讲成了一套刹车系统。

零真机数据抓取 98%，苏度先把牛皮吹到天花板

具身智能圈最近最容易让人停下来的数字，是 98%。

苏度科技发布了具身模型 Sudo R1，说自己在「零真机数据」和 zero-shot 条件下，完成了 200 多次抓取测试，首试成功率约 98%，两次尝试内接近 100%。测试持续 60 分钟，覆盖 100 多个未见物体，里面还有透明、金属、柔性、反光这些对机器人手眼协调不太友好的目标。

它的说法是，模型在高保真仿真器里，用世界模型和强化学习一体化训练，再迁移到现实抓取。公司还顺手把资本故事也抬了出来：新一轮融资后估值突破 20 亿美元，并且已经和 宁德时代做联合开发。

这套叙事很漂亮。漂亮到需要先把手放在刹车上。

机器人抓取这件事，最怕的是测试集太乖。物体怎么摆、光照怎么给、失败怎么算、是否允许人工复位、对照组是谁，都会显著影响数字。上游摘要没有披露融资金额，也没有披露完整基准定义、第三方验证和复现实验。**98%**当然猛，但如果没有这些边界，它更像一张很会说话的产品海报。

这里有意思的不是「机器人马上进厂打工」这种老桥段，而是具身公司开始学会用模型公司那套发布语言：大数字、少细节、强对比，再配一个产业客户。苏度这次把仿真到现实的故事讲得很满，下一步就该看它愿不愿意把基准也讲满。

这一笔我先记账，不先认账。

23 小时 74 轮实验，人大把记忆钉在文件里

做 AI 科研助理，最尴尬的画面不是它不会写代码，而是它第二天醒来，像失忆同事一样问你昨天干到哪了。

中国人民大学团队发布的 AiScientist，刚好把刀落在这个地方。它在 MLE-Bench Lite 的 Detecting Insults 任务中自主运行 23 小时，完成 74 轮实验，把 validation AUC 从 0.903拉到 0.982，过程中出现 18 次 best-so-far 更新。

论文里最值得看的机制叫 File-as-Bus。不是多塞几个 agent，也不是让模型「更像科学家」，而是把分析、代码、日志和实验记录持续写回 workspace，让工作区本身成为状态总线。移除这个机制后，PaperBench 分数降了 6.41 分，MLE-Bench Lite 的 Any Medal 降了 31.82 个百分点。

这就很现实。长程任务里的 agent，常常不是死在推理能力，而是死在状态连续性。它会忘掉实验假设，忘掉已经试过的参数，忘掉某个错误日志为什么出现，最后在一个看似聪明的循环里重复劳动。

AiScientist这条我买账一半。买账的是方向：把记忆外置到文件系统，把过程变成可追踪资产，而不是指望模型脑内永远清醒。保留的是距离：一个 benchmark 上的长跑，不等于真正接手科研流程。真实科研里还有选题、负结果、仪器误差、合作沟通，以及一堆没人想写进日志的脏活。

但至少它提醒了一件事：agent 要变长，不一定先换脑子，可能先换记事本。

Anthropic 的 Vibe Coding 课，重点不是 vibe，是刹车

「Vibe Coding」这个词被喊多了以后，很容易变成一种玄学：打开编辑器，召唤模型，然后祈祷 CI 绿灯。

Anthropic 研究员 Erik Schluntz讲的版本没那么浪漫。他说团队在生产环境合并了 22000 行代码改动，大部分由 Claude编写，用时从 2 周压缩到 1 天。但方法不是把主干系统直接交出去，而是先花 15 到 20 分钟让模型探索代码库并制定计划，再把改动限制在叶子节点，对核心区域做人审，用长时间压力测试和少量 E2E 测试验收。

听起来不像「忘记代码」，更像「别让模型碰方向盘太久」。

这套方法的关键词是边界。让模型先读、先计划，是为了减少盲改；限制在叶子节点，是为了控制爆炸半径；核心区域做人审，是承认现在的模型还不配无证上路。上游还提到，AI 可独立处理的任务长度约每 7 个月翻倍，这个判断如果成立，真正稀缺的可能不是模型写代码的速度，而是团队拆任务、验收和回滚的能力。

同一天还有个小信号也挺配套：有人只换 scaffold，就把 Qwen3.5-9B Q4 在 Aider Polyglot 225题上的 mean pass@2 从 **19.11%**拉到 45.56%。新方案 little-coder不是新模型，而是加了受限推理预算、Write guard、显式工作区发现和按轮注入小技能。

这两个故事放在一起看，会把「模型能力」这件事压得没那么神。代码 agent 的表现，越来越像模型、脚手架、权限、测试和人审一起凑出来的系统分数。单独问「哪个模型最会写代码」，有时候像问一支乐队里谁最会摇滚。

小模型没有赢 Opus，它只是替 Opus 少交了上下文税

本地模型最近最有趣的用法，不是冲上来挑战闭源大模型，而是开始当大模型的苦力。

一名 Reddit 用户把 Qwen3.6 通过 LM Studio接入 Claude Code 子代理，在两个代码和内容审计任务中，把 Opus 单任务 token 降到约 1/30。一个例子里，23 个路由文件的审计从 13k边际 token 降到 0.4k；另一个 18 个 Astro 文件的页面盘点，从 89k降到 3k。测试模型是 unsloth Qwen3.6-35B-A3B-MXFP4_MOE gguf，跑在 64GB M4 Max 上，要求 64k上下文。

这不是 Qwen3.6碾压 Opus。上游也承认，质量不是单边胜利，两个模型各自漏检不同问题。真正的机制是分工：让本地 OpenAI 兼容服务先做提取、盘点、粗审，把最耗上下文的脏活累活卸掉，再把更贵的判断留给 Opus。

不过本地化也有物理边界。另一名用户在 32GB M2 MacBook Pro 上跑 Qwen3.6-35B-A3B-UD-Q4_K_M 做真实代码修复，把 llama.cpp 上下文压到 32768 tokens 才不 OOM。结果多轮 compaction 后开始丢关键信息，第二轮摘要甚至退化回原始提示，连当前目录名都会记错。

这就很诚实了。模型卡到本地之后，掉链子的未必是「会不会写代码」，而是内存、上下文和任务状态。官方默认上下文是 262144 tokens，复杂任务建议至少 128K；你把它塞进 32GB机器里，它当然会像带着登机箱去搬家。

还有人让 Qwen3.6 agent 通过 SSH 直接操作 Cisco 交换机，跑通了本地 NetOps 流程。这个方向值得盯，但单个用户案例还缺成功率、回滚机制和安全边界。让 agent 改交换机配置，和让它改一篇 Markdown，心理压力不是一个级别。

本地模型的好日子正在来，但不是因为它们突然封神，而是因为大家终于开始精打细算。

半马 50 分钟的机器人，旁边还站着救援队

机器人跑步这件事，最适合做传播。镜头一推，机械腿一迈，标题就能写到天上去。

荣耀研发的人形机器人「闪电」在北京半程马拉松中以 50 分 26 秒完赛，快于 雅各布·基普利莫 57 分 20 秒的人类半马世界纪录。它身高约 1.65 米，腿长约 0.9 米，冲刺时撞上护栏摔倒，随后在人类协助下继续完赛。去年同类赛事最佳机器人成绩还是 2 小时 40 分 42 秒。

成绩进步很硬，标题里的「快于人类世界纪录」就有点滑。

人类世界纪录是在严格竞赛规则下跑出来的，机器人这次有摔倒后人工协助，赛道、补给、规则和参赛条件都不是同一套比较体系。把它当成工程成熟度提升，可以；当成人形机器人已经在竞技意义上超过人类，就太会剪辑了。

另一边，智元在上海大会一次发布 4 款机器人、6 个 AI 模型和 7 套标准化方案，还说 2026 年是具身智能从开发态转入部署态的元年。它给出的数字不少：远征 A3续航 8-10 小时，WITA Omni 1.0交互时延低于 500ms，BFM 使用超过 1 亿帧和 700 小时动捕数据训练；公司还称 2025 年出货超 5100 台、份额 39%，2026 年 3 月第 1 万台机器人下线。

这里的重心已经从「我有多像人」转到「我能不能批量交付」。3C 上下料、搬运、分拣、导览、巡检这些场景没那么性感，但比会后空翻更像生意。只是大量性能和客户效果仍来自公司口径，独立验证范围没有披露。

具身智能今天最像的不是科幻片，是装修队：能不能按时进场，能不能少返工，能不能出了问题有人接电话。

TRELLIS.2 跑上 M4 Pro，CUDA 绑定松了一颗螺丝

有些进展不吵，但会慢慢改变开发者的心理预期。

开发者 shivampkumar把微软 4B参数的 TRELLIS.2 移植到 Apple Silicon，用 PyTorch MPS跑通了单图生成 3D。为了让它脱离原来的 GPU 依赖，他替换了 flash_attn、nvdiffrast和自定义稀疏卷积核，改用纯 PyTorch 稀疏 3D 卷积、SDPA注意力与 Python 网格提取。

结果当然不算快。M4 Pro 24GB 生成约 40 万顶点网格要 3.5 分钟，比 H100 的秒级慢不少。但它能离线跑，不依赖云端，也不需要把每次实验都送去租卡。

这类移植的价值，不在今天谁跑分好看，而在拆掉「这个方向只能在 CUDA 生态里玩」的默认设定。对独立开发者、小团队和教育场景来说，慢一点但可控，常常比快但昂贵更实际。

Cloudflare 的 Unweight也是同一类信号。它声称能在不改变输出位级结果的条件下，把 LLM 权重无损压缩 15% 到 22%。思路是针对 H100 等 GPU 的显存带宽瓶颈，只压缩 BF16 权重中的指数字节；典型层里超过 99% 权重只用 16 个指数值，8B模型大约能省 3GB VRAM。

不过摘要没有给实测吞吐数字和适用模型范围，所以先别把它吹成通用推理加速器。片上解压和动态执行管线听起来很工程，但工程要看账：省下的带宽，能不能覆盖解压和调度成本。

今天的端侧和低成本推理，已经不是「能不能跑」这一道题，而是「跑得值不值」。这题比 demo 难，也更接近产品。

Vercel 被第三方 AI 工具开了门，保险公司先说不保

安全新闻最烦人的地方在于，它通常不提供爽点，只提供账单。

Vercel确认发生安全事件，影响「有限子集」客户，黑客正试图出售被盗数据。摘要称泄露信息包括员工姓名、邮箱和活动时间戳；Vercel表示入口是被攻陷的第三方 AI 工具，但没有披露具体供应商和受影响规模。

「limited subset」这种说法，安全事故里很常见，也很难让人安心。真正要看的不是某个账号失守，而是供应链入口：企业把越来越多内部数据、代码仓库、工单、日志接给 AI 工具，一旦这些工具成为入口，攻击面就不再只属于安全团队画的那张老图。

同一组材料里，还有一条更冷的消息：保险公司正寻求把 AI 相关损害排除在企业责任险之外。公开摘要没有披露具体险种、案例数量和监管口径，但动作本身很实在。安全宣言可以写得很漂亮，保险条款不会陪你抒情。

再看那份群聊日报里提到的几个问题：OpenAI iOS支付漏洞、MCP协议缺陷、Microsoft 365 Agents SDK、Kimi K2.6开源，以及 Copilot 停止接受新用户注册的消息。细节披露不完整，但共同指向很清楚：guardrails、审计链路、协议边界和企业接入还没完全过生产级那道坎。

AI 工具进入公司流程之后，最贵的不是模型调用费，可能是事故发生后每个人互相转发的那封邮件。

爱奇艺押注 AI 内容，西门子把投资脚挪到门口

今天还有两条不那么技术、但很像行业温度计的消息。

爱奇艺启动 16 年历史中最大规模重组，目标是在不久后让 AI 从零生成相当比例的电影和剧集。摘要没有披露模型、投入金额、内容占比和上线节点，所以「AI 原生影视」这句话先只能听一半。

视频平台想用 AI 降本增效并不新鲜，真正少见的是把组织重组押上去。内容行业的生产链条很长，从剧本、分镜、拍摄、后期、宣发到平台分发，AI 能插入很多环节。但「从零生成相当比例」这件事，不只是模型问题，还涉及审美稳定性、版权归属、演员和创作者关系，以及用户愿不愿意为机器味买单。

另一边，Siemens CEO Roland Busch表示，如果欧盟不修改 AI 监管规则，Siemens将优先把 AI 投资投向美国和中国，而不是欧洲。上游没有披露投资金额、时间表、业务线和具体监管条款，但这类表态已经不是单纯吐槽监管麻烦，而是在给资本配置预留出口。

再加上 Google把 Gemini Personal Intelligence扩展到 Google Photos人脸数据、Gmail、YouTube历史和搜索活动，并已在 2026 年 4 月向美国付费订阅用户上线，标题里虽然包装成个性化 AI 图像，底下其实是生物识别和跨产品行为数据进入生成链路。欧盟反对的具体决定和执行范围，上游没有讲清楚，但争议点不难猜。

一边是平台希望 AI 更深入内容生产，一边是工业公司拿监管当投资路标，一边是大厂继续扩大个人数据使用边界。AI 的下一段路，不只看模型能生成什么，也看组织、监管和用户愿意把多少东西交出去。

这部分没有漂亮结尾，只有很多还没签完的授权书。