ax@ax-radar:~/daily/2026-04-19 $ cat newsletter/daily/2026-04-19.md
44 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-04-19工程补课

今天 AI 圈在补工程课

今天几条最有意思的事,表面上都在讲模型更强、机器人更会动、AI 更会写代码,底下其实是一门朴素的工程课:记忆怎么续上,边界怎么收住,风险谁来买单。苏度 Sudo R1 把「零真机数据」抓取成功率报到 98%,人大 AiScientist 跑了 23 小时 74 轮实验,Anthropic 则把 Vibe Coding 讲成了一套刹车系统。

零真机数据抓取 98%,苏度先把牛皮吹到天花板

具身智能圈最近最容易让人停下来的数字,是 98%

苏度科技发布了具身模型 Sudo R1,说自己在「零真机数据」和 zero-shot 条件下,完成了 200 多次抓取测试,首试成功率约 98%,两次尝试内接近 100%。测试持续 60 分钟,覆盖 100 多个未见物体,里面还有透明、金属、柔性、反光这些对机器人手眼协调不太友好的目标。

它的说法是,模型在高保真仿真器里,用世界模型和强化学习一体化训练,再迁移到现实抓取。公司还顺手把资本故事也抬了出来:新一轮融资后估值突破 20 亿美元,并且已经和 宁德时代做联合开发。

这套叙事很漂亮。漂亮到需要先把手放在刹车上。

机器人抓取这件事,最怕的是测试集太乖。物体怎么摆、光照怎么给、失败怎么算、是否允许人工复位、对照组是谁,都会显著影响数字。上游摘要没有披露融资金额,也没有披露完整基准定义、第三方验证和复现实验。**98%**当然猛,但如果没有这些边界,它更像一张很会说话的产品海报。

这里有意思的不是「机器人马上进厂打工」这种老桥段,而是具身公司开始学会用模型公司那套发布语言:大数字、少细节、强对比,再配一个产业客户。苏度这次把仿真到现实的故事讲得很满,下一步就该看它愿不愿意把基准也讲满。

这一笔我先记账,不先认账。

23 小时 74 轮实验,人大把记忆钉在文件里

做 AI 科研助理,最尴尬的画面不是它不会写代码,而是它第二天醒来,像失忆同事一样问你昨天干到哪了。

中国人民大学团队发布的 AiScientist,刚好把刀落在这个地方。它在 MLE-Bench LiteDetecting Insults 任务中自主运行 23 小时,完成 74 轮实验,把 validation AUC 从 0.903拉到 0.982,过程中出现 18 次 best-so-far 更新。

论文里最值得看的机制叫 File-as-Bus。不是多塞几个 agent,也不是让模型「更像科学家」,而是把分析、代码、日志和实验记录持续写回 workspace,让工作区本身成为状态总线。移除这个机制后,PaperBench 分数降了 6.41 分MLE-Bench LiteAny Medal 降了 31.82 个百分点

这就很现实。长程任务里的 agent,常常不是死在推理能力,而是死在状态连续性。它会忘掉实验假设,忘掉已经试过的参数,忘掉某个错误日志为什么出现,最后在一个看似聪明的循环里重复劳动。

AiScientist这条我买账一半。买账的是方向:把记忆外置到文件系统,把过程变成可追踪资产,而不是指望模型脑内永远清醒。保留的是距离:一个 benchmark 上的长跑,不等于真正接手科研流程。真实科研里还有选题、负结果、仪器误差、合作沟通,以及一堆没人想写进日志的脏活。

但至少它提醒了一件事:agent 要变长,不一定先换脑子,可能先换记事本。

Anthropic 的 Vibe Coding 课,重点不是 vibe,是刹车

「Vibe Coding」这个词被喊多了以后,很容易变成一种玄学:打开编辑器,召唤模型,然后祈祷 CI 绿灯。

Anthropic 研究员 Erik Schluntz讲的版本没那么浪漫。他说团队在生产环境合并了 22000 行代码改动,大部分由 Claude编写,用时从 2 周压缩到 1 天。但方法不是把主干系统直接交出去,而是先花 15 到 20 分钟让模型探索代码库并制定计划,再把改动限制在叶子节点,对核心区域做人审,用长时间压力测试和少量 E2E 测试验收。

听起来不像「忘记代码」,更像「别让模型碰方向盘太久」。

这套方法的关键词是边界。让模型先读、先计划,是为了减少盲改;限制在叶子节点,是为了控制爆炸半径;核心区域做人审,是承认现在的模型还不配无证上路。上游还提到,AI 可独立处理的任务长度约每 7 个月翻倍,这个判断如果成立,真正稀缺的可能不是模型写代码的速度,而是团队拆任务、验收和回滚的能力。

同一天还有个小信号也挺配套:有人只换 scaffold,就把 Qwen3.5-9B Q4Aider Polyglot 225题上的 mean pass@2 从 **19.11%**拉到 45.56%。新方案 little-coder不是新模型,而是加了受限推理预算、Write guard、显式工作区发现和按轮注入小技能。

这两个故事放在一起看,会把「模型能力」这件事压得没那么神。代码 agent 的表现,越来越像模型、脚手架、权限、测试和人审一起凑出来的系统分数。单独问「哪个模型最会写代码」,有时候像问一支乐队里谁最会摇滚。

小模型没有赢 Opus,它只是替 Opus 少交了上下文税

本地模型最近最有趣的用法,不是冲上来挑战闭源大模型,而是开始当大模型的苦力。

一名 Reddit 用户把 Qwen3.6 通过 LM Studio接入 Claude Code 子代理,在两个代码和内容审计任务中,把 Opus 单任务 token 降到约 1/30。一个例子里,23 个路由文件的审计从 13k边际 token 降到 0.4k;另一个 18 个 Astro 文件的页面盘点,从 89k降到 3k。测试模型是 unsloth Qwen3.6-35B-A3B-MXFP4_MOE gguf,跑在 64GB M4 Max 上,要求 64k上下文。

这不是 Qwen3.6碾压 Opus。上游也承认,质量不是单边胜利,两个模型各自漏检不同问题。真正的机制是分工:让本地 OpenAI 兼容服务先做提取、盘点、粗审,把最耗上下文的脏活累活卸掉,再把更贵的判断留给 Opus

不过本地化也有物理边界。另一名用户在 32GB M2 MacBook Pro 上跑 Qwen3.6-35B-A3B-UD-Q4_K_M 做真实代码修复,把 llama.cpp 上下文压到 32768 tokens 才不 OOM。结果多轮 compaction 后开始丢关键信息,第二轮摘要甚至退化回原始提示,连当前目录名都会记错。

这就很诚实了。模型卡到本地之后,掉链子的未必是「会不会写代码」,而是内存、上下文和任务状态。官方默认上下文是 262144 tokens,复杂任务建议至少 128K;你把它塞进 32GB机器里,它当然会像带着登机箱去搬家。

还有人让 Qwen3.6 agent 通过 SSH 直接操作 Cisco 交换机,跑通了本地 NetOps 流程。这个方向值得盯,但单个用户案例还缺成功率、回滚机制和安全边界。让 agent 改交换机配置,和让它改一篇 Markdown,心理压力不是一个级别。

本地模型的好日子正在来,但不是因为它们突然封神,而是因为大家终于开始精打细算。

半马 50 分钟的机器人,旁边还站着救援队

机器人跑步这件事,最适合做传播。镜头一推,机械腿一迈,标题就能写到天上去。

荣耀研发的人形机器人「闪电」在北京半程马拉松中以 50 分 26 秒完赛,快于 雅各布·基普利莫 57 分 20 秒的人类半马世界纪录。它身高约 1.65 米,腿长约 0.9 米,冲刺时撞上护栏摔倒,随后在人类协助下继续完赛。去年同类赛事最佳机器人成绩还是 2 小时 40 分 42 秒

成绩进步很硬,标题里的「快于人类世界纪录」就有点滑。

人类世界纪录是在严格竞赛规则下跑出来的,机器人这次有摔倒后人工协助,赛道、补给、规则和参赛条件都不是同一套比较体系。把它当成工程成熟度提升,可以;当成人形机器人已经在竞技意义上超过人类,就太会剪辑了。

另一边,智元在上海大会一次发布 4 款机器人6 个 AI 模型7 套标准化方案,还说 2026 年是具身智能从开发态转入部署态的元年。它给出的数字不少:远征 A3续航 8-10 小时WITA Omni 1.0交互时延低于 500msBFM 使用超过 1 亿帧700 小时动捕数据训练;公司还称 2025 年出货超 5100 台、份额 39%2026 年 3 月1 万台机器人下线。

这里的重心已经从「我有多像人」转到「我能不能批量交付」。3C 上下料、搬运、分拣、导览、巡检这些场景没那么性感,但比会后空翻更像生意。只是大量性能和客户效果仍来自公司口径,独立验证范围没有披露。

具身智能今天最像的不是科幻片,是装修队:能不能按时进场,能不能少返工,能不能出了问题有人接电话。

TRELLIS.2 跑上 M4 Pro,CUDA 绑定松了一颗螺丝

有些进展不吵,但会慢慢改变开发者的心理预期。

开发者 shivampkumar把微软 4B参数的 TRELLIS.2 移植到 Apple Silicon,用 PyTorch MPS跑通了单图生成 3D。为了让它脱离原来的 GPU 依赖,他替换了 flash_attnnvdiffrast和自定义稀疏卷积核,改用纯 PyTorch 稀疏 3D 卷积、SDPA注意力与 Python 网格提取。

结果当然不算快。M4 Pro 24GB 生成约 40 万顶点网格要 3.5 分钟,比 H100 的秒级慢不少。但它能离线跑,不依赖云端,也不需要把每次实验都送去租卡。

这类移植的价值,不在今天谁跑分好看,而在拆掉「这个方向只能在 CUDA 生态里玩」的默认设定。对独立开发者、小团队和教育场景来说,慢一点但可控,常常比快但昂贵更实际。

CloudflareUnweight也是同一类信号。它声称能在不改变输出位级结果的条件下,把 LLM 权重无损压缩 15% 到 22%。思路是针对 H100 等 GPU 的显存带宽瓶颈,只压缩 BF16 权重中的指数字节;典型层里超过 99% 权重只用 16 个指数值,8B模型大约能省 3GB VRAM

不过摘要没有给实测吞吐数字和适用模型范围,所以先别把它吹成通用推理加速器。片上解压和动态执行管线听起来很工程,但工程要看账:省下的带宽,能不能覆盖解压和调度成本。

今天的端侧和低成本推理,已经不是「能不能跑」这一道题,而是「跑得值不值」。这题比 demo 难,也更接近产品。

Vercel 被第三方 AI 工具开了门,保险公司先说不保

安全新闻最烦人的地方在于,它通常不提供爽点,只提供账单。

Vercel确认发生安全事件,影响「有限子集」客户,黑客正试图出售被盗数据。摘要称泄露信息包括员工姓名、邮箱和活动时间戳;Vercel表示入口是被攻陷的第三方 AI 工具,但没有披露具体供应商和受影响规模。

「limited subset」这种说法,安全事故里很常见,也很难让人安心。真正要看的不是某个账号失守,而是供应链入口:企业把越来越多内部数据、代码仓库、工单、日志接给 AI 工具,一旦这些工具成为入口,攻击面就不再只属于安全团队画的那张老图。

同一组材料里,还有一条更冷的消息:保险公司正寻求把 AI 相关损害排除在企业责任险之外。公开摘要没有披露具体险种、案例数量和监管口径,但动作本身很实在。安全宣言可以写得很漂亮,保险条款不会陪你抒情。

再看那份群聊日报里提到的几个问题:OpenAI iOS支付漏洞、MCP协议缺陷、Microsoft 365 Agents SDKKimi K2.6开源,以及 Copilot 停止接受新用户注册的消息。细节披露不完整,但共同指向很清楚:guardrails、审计链路、协议边界和企业接入还没完全过生产级那道坎。

AI 工具进入公司流程之后,最贵的不是模型调用费,可能是事故发生后每个人互相转发的那封邮件。

爱奇艺押注 AI 内容,西门子把投资脚挪到门口

今天还有两条不那么技术、但很像行业温度计的消息。

爱奇艺启动 16 年历史中最大规模重组,目标是在不久后让 AI 从零生成相当比例的电影和剧集。摘要没有披露模型、投入金额、内容占比和上线节点,所以「AI 原生影视」这句话先只能听一半。

视频平台想用 AI 降本增效并不新鲜,真正少见的是把组织重组押上去。内容行业的生产链条很长,从剧本、分镜、拍摄、后期、宣发到平台分发,AI 能插入很多环节。但「从零生成相当比例」这件事,不只是模型问题,还涉及审美稳定性、版权归属、演员和创作者关系,以及用户愿不愿意为机器味买单。

另一边,Siemens CEO Roland Busch表示,如果欧盟不修改 AI 监管规则,Siemens将优先把 AI 投资投向美国和中国,而不是欧洲。上游没有披露投资金额、时间表、业务线和具体监管条款,但这类表态已经不是单纯吐槽监管麻烦,而是在给资本配置预留出口。

再加上 GoogleGemini Personal Intelligence扩展到 Google Photos人脸数据、GmailYouTube历史和搜索活动,并已在 2026 年 4 月向美国付费订阅用户上线,标题里虽然包装成个性化 AI 图像,底下其实是生物识别和跨产品行为数据进入生成链路。欧盟反对的具体决定和执行范围,上游没有讲清楚,但争议点不难猜。

一边是平台希望 AI 更深入内容生产,一边是工业公司拿监管当投资路标,一边是大厂继续扩大个人数据使用边界。AI 的下一段路,不只看模型能生成什么,也看组织、监管和用户愿意把多少东西交出去。

这部分没有漂亮结尾,只有很多还没签完的授权书。

更多

频道

后台