今天 AI 圈在拼落地,不是拼参数
今天 AI 圈最有意思的不在某个模型又刷榜了,是几件事同时指向同一个方向:把 AI 塞进真实流程。苏度科技的机器人没碰过真机数据就能抓东西,人大团队让 AI 连续跑了 23 小时实验,Anthropic 研究员把两周的代码工作压到一天。但每条都得打个折——数字漂亮,验证还缺。先来看苏度这一手。
苏度说零真机数据抓取成功率 98%,数字漂亮但缺验证
这条我会先打个折。苏度科技放出了他们的具身智能首秀 Sudo R1,说是在完全没有用真实机器人数据训练的情况下,对 100 多种没见过的物体——包括透明、金属、软的和反光的东西——首次抓取成功率约 98%,试两次基本能到 100%。整个演示跑了 60 分钟。
他们用的方法是在高保真模拟器里结合世界模型和强化学习来训练,相当于先在虚拟世界里把技能练好再搬到真机上。公司估值已经超过 20 亿美元,背后有 宁德时代和复旦大学的支持。
有意思的地方在思路:如果真能靠纯仿真训练达到这个水平,意味着机器人公司不用再花大价钱建真机数据采集产线。但问题也在这——98% 这个数字缺少测试协议和第三方验证。100 多种物体是怎么选的?抓取失败的那 2% 是什么情况?透明和反光物体在仿真里本来就难模拟,搬到真机上泛化能力到底怎么样,现在只能看到一段演示视频。
具身智能这个赛道今年很热,但数字水分也大。先留着,等第三方复现。
人大团队让 AI 连续跑了 23 小时实验,核心不是堆 Agent,是把文件当总线
这条的思路挺有意思。人大高瓴人工智能学院放出了一个叫 AiScientist 的系统,在 MLE-Bench Lite 的一个侮辱性言论检测任务上连续跑了 23 小时、74 轮实验,把验证集 AUC 从 0.903 拉到了 0.982,中间刷新了 18 次最佳成绩。
论文的核心观点是:长程记忆的关键不在多 Agent 协作,而在状态连续性。他们搞了个 File-as-Bus 机制,把分析、代码、日志、结果全持久化到文件系统里,每一轮实验都能读到上一轮的全部上下文。这跟现在主流的做法——靠多个 Agent 互相传消息来维持记忆——思路完全相反。
说实话,这个方向我比较买账。多 Agent 系统的通信开销和状态同步一直是坑,文件系统反而是最可靠的共享内存。但得注意,这只是单一任务上的表现,换一个领域能不能复现这个稳定性,论文没展开。而且 23 小时跑 74 轮,时间效率上还有优化空间。
Anthropic 研究员讲 vibe coding 的正确姿势:2 周变 1 天,但别让 AI 碰核心逻辑
Anthropic 研究员 Erik Schluntz 分享了他团队用 Claude 写生产代码的真实工作流。他们最近合并了一个 2.2 万行的生产环境改动,大部分代码由 Claude 生成,把原本两周的工作压缩到了一天。
他的做法很具体:先花 15-20 分钟让 AI 通读代码仓库、做规划,然后只让 AI 改叶子节点——也就是依赖最少、影响范围最小的模块。核心逻辑还是人写,AI 只动边缘模块。
这个分工思路很务实。现在 AI 写代码最大的问题不是生成能力,是改出 bug 之后人看不懂。只动叶子节点意味着出问题容易定位,回滚成本低。但 2.2 万行一天搞定这个速度,前提是代码仓库结构清晰、测试覆盖到位——不是所有团队都有这个条件。
"核心逻辑还是人写,AI 只动边缘模块。"
同一个 9B 模型,换个脚手架编程得分从 19% 跳到 45%
这条先别太激动,但思路值得看。有人拿 Qwen3.5-9B 的 Q4 量化版跑 Aider 的多语言编程基准(225 道题),只换了调用模型的外层脚手架,平均 pass@2 就从 19.11% 拉到了 45.56%。
这个叫 little-coder 的脚手架不是新模型,它做了几件事:限制推理步数、加写文件前的安全锁、让模型主动扫描工作区文件,以及每轮塞一点针对性技能提示。核心观点是:模型能力就在那,怎么调用它比模型本身更重要。
但得说清楚,这只跑了两轮,样本量不够下结论。而且 45.56% 的 pass@2 在编程基准里也不算高,只是相对 19% 提升明显。脚手架优化的天花板在哪,换个大模型还能不能继续涨,都没测。
Cloudflare 开源无损压缩方案,8B 模型省 3GB 显存,但缺吞吐量数据
Cloudflare 发了一个叫 Unweight 的压缩方案,专门解决大模型在 GPU 上跑时被显存带宽卡脖子的问题。它只压缩 BF16 格式里的指数位,不碰尾数,所以解压后能还原出完全一致的输出。实测一个 8B 模型能省下约 3GB 显存,压缩率在 15% 到 22% 之间。
原理是模型某一层里超过 99% 的权重只用到 16 种指数值,Unweight 利用这个稀疏性做压缩。思路很干净,无损这个卖点对生产环境也有吸引力。
但缺一个关键数字:吞吐量。压缩和解压本身要算力,实际推理速度是涨了还是跌了,正文没给。如果省了显存但推理慢了,对实时场景就不划算。这点先别太激动,等 benchmark。
保险公司开始把 AI 责任踢出保单,信号明确但细节模糊
保险公司开始在企业责任险里动手脚,想把 AI 造成的伤害排除在理赔范围外。这对用 AI 干活的公司是个信号:出了事可能得自己扛。
但文章没给出具体条款和判例,风险到底多大还不清楚。哪些保单被改了?涉及多少案例?监管机构什么态度?全没披露。只能说方向是明确的——保险业在用脚投票,认为 AI 风险不可定价。
今日小信号
- **荣耀人形机器人"闪电"**在北京半马跑出 50 分 26 秒,比人类世界纪录快近 7 分钟,但它中途撞上护栏摔倒,靠人扶起来才完赛。进步主要在硬件能撑完全程,别急着解读成 AI 大突破。
- Vercel 确认发生安全事件,黑客正在兜售窃取的员工数据。攻击入口是一个第三方 AI 工具,但官方死活不说是哪家供应商,这让人怎么自查?
- 西门子 CEO 罗兰·布施直接放话:如果欧盟不改 AI 监管规则,公司就把 AI 投资优先给美国和中国。这是资本表态,不是产品发布,缺少金额和时间表。
- Google 让 Gemini 读取用户照片和邮件来生成个性化图片,欧盟叫停了,美国用户已上线。生物识别数据进生成管线,监管战不是要不要打的问题,是已经在打。
- 开发者把微软的 TRELLIS.2 图生 3D 模型移植到了苹果芯片上,M4 Pro 跑一次约 3.5 分钟,不用 Nvidia 显卡。