AX 的 AI 日报 · 2026-05-17工具链变厚

今天 AI 圈在拼工具链，不是模型

2026年5月17日

今天 AI 圈最值得看的不是某个模型又刷新了榜单，是几件事同时指向同一个方向：工具链在变厚。Cursor 把代码助手的纠错信号从“最后打分”改成了“犯错当场插提示”，训练数据量翻了 25 倍；Grok 上线了“技能”功能，教它一次偏好就能跨对话记住；腾讯把设计稿生成和转代码打通了。先来看 Cursor 这一笔。

Cursor 把纠错信号从“最后打分”改成了“犯错当场插提示”

这条我会先打个折——Cursor 这次升级的不是底层模型，还是 Kimi K2.5，但改的东西比换模型更有意思。

Cursor 把代码助手 Composer 升级到了 2.5 版，核心变化是纠错方式：以前模型写完代码，系统给一个总分，模型得自己猜哪里扣分了。现在改成在模型犯错的地方直接插一句提示，比如“提醒：可用工具有这些”，让模型在那个点上学会纠正。这比靠最后的总分去猜哪里做错了，效率高得多。

另一个动作是训练数据量翻了 25 倍，而且动态生成更贴近真实编程场景的数据。这两件事加在一起，等于在不换模型的前提下，把“教模型怎么写对代码”这件事做得更精细了。

有意思的地方在于，Cursor 没走“换更大模型”的路，而是在训练信号和数据质量上做文章。这跟最近行业里“模型能力趋同、工具链分化”的趋势对得上。模型本身越来越像水电煤，真正拉开差距的是怎么用、怎么调、怎么喂数据。

至于效果到底提升多少，正文没给具体基准测试数据，这点先别太激动。

Grok 上线“技能”功能，教它一次就能跨对话记住

这条挺实用。xAI 在 5 月 18 日 给 Grok 加了个“技能”功能，覆盖网页、iOS 和安卓。你可以把格式偏好、工作流步骤或常用规则教给 Grok 一次，之后所有对话都会自动沿用，不用每次重复。

内置了生成 Word 文档、PPT 幻灯片、Excel 表格和 PDF 的技能，开箱即用；不满意可以自己覆盖。还能通过对话或上传文件新建自定义技能，做完的格式和流程可以分享给其他人用。

这个功能解决了一个很实际的痛点：每次开新对话都要重新讲一遍“我要什么格式”“我的偏好是什么”。现在教一次就行，对日常办公场景挺友好。内置的直接生成 Office 文档能力，也让 Grok 从“聊天工具”往“办公助手”挪了一步。

但正文没提技能存储在哪里、跨设备同步的延迟、以及自定义技能有没有数量上限。如果技能数据存在本地，换设备就没了；如果存云端，隐私怎么处理也没说。

腾讯把设计稿生成和转代码打通了，但公测阶段没给任何效果数据

腾讯云上线了自家的 AI 设计工具 Ardot，定位是给产品、设计和开发用的协作平台。核心功能就两个：一是用一句话描述就能生成 App 页面、官网、海报这类可编辑的设计稿，支持调用团队自己的组件库来保证风格统一，也能直接导入 Figma 文件接着改；二是设计稿可以一键转成代码，把变量、组件、布局这些细节数据直接拉进 CodeBuddy 这类 IDE 里。

这个思路是对的——设计和开发之间的“切图转代码”环节一直是效率黑洞，打通了确实能省不少时间。但公测阶段没给任何效果数据或实际案例，生成的代码质量、组件还原度、对复杂布局的支持程度全都没说。

我会先打个折：功能听着不错，但没跑过实际项目之前，别当主力工具。

微软 AI 老大说 18 个月内 AI 能干完所有白领活，但没给任何数据撑这个时间表

微软 AI 负责人 Mustafa Suleyman 在《财富》采访里给了一个很激进的时间表——18 个月内 AI 会达到人类水平，把会计、法律、营销、项目管理这些坐在电脑前干的活全自动化。他的原话是“所有白领工作都会被完全取代”。

Suleyman 还说自己的目标是搞出“超级智能”，以后建一个新 AI 模型会像录播客或写博客一样简单。

这个说法我不太买账。不是质疑 AI 最终能不能做到这些事，而是 18 个月这个时间表缺少任何实验数据或产品路线图来支撑。目前 AI 在专业任务上的表现还是“能辅助、难替代”——能写法律文书初稿，但需要律师审核；能做财务报表，但需要会计把关。从“辅助”到“完全取代”，中间隔着可靠性、责任归属、监管合规一堆坎。

“所有白领工作都会被完全取代。”

这话更像愿景，不是预测。先当方向看，别当倒计时。

Anthropic CEO 说软件会基本免费，职业结构要巨变

跟 Suleyman 的激进时间表不同，Anthropic CEO Dario Amodei 在《华尔街日报》采访里的判断更偏结构性的变化。他说软件成本将急剧下降，可能基本免费，传统软件需要百万用户分摊成本的前提将不再成立。

同时，他认为数十年来建立的许多工作和职业可能消失，但社会能够应对并适应这种变化。他警告人们目前完全未意识到即将到来的变革及其巨大规模。

Amodei 没给具体时间表，这点比 Suleyman 务实。但他说的“软件基本免费”这个判断值得认真看——如果 AI 让软件开发成本趋近于零，那整个 SaaS 行业的定价模型都要重写。不是“会不会”的问题，是“多快”的问题。

开源工具 api-relay-audit 能揪出 AI API 中转站有没有偷工减料

这个工具专门查中转站三类小动作：改写工具调用指令、用报错信息泄露模型身份、偷偷截断上下文。它给出的是可复现的三态结果（有/无/不确定），附带透明日志，比 hvoy.ai 和 cctest.ai 这类工具更可信。

作者把检测方法、对比结果和速查表都公开了，工具本身也开源了。

这事有意思的地方在于，随着 API 中转站越来越多，用户其实很难知道自己调用的到底是不是宣称的模型、上下文有没有被截断、指令有没有被改过。这个工具等于给了一个可验证的检查手段。对重度依赖 API 的开发者来说，值得跑一遍。

今日小信号

Grok Imagine 图像生成上线 X，所有用户都能用，能出写实风格、多比例图片。但没提收费、地区限制、模型大小和生成速度，先别急着当主力工具。
阿里云上线 HappyHorse 视频模型，文字直出 1080p 多镜头视频，限时 8 折。但原价多少、参数量多大、可用区域全都没说，效果得自己跑几条片子才知道。
Garry Tan 开源 GBrain，一个 8 层结构的 Agent 记忆系统，能让 Agent 记住用户的人际关系、决策过程甚至认知变化。OpenClaw、Hermes 等已在生产环境用它，但缺少仓库地址和性能指标。
DeepSeek V4 实测：有人拿它啃代码库，15-25 万 token 时写代码最顺手，超 30 万行号定位就飘，52 万直接变架构总结。帖子没给测试任务和指标，先打个折。
Hermes 一个指令切换七家模型，支持 GPT-5.5、Grok-4.3、DeepSeek V4 等，用户需自备 API 密钥。省去手动换平台，但缺少切换延迟和成本对比。