ax@ax-radar:~/daily/2026-05-17 $ cat newsletter/daily/2026-05-17.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-17工具链变厚

今天 AI 圈在拼工具链,不是模型

今天 AI 圈最值得看的不是某个模型又刷新了榜单,是几件事同时指向同一个方向:工具链在变厚。Cursor 把代码助手的纠错信号从“最后打分”改成了“犯错当场插提示”,训练数据量翻了 25 倍;Grok 上线了“技能”功能,教它一次偏好就能跨对话记住;腾讯把设计稿生成和转代码打通了。先来看 Cursor 这一笔。

Cursor 把纠错信号从“最后打分”改成了“犯错当场插提示”

这条我会先打个折——Cursor 这次升级的不是底层模型,还是 Kimi K2.5,但改的东西比换模型更有意思。

Cursor 把代码助手 Composer 升级到了 2.5 版,核心变化是纠错方式:以前模型写完代码,系统给一个总分,模型得自己猜哪里扣分了。现在改成在模型犯错的地方直接插一句提示,比如“提醒:可用工具有这些”,让模型在那个点上学会纠正。这比靠最后的总分去猜哪里做错了,效率高得多。

另一个动作是训练数据量翻了 25 倍,而且动态生成更贴近真实编程场景的数据。这两件事加在一起,等于在不换模型的前提下,把“教模型怎么写对代码”这件事做得更精细了。

有意思的地方在于,Cursor 没走“换更大模型”的路,而是在训练信号和数据质量上做文章。这跟最近行业里“模型能力趋同、工具链分化”的趋势对得上。模型本身越来越像水电煤,真正拉开差距的是怎么用、怎么调、怎么喂数据。

至于效果到底提升多少,正文没给具体基准测试数据,这点先别太激动。

Grok 上线“技能”功能,教它一次就能跨对话记住

这条挺实用。xAI5 月 18 日Grok 加了个“技能”功能,覆盖网页、iOS 和安卓。你可以把格式偏好、工作流步骤或常用规则教给 Grok 一次,之后所有对话都会自动沿用,不用每次重复。

内置了生成 Word 文档、PPT 幻灯片、Excel 表格和 PDF 的技能,开箱即用;不满意可以自己覆盖。还能通过对话或上传文件新建自定义技能,做完的格式和流程可以分享给其他人用。

这个功能解决了一个很实际的痛点:每次开新对话都要重新讲一遍“我要什么格式”“我的偏好是什么”。现在教一次就行,对日常办公场景挺友好。内置的直接生成 Office 文档能力,也让 Grok 从“聊天工具”往“办公助手”挪了一步。

但正文没提技能存储在哪里、跨设备同步的延迟、以及自定义技能有没有数量上限。如果技能数据存在本地,换设备就没了;如果存云端,隐私怎么处理也没说。

腾讯把设计稿生成和转代码打通了,但公测阶段没给任何效果数据

腾讯云上线了自家的 AI 设计工具 Ardot,定位是给产品、设计和开发用的协作平台。核心功能就两个:一是用一句话描述就能生成 App 页面、官网、海报这类可编辑的设计稿,支持调用团队自己的组件库来保证风格统一,也能直接导入 Figma 文件接着改;二是设计稿可以一键转成代码,把变量、组件、布局这些细节数据直接拉进 CodeBuddy 这类 IDE 里。

这个思路是对的——设计和开发之间的“切图转代码”环节一直是效率黑洞,打通了确实能省不少时间。但公测阶段没给任何效果数据或实际案例,生成的代码质量、组件还原度、对复杂布局的支持程度全都没说。

我会先打个折:功能听着不错,但没跑过实际项目之前,别当主力工具。

微软 AI 老大说 18 个月内 AI 能干完所有白领活,但没给任何数据撑这个时间表

微软 AI 负责人 Mustafa Suleyman 在《财富》采访里给了一个很激进的时间表——18 个月内 AI 会达到人类水平,把会计、法律、营销、项目管理这些坐在电脑前干的活全自动化。他的原话是“所有白领工作都会被完全取代”。

Suleyman 还说自己的目标是搞出“超级智能”,以后建一个新 AI 模型会像录播客或写博客一样简单。

这个说法我不太买账。不是质疑 AI 最终能不能做到这些事,而是 18 个月这个时间表缺少任何实验数据或产品路线图来支撑。目前 AI 在专业任务上的表现还是“能辅助、难替代”——能写法律文书初稿,但需要律师审核;能做财务报表,但需要会计把关。从“辅助”到“完全取代”,中间隔着可靠性、责任归属、监管合规一堆坎。

“所有白领工作都会被完全取代。”

这话更像愿景,不是预测。先当方向看,别当倒计时。

Anthropic CEO 说软件会基本免费,职业结构要巨变

跟 Suleyman 的激进时间表不同,Anthropic CEO Dario Amodei 在《华尔街日报》采访里的判断更偏结构性的变化。他说软件成本将急剧下降,可能基本免费,传统软件需要百万用户分摊成本的前提将不再成立。

同时,他认为数十年来建立的许多工作和职业可能消失,但社会能够应对并适应这种变化。他警告人们目前完全未意识到即将到来的变革及其巨大规模。

Amodei 没给具体时间表,这点比 Suleyman 务实。但他说的“软件基本免费”这个判断值得认真看——如果 AI 让软件开发成本趋近于零,那整个 SaaS 行业的定价模型都要重写。不是“会不会”的问题,是“多快”的问题。

开源工具 api-relay-audit 能揪出 AI API 中转站有没有偷工减料

这个工具专门查中转站三类小动作:改写工具调用指令、用报错信息泄露模型身份、偷偷截断上下文。它给出的是可复现的三态结果(有/无/不确定),附带透明日志,比 hvoy.aicctest.ai 这类工具更可信。

作者把检测方法、对比结果和速查表都公开了,工具本身也开源了。

这事有意思的地方在于,随着 API 中转站越来越多,用户其实很难知道自己调用的到底是不是宣称的模型、上下文有没有被截断、指令有没有被改过。这个工具等于给了一个可验证的检查手段。对重度依赖 API 的开发者来说,值得跑一遍。

今日小信号

  • Grok Imagine 图像生成上线 X,所有用户都能用,能出写实风格、多比例图片。但没提收费、地区限制、模型大小和生成速度,先别急着当主力工具。
  • 阿里云上线 HappyHorse 视频模型,文字直出 1080p 多镜头视频,限时 8 折。但原价多少、参数量多大、可用区域全都没说,效果得自己跑几条片子才知道。
  • Garry Tan 开源 GBrain,一个 8 层结构的 Agent 记忆系统,能让 Agent 记住用户的人际关系、决策过程甚至认知变化。OpenClaw、Hermes 等已在生产环境用它,但缺少仓库地址和性能指标。
  • DeepSeek V4 实测:有人拿它啃代码库,15-25 万 token 时写代码最顺手,超 30 万行号定位就飘,52 万直接变架构总结。帖子没给测试任务和指标,先打个折。
  • Hermes 一个指令切换七家模型,支持 GPT-5.5、Grok-4.3、DeepSeek V4 等,用户需自备 API 密钥。省去手动换平台,但缺少切换延迟和成本对比。

更多

频道

后台