ax@ax-radar:~/daily/2026-05-09 $ cat newsletter/daily/2026-05-09.md
41 srcsignal 72%cycle 04:32
AX 的 AI 日报 · 2026-05-09省钱比参数重要

今天 AI 圈在拼省钱,不是拼参数

今天 AI 圈最有意思的不在某个模型又刷榜了,是几件事同时指向同一个方向:怎么把成本打下来。百度说 ERNIE 5.1 预训练成本只要别人的 6%,Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook 跑出 27 tok/s,OpenRouter 出了个免费工具帮你自动挑最便宜的编码模型。先来看百度这个数字到底怎么算的。

百度说 ERNIE 5.1 成本只要别人 6%,但没说是跟谁比

这条我会先打个折。百度发布了 ERNIE 5.1,基于 5.0 的底子做了升级,主要提升搜索、推理、知识问答、创意写作和智能体能力。最抓眼球的数字是预训练成本只有对标模型的 6%,但缺了两个关键信息:对标的是谁,怎么算出来的。

成本低到这个程度,要么是用了 5.0 的底子省了大笔算力——等于在旧模型上微调,不是从头训——要么是统计口径有讲究,比如只算了某一阶段的算力消耗。百度没给具体金额,也没说在哪些基准上测了、效果提升多少。

有意思的是,AI HOT 也收录了这条,说明行业确实在盯着大厂的训练成本。但说实话,没有对标对象和计算方法的成本数字,更像 PR 话术。如果对标的是 GPT-4 级别模型,6% 确实惊人;如果对标的是自家上一代,那就不值得大惊小怪。

至于实际效果,得等第三方评测出来再看。现在只能说:数字很漂亮,但先别急着信。

Redis 作者用几千行 C 代码把 DeepSeek V4 Flash 塞进 MacBook

这条是真的有意思。Antirez,Redis 的作者,开源了一个叫 ds4 的推理引擎,专门给 DeepSeek V4 Flash 用。代码只有几千行 C,能在 128GB 内存的 MacBook Pro 上跑 100 万 token 上下文的模型,实测 27 tok/s

他用了三招:对 MoE 专家做不对称 2-bit 量化来压缩模型体积;把 KV Cache 搬到高速 SSD 上,绕开内存不够的问题;再给苹果芯片做纯 Metal 原生优化。这三招加起来,把原本需要云端 GPU 集群才能跑的模型,硬塞进了个人电脑。

但代价正文没提。2-bit 量化会损失多少精度?SSD 换内存的延迟对推理质量有什么影响?这些都没说。27 tok/s 的速度能读,但离"流畅对话"还有距离——大概是人说话速度的两倍,但比云端 API 慢一个数量级。

不过方向是对的。如果这种极致工程优化能普及,个人设备跑大模型的门槛会大幅降低。Antirez 这波操作更像在证明"可以做到",而不是给一个能直接用的产品。AI HOT 也收录了这条,说明社区对模型平民化的关注度很高。

OpenRouter 出了个免费工具,帮你自动挑最便宜的编码模型

OpenRouter 推出了一个实验性工具 Pareto Code,免费使用。你在请求里加一个 min_coding_score 参数,工具会根据 Artificial Analysis 的排名,自动把编码任务路由到满足分数要求且成本最低的模型上。直接看,就是帮你省钱的——不用手动比价,系统替你挑最便宜的。

数据源是 Artificial Analysis 的排名,可信度还行。但缺少 min_coding_score 具体怎么算、覆盖哪些模型,实际效果得自己试。免费是亮点,但实验性意味着不稳定,别当主力用。

这个工具的思路很清晰:模型能力趋同之后,竞争从"谁更强"转向"谁更便宜"。OpenRouter 作为中间层,帮用户在价格和性能之间找最优解,自己赚手续费。对开发者来说,如果这个工具稳定下来,确实能省不少钱。

腾讯混元 Hy3 免费期结束,三项指标排第一

腾讯混元说 Hy3 预览版在 OpenRouter 上两周免费期内,总 token 用量、代码生成和工具调用三项指标都排第一,市场份额冲到 15.4%。现在免费期结束,但还能以"有竞争力的价格"继续用。

注意这是免费期数据——用户冲着免费来,用量高不代表付费后能维持。具体价格没披露,想省钱的话得自己去 OpenRouter 看报价。AI HOT 也收录了这条,说明市场在盯着国产模型的定价策略。

Hy3 的表现确实不错,但免费期的数据要打折看。如果付费后价格比 GPT-4 便宜一半以上,那竞争力很强;如果价格接近,用户可能回流到更成熟的模型。

工信部启动 AI 伦理审查先导计划,先在几个先导区省份跑通流程

工信部发了个通知,要在国家人工智能产业创新应用先导区所在的省份,先试着把 AI 伦理审查这件事落地跑起来。计划里安排了四件事:让各省把审查制度细则定清楚;让企业、研究机构自己建 AI 伦理委员会;动真格做审查,高风险 AI 活动要组织专家复核;再搭一个全国伦理风险监测网络。

但正文没提具体时间表和违规怎么罚,落地力度还得看后续细则。AI HOT 也收录了这条,说明政策层面在加速推进 AI 治理。

这件事的影响不在当下,而在未来几个月到一年。如果审查流程跑通了,国内 AI 产品的上线门槛会提高,特别是涉及人脸识别、自动驾驶、医疗诊断这些高风险领域。对创业公司来说,合规成本会增加;对大厂来说,可能反而是护城河。

今日小信号

  • SpaceX 提交 SpaceXAI 商标:马斯克把 xAI 和 SpaceX 绑到一个商标下,想把"上火星"和"搞超级智能"放在一个实体里做。但只有申请提交,没审批进度和具体产品,先当品牌占位看。
  • 特斯拉用视觉 AI 提前"看"到碰撞:摄像头画面和碰撞传感器结合,不等撞实就先拉安全带、备气囊。但缺少车型和具体降伤数字,这点先别太激动。
  • YC 老板 Garry Tan 开源 GBrain:五个月啃完 20 多本书、管着 10 万页知识库的个人 AI 系统。但缺少实际效果验证,先当个高级玩具看。
  • Peekaboo 3.0 发布:主打"先动手"的 Mac 操作,让模型直接执行任务而不是先看再点。但缺少用了哪个模型、定价多少。
  • DeepSeek 融资 70 亿美元:以 500 亿美元估值进行融资,创始人梁文锋个人出资 30 亿,占本轮 40%,仍保留公司 90% 所有权。这笔钱主要用来买算力,加速 V4.1 等新模型发布。

更多

频道

后台