今天 AI 圈在拼开源和禁令,不是模型
今天 AI 圈最有意思的不在某个模型又能写代码了,是两条线同时拉紧:一边是 MiniMax 和 Kimi 把模型权重扔上 HuggingFace,开源战从参数卷到上下文窗口;另一边是美国政府一纸禁令让 Anthropic 把 Fable 5 和 Mythos 5 全线下架,理由是一个很窄的越狱漏洞。先来看 Anthropic 这一下。
美国政府一纸禁令,Anthropic 把两个最强模型全下了
这条我会先打个折:信息缺口很大,但动作本身已经够猛了。
Anthropic 发声明说,美国政府以国家安全为由,要求立即禁止所有外国人使用 Fable 5 和 Mythos 5,连自家外籍员工都不行。为了合规,公司只能一刀切,把这两个模型对所有用户都下线了,其他模型不受影响。新对话自动切到用户默认模型或 Opus 4.8,已有的 Fable 5 会话直接报错,API 请求也一并失败。
政府给出的理由是发现了一种能绕过 Fable 5 安全护栏的越狱方法。但 Anthropic 看过演示后认为,这只是一个很窄的、非通用的方法,其他公开模型也能做到。公司公开抱怨,说政府仅凭一个很窄的潜在越狱发现,就把它已经部署给数亿用户的最强商用模型给撤了,认为这决定不合理。
有意思的是,DAIR.AI 的 Elvis Saravia 让大家别慌。他说 Fable 5 对多数任务本来就不值——成本高,性能还被砍过。他现在的建议还是规划用 Opus 4.8,执行用 GPT-5.5。
如果这是真的,监管力度挺猛。但信息缺口太大:没说是哪个政府部门、越狱具体怎么操作、什么时候恢复。没法判断是过度反应还是真有隐患。
MiniMax 把 M3 扔上 HuggingFace,428B 参数但只激活 23B
MiniMax 把 M3 的权重传上了 HuggingFace,技术报告和完整权重大概还要等 10 天。
这是个混合模型,总参数量 428B,但每次只激活 23B,靠 MiniMax 自研的稀疏注意力把上下文窗口撑到 100 万 token,还原生支持多模态。跑分方面:SWE-Bench Pro 59.0%、**Terminal Bench 2.1 66.
0%**、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。
配合 M3 发布的还有一篇论文,讲的是 MSA 稀疏注意力。做法是在 GQA 基础上加一个轻量的"索引分支",先给每块 KV 缓存打分,每个查询组只挑分数最高的一小部分块,主分支再对这些挑出来的块做精确注意力计算。配合专门写的 GPU 内核,一个 109B 参数的多模态模型在 H800 上处理 100 万 token 上下文时,预填充快 14 倍、解码快 7.6 倍,效果没掉。
但正文没提 109B 模型权重会不会放出来,家用卡能不能跑还得看后续。
Kimi 开源 K2.7-Code,跑分涨了但缺关键信息
Kimi 把最新的代码模型 K2.7-Code 开源了。
跟上一代 K2.6 比,它在自家三个测试集上分数都涨了:Kimi Code Bench v2 涨了 21.8%,Program Bench 涨了 11%,MLS Bench Lite 涨了 31.5%。推理时吐出的 token 量少了 30%,相当于同样的活儿更省算力。长代码任务里,模型更听指令、端到端成功率也提升了。
但没公布参数量、训练数据和开源协议。这点先别太激动——跑分涨了是好事,但不知道模型多大、怎么训的、能用什么协议部署,就很难判断实际成本和应用边界。
豆包把 Agent 塞进 App 顶栏,能定时干活、自动做网页和 PPT
字节跳动的豆包这次把 Agent 能力直接塞进了 App 里。
新加的"任务模式"可以定时执行任务、零代码生成网页、一键做 PPT,还能做数据可视化分析。原来的"思考模式"升级成"专家模式",底层换成了豆包大模型 2.0 Pro,推理会更深一些。App 顶栏现在三个模式切换:快速、专家、任务。
付费方面:基础功能免费,高阶服务要付费,标准版 68 元/月,加强版 200 元/月,专业版 500 元/月。最高每年 5088 元。
这不再是聊天,而是让模型进业务流程干活。但缺少任务模式的实际执行成功率、延迟和专家模式的推理基准,所以"深度推理"到底多深还不好说。值不值要看它能不能稳定交付可用成品,而不是只给个半成品让你自己改。
传 Mistral 正以 200 亿欧元估值融资 30 亿欧元
TechCrunch 听到风声,说法国大模型公司 Mistral 在搞一轮新融资,金额 30 亿欧元,估值冲到约 200 亿欧元。这个估值比它上一轮 C 轮的 117 亿欧元几乎翻了一倍。
不过缺少领投方是谁、钱具体怎么花、以及这轮什么时候能关账。估值跳得猛,但眼下还只是传闻,公司没官宣,我会先打个折看。
华为发布 openPangu 2.0,505B 参数只激活 18B
华为在 HDC 2026 上发了 openPangu 2.0,两个版本都是稀疏模型,Pro 版总参数 505B、实际干活只激活 18B,Flash 版总参数 92B、激活 6B,稀疏比拉到 28:1。上下文窗口 512K,专门为昇腾芯片做了优化,单卡吞吐量号称是主流开源模型的 2 倍。
余承东解释总参数量做这么大,是因为华为把大部分算力分给了其他国内企业,自己只能靠稀疏架构来补。6 月 30 日开源。
但缺少绝对跑分,只有相对提升百分比。稀疏比 28:1 意味着实际干活参数只有 18B,跟其他 20B 左右的模型比才公平,不能拿 505B 的总参数去对标。
今日小信号
- OpenAI 被美国多州总检察长联合调查:彭博这篇报道目前只有标题,缺少具体指控、涉及哪些州、调查范围有多大。这类联合调查通常意味着监管层在协调行动,比单州调查更值得关注,但没看到调查焦点之前,说不清是针对数据隐私、消费者保护还是反垄断。
- Anthropic 做了个覆盖 5.2 万美国人的民调:48% 的人把"治愈癌症"排进最想 AI 做成的事里,64% 怕失业。数据来自 2025 年底的线上问卷,样本按人口普查加权过。但 48% 是从 17 个选项里挑三个,不是单选,不能直接解读成"近半美国人最想让 AI 治病"。
- Oran Ge 开源了《人味儿写作心法.skill》:他用 Claude Fable 5 把同一篇文案改了三遍,发现改得越讲究,人味越淡。他把问题归结为"存在感"——作者在某个具体位置付出过具体代价,AI 没法复现。skill 的逻辑是让你先自己写或口述,再让 AI 润色,尽量保住活人气。开源免费挂在 GitHub 上。
- OpenRouter 官方省钱指南:在模型名后加
:floor后缀,系统自动选最便宜的供应商。以 Llama 3.3 70B 为例,不同供应商每百万 token 输入价格从 0.10 美元到 1 美元以上,:floor直接选最低价。还可用max_price设硬预算上限。注意:最低价可能是量化版,精度敏感任务别用。 - Allen AI 开源 olmo-eval 评测台:基于 OLMES 标准,专门解决模型开发过程中需要反复测试的麻烦。支持 agentic 和多轮评测,跑完分不只给个数字,还会附上标准误差和最小可检测效应。