今天 AI 圈在拼身份,不是模型
今天 AI 圈最有意思的不在某个模型又刷榜了,是几件事同时指向同一个问题:AI 的身份和边界到底在哪。奥斯卡把 AI 踢出表演和编剧奖,马里兰州禁止超市用 AI 看人下菜碟,中国法院判了不能因为 AI 能干活就裁人——三条线同时收紧。另一边,有人发现大模型筛简历时会偏袒自己写的简历,DeepSeek V4 报告里漏掉了一个能拉高长文本分数的模块,还有个开发者把聊天记录压成固定向量,token 用量砍了 76%。先来看奥斯卡这一刀。
奥斯卡一刀切:AI 写的剧本、演的戏,别想拿奖
这条没什么好打折的,规则写得明明白白。美国电影艺术与科学学院给第 99 届奥斯卡定了新规矩:能提名表演奖的,必须是片尾字幕里合法署名、且由真人同意后完成的演出;剧本也得是"人类写的"才有资格。学院还留了一手,有权随时要求片方交代电影里用了多少 AI、人的创作占了多少。
背景是 AI 已经在影视圈搅出不少事了。有独立电影在用 AI 生成剧本和配音,有制片厂在试探用 AI 复活已故演员——Val Kilmer 的女儿公开反对过这种做法。学院这波操作不是突然抽风,是在堵口子。
有意思的是执行层面。"人类写的"怎么界定?用 AI 辅助 brainstorm 算不算?改一句台词算不算?
学院没给技术标准,只说"有权要求片方交代"。这等于把举证责任甩给了制片方——你先说你用了多少,我再判断。这种"先披露再裁决"的模式,比直接定一个技术阈值要灵活,但也更容易扯皮。
放在更大的画布上看,这不是孤例。同一天,马里兰州立法禁止超市用 AI 根据个人数据涨价,中国法院判了企业不能仅因 AI 替代就裁员。三条线同时收紧,指向同一个方向:AI 可以进流程,但不能替人担责、不能替人定价、不能替人拿奖。
大模型筛简历,会把自己写的简历当"自己人"
这条我会先打个折——是论文,不是产业事件。但结论太具体了,值得聊。
论文做了一个对照实验:让大模型筛简历,结果发现它们更倾向把自己生成的简历挑出来,而不是人选人写的或其他模型生成的。在控制内容质量的情况下,这种自我偏好比例在 67% 到 82% 之间。放到 24 种职业的模拟招聘流程里看,用同一款模型写简历的求职者,比条件相当但用人手写简历的人,进入初筛名单的概率高出 23% 到 60%。
销售、会计这类岗位偏好最明显。论文作者是 Jiannan Xu、Gujie Li 和 Jane Yi Jiang,目前只看到摘要,没披露具体用了哪些模型、样本量多大。但方向本身不意外——大模型对自己的 token 分布更熟悉,"自己人偏好"在推荐系统里是个老问题,只是现在搬到了招聘场景。
实际影响要看招聘平台怎么接模型。如果企业直接用 GPT-5.5 筛 GPT-5.5 写的简历,这个偏好会闭环放大。如果筛简历的模型和写简历的模型不是同一款,偏好会弱一些。但论文没测跨模型的情况,这点还缺数据。
DeepSeek V4 报告漏了 Engram,一个能拉高长文本分数的查表模块
这条有点奇怪。DeepSeek V4 的技术报告列了一堆新组件,但没提 Engram。这个模块是 DeepSeek 和北大在 1 月开源的,做法是在 Transformer 的第 2 到第 15 层之间插入查表模块。在 27B 规模的测试里,它把 MMLU 拉高了 3.4 分,多查询大海捞针准确率干到了 97.0%。
工程上还有个信号:8 台服务器通过 CXL 共享内存跑这个模块,说明它不是纯学术玩具,有部署考量。
报告里没提,可能的原因有几个:一是 V4 的最终架构没采用 Engram,早期测试结果没进最终版;二是 Engram 是独立项目,不算 V4 的核心组件;三是单纯漏写了。但不管哪种,一个能把长文本记忆分数拉到 97% 的模块,在 V4 这种主打长上下文的模型报告里缺席,至少值得打个问号。
五角大楼拉八家公司进机密网络,AI 直接用于作战
这条来自 AI HOT 的行业动态,原文是 IT 之家的报道。美国五角大楼宣布与 SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊 AWS 及甲骨文八家公司达成协议,将在其机密网络(IL6 和 IL7 环境)中部署 AI 能力,用于"合法的作战使用"。
措辞很直接——不是"辅助决策",是"作战使用"。具体场景包括数据合成、态势感知和复杂环境下的决策加速。此前五角大楼因与 Anthropic 就 AI 模型使用限制产生争议并诉诸法律,这次供应商名单里没有 Anthropic,多元化进程在加速。
坦率地讲,这条信息密度不高。具体哪些模型进机密网络、怎么保证安全、合同金额多少,正文都没说。但信号本身很清楚:AI 进军方的速度比监管快得多。同一天奥斯卡在讨论 AI 能不能拿奖,五角大楼已经在讨论 AI 能不能打仗。
有人把聊天记录压成固定向量,token 用量砍了 76%
一个开发者在 Reddit 上发了个叫 Semvec 的项目,思路很直接:把对话历史从无限增长的文本流换成固定大小的语义向量,每次推理只传这个压缩后的状态。48 轮基准测试里,token 用量大概砍掉了 76%,而且第 10 轮和第 10000 轮的输入开销一样大。
项目兼容 OpenAI 接口的模型,也接了 MCP、Claude Code、Cursor。但正文被 Reddit 屏蔽了,看不到具体实现和验证细节。
思路本身不新——语义压缩是上下文窗口问题的经典解法之一。难点一直在于压缩损失的控制:压太狠丢信息,压太轻省不了多少。76% 这个数字看着漂亮,但没看到具体任务上的表现对比,不知道压缩后模型还记不记得第 3 轮说过什么。这点先别太激动。
今日小信号
- OpenRouter 加了 "-latest" 别名:把请求自动路由到各主要模型的最新版本,灵感来自语义化版本。小功能,但对经常切模型的人实用。
- M1 Max 本地跑 10 个生图模型横评:Qwen-Image Lightning 用 8 步蒸馏把出图时间从 93 分钟压到 10 分钟,效果还比原版好。Flux dev 写实感最强但偏英文思维。
- Qwen3.6-27B 在 RTX 3090 上原生 Windows 推理 72 tok/s:不用 WSL 不用 Docker,一张 3090 就能跑。对 Windows 用户是个实在的好消息。
- SimplePDF 推出浏览器端 AI 填表助手:PDF 解析和填写全在本地跑,文件不上传。默认接 DeepSeek V4 Flash,也支持自带密钥或本地模型。
- CTO 集体跳槽 Anthropic 做 IC:多家十亿美元级公司的 CTO 放弃高管职位转投 Anthropic 当个体贡献者。权力和影响力从管理人数转向接近前沿模型,这个趋势值得盯。