安全赏金开张,谣言也在跑分
今天 AI 圈没有一长串大发布,反倒像是几张小纸条摊在桌上:OpenAI 给 GPT-5.5 开了一个很窄的生物安全漏洞赏金,社区又在吵同样显存里该塞更大的低比特模型,还是更小的高精度模型。还有一堆被 Reddit 403 挡住的“疑似大事”,提醒我们:AI 信息流里,没证据的热闹也是热闹的一部分。
OpenAI 的生物安全赏金,不是给所有人开的红队派对
最近 AI 安全圈有个挺具体的数字:2.5 万美元。
这不是某个模型榜单奖金,也不是创业比赛,而是 OpenAI 给 GPT-5.5 启动的生物安全漏洞赏金。规则很窄:测试对象限定在 GPT-5.5 in Codex Desktop,申请截止时间是 2026 年 6 月 22 日,测试到 2026 年 7 月 27 日 结束。第一个能用通用越狱提示通关 5 道题 的人,可以拿到这笔钱。
这里有意思的地方,不是“OpenAI 又开始重视安全了”。这句话太顺手,也太没信息量。真正要看的是它对“通用越狱”的定义:一次提示、干净聊天、无审核触发,还要把 5 道题 答完。
这比常见的红队挑战要刁钻一点。很多越狱玩法靠的是多轮铺垫、角色扮演、绕词、或者一点点把模型带偏。OpenAI 这次要找的,更像是那种能穿透防线的“万能钥匙”:开局一句话,后面别惊动门卫,直接进屋。
范围限定在 Codex Desktop 也很值得琢磨。按常识,生物安全问题更像是聊天模型的老风险:用户问危险实验步骤,模型不该答。但 Codex Desktop 是一个带有桌面工作流意味的壳层,它不只是回答问题,还可能跟文件、项目、工具、上下文打交道。
所以这次赏金看起来不像单纯在测 GPT-5.5 的“知识边界”,更像在测代理壳层里的泄漏点:当模型被包进一个更能干活的产品里,安全策略会不会在工具链、上下文、任务拆解之间被磨薄。
这也是过去一年 AI 产品化里一个反复出现的问题。模型本身的拒答策略可以越做越细,但一旦它进入 agent、IDE、桌面客户端,问题就不再只是“模型会不会说”。它还包括:谁在给它任务、它能读什么、它能调用什么、它如何理解“我只是帮用户整理资料”。
2.5 万美元不算一个夸张数字,但题目设计很实在。它不是喊大家来围观安全,而是在问一个更难听的问题:新壳子会不会把旧护栏开出新缝。
这一笔钱不大,题眼倒是挺尖。
“一次提示答完 5 题”,比想象中更像安全压力测试
安全赏金最容易被看成一场游戏:有人出题,有人破题,最后排行榜上多一个名字。但这次规则里最狠的部分,是“通用”。
如果只是针对某一道题写一个诱导提示,那更多是在考提示工程的手艺。把词换软一点,把目的藏深一点,把模型带进角色里,很多系统都会出现边界抖动。可要一个提示连过 5 道题,还不能触发审核,这就不只是“骗过一次”,而是要证明某类防线存在可复用缺陷。
生物安全又是一个很特殊的区域。它不像代码漏洞,错误答案可能直接崩掉;也不像普通事实问答,答错了顶多尴尬。这里的风险常常夹在“合法教育”“科研讨论”和“危险操作指导”之间,边界不可能只靠关键词表解决。
这也是为什么 OpenAI 会把条件写得很细:干净聊天、无审核触发、一次提示。它试图排除掉那些靠噪声、靠多轮试探、靠撞大运的样本,逼红队提交更可验证的东西。
公开信息没有披露题目内容,也没有说明 GPT-5.5 的具体能力参数、上线节奏或 API 定价。现在能确认的只是:OpenAI 已经愿意把 GPT-5.5 放到一个相当敏感的安全语境里讨论,而且不是泛泛而谈。
这比单纯发布“我们重视安全”的博客更有信息。安全测试的题目怎么设,往往比口号更能看出一家公司担心什么。
过去大模型公司讲安全,常见路线是模型卡、系统卡、外部评估、政策声明。赏金计划则更像工程部门的语言:别讨论理念了,谁能复现,谁来领奖。尤其是生物安全这种高度敏感的场景,愿意开放到什么程度、开放给谁、测试什么入口,本身就很说明态度。
不过,也别把它看成全面开放红队。范围卡在 GPT-5.5 in Codex Desktop,申请和测试都有时间窗,说明这是一个受控实验,不是把模型摆到广场上让所有人随便捅。
在安全这件事上,真正难的是既要找漏洞,又不能把漏洞变成教程。赏金计划最麻烦的部分,往往不在发钱,而在怎么收作业。
同样 36GB,选大模型低比特,还是小模型高精度
另一边,社区里吵的是一个更接地气的问题:手里就这么多显存,到底该装谁。
有 Reddit 用户把两个组合摆到一起:Qwen3.5 122B ud-iq2_xxs 大约 36.6GB,Qwen3.5 35B q8_0 大约 36.9GB。容量差不多,一个是超大模型压到很低比特,一个是小一些的模型保留更高精度。问题集中在编码和工具调用,还顺手问到 Kimi 2.6 这类大模型如果做 1bit,会不会比小模型高精度更好。
这类问题很像本地模型玩家每天都会遇到的选择题。参数量看起来诱人,量化让大模型进了消费级机器,数字上像是白捡了能力。但写代码、调工具、做边界判断的时候,低比特量化也可能把模型最要紧的那点“手感”磨掉。
上游没有披露测试结果,也没有给基准,所以不能替任何一边下结论。只能说,这个问题问得挺准:同容量下,大参数低精度和小参数高精度,不能只看谁的原始模型更大。
尤其是编码任务。很多代码问题不是靠“知道很多”解决,而是靠稳定地遵守格式、理解边界条件、少犯一两个低级错。工具调用更是这样,JSON 少一个括号、参数名歪一下、函数调用顺序错一下,用户看到的就是“不能用”。
低比特量化最怕的正是这种地方。聊天时一点语义漂移还能靠上下文圆回来,代码和工具调用没有那么宽容。一个 122B 模型被压到 2bit 左右之后,剩下的能力到底保住了多少,要看量化方法、校准数据、推理框架,也要看任务类型。
这也是本地 AI 的现实:很多选择不是“最强模型是哪一个”,而是“我的机器、我的任务、我的容忍度,适合哪个折中”。榜单通常回答不了这个问题。
所以这条虽然没有结果,却很有代表性。AI 模型进入本地部署之后,用户关心的已经不是发布会上的最大参数,而是 36GB 里怎么塞出最少后悔。
被 403 挡住的跑分,先别急着转发
今天窗口里还有几条看起来很像“有料”的社区信息,但正文都被 Reddit 403 挡住了。
比如 Qwen 3.6 27B、Qwen 3.6 35B A3B 与 Gemma 4 在 H100 上的吞吐和 TTFT 对比;比如 FINAL-Bench/Darwin-36B-Opus 的 Hugging Face 指向;再比如 Qwen3.6-35B-A3B-UD-IQ4_XS 从 C++ 移植到 Rust 的代码测试,说是“大体可用”。
标题都很香。吞吐、首 token 延迟、模型迁移、Benchmark,都是本地和推理圈最爱看的东西。但抓取到的正文只有拦截页,没有批大小、上下文长度、显卡设置、推理后端、量化格式,也没有具体数值。
这类信息最容易在 AI 圈变成“半条新闻”。标题被截出来,群里一转,大家开始评论 Qwen 有没有赢、Gemma 是不是慢、Rust 后端是不是要起飞。可真正能判断的东西,恰好都不在标题里。
拿推理性能来说,H100 上的吞吐和 TTFT 不是一个孤立数字。batch size 不同,结果会变;上下文长度不同,结果会变;是否启用 speculative decoding、KV cache 策略、量化内核,都会让数字变样。只看“谁比谁快”,基本是在看海报,不是在看测试。
模型迁移也一样。C++ 到 Rust “大体可用”听起来不错,但可用到什么程度?是能跑通 demo,还是测试集通过?失败样例是什么?性能差多少?内存有没有涨?这些才决定它能不能从帖子变成工具。
这不是对社区内容苛刻。社区本来就会先有标题、截图、经验帖,再慢慢补复现细节。只是对读者来说,看到 403 的时候,最好的动作不是脑补正文,而是先把它放进“待确认”抽屉。
AI 信息流里,很多谣言不是假得离谱,而是缺了半截。
DeepSeek V4 的传闻,能确认的只有“有人在问”
DeepSeek V4 这几个字,当然很容易让人手指一停。
窗口里有一条来自 Reddit r/LocalLLaMA 的帖子,主题是 DeepSeek V4 是否已经发布。但正文同样被 403 Forbidden 拦住了,能确认的信息很少:有人在问,页面没抓到有效内容,没有官方来源,没有模型参数,没有权重状态,也没有发布日期。
这种传闻之所以跑得快,是因为 DeepSeek 过去一年在开源模型圈留下了足够强的存在感。只要出现一个版本号,大家自然会联想到新架构、新权重、新价格、新一轮本地部署狂欢。
但版本号也是最容易被滥用的东西。尤其在社区讨论里,一个问句标题就可能被二次传播成“疑似发布”,再被第三手写成“即将发布”,最后变成“已经有人测了”。到了这一步,源头可能还是那个没打开的帖子。
公开信息没披露 DeepSeek V4 的任何可验证细节,所以这里不该把它写成新闻。最多只能把它当成一个情绪信号:社区仍然在等下一代强开源模型,而且对 DeepSeek 的预期没有冷掉。
这也挺有意思。现在模型行业的热度,不只来自公司发布了什么,也来自大家愿意相信谁“可能马上要发布”。期待本身会制造流量,流量又会反过来制造更多期待。
只是对日报来说,问号不能当句号用。
小网卡也能提醒本地 AI:瓶颈常在模型外面
有一条看起来不太 AI 的硬件测试,反而可以顺手看一眼。
Jeff Geerling 测了基于 Realtek RTL8159 的 WisdPi 10 GbE USB-C 网卡,价格 80 美元。标题里的卖点是更凉、更小、更便宜,但测试结果里最关键的不是“10GbE”这几个字,而是接口条件:只有接到 USB 3.2 Gen 2x2 20 Gbps 端口时,吞吐才接近满速 10 Gbps。
在他的测试里,AMD 桌面机能跑到约 9.5 Gbps,Framework 13 和两台 Mac 多数只有 6-7 Gbps。Windows 还需要手动安装 Realtek 驱动。
这条不是 AI 新闻,但对本地 AI 玩家有点旁敲侧击的价值。很多人在搭本地推理、NAS、模型权重存储、局域网服务时,会把注意力放在“标称速率”上:10GbE、USB-C、满血接口、外置硬盘盒。最后真跑起来,才发现瓶颈不在最显眼的标签,而在端口规格、驱动、线材、主板通道,甚至系统调度。
本地模型也是类似的坑。你以为问题是模型不够强,实际可能是显存带宽卡住;你以为是网卡 10GbE,实际机器只有普通 USB 3.2 Gen 2;你以为换个量化版本就能飞,实际推理框架没有吃到对应内核。
AI 基建一旦从云端发布会落到桌面和机架里,就会变成一堆朴素的工程细节。没有哪个细节听起来性感,但每个都可能让体验少一截。
标称速度负责好看,真实吞吐负责做人。
今天的小信号:问题比答案多一点
今天的素材不算厚,但小信号不少,放在一起看,反而能看到 AI 圈现在的几种常态。
-
DFlash draft model 有没有兼容 Qwen3.6 27B?目前能看到的只是一个社区提问,正文没抓到答案。它提醒的是 speculative decoding 这类推理优化已经进入日常讨论,大家不只问模型能不能跑,还问怎么跑得更快。
-
FINAL-Bench/Darwin-36B-Opus 指向 Hugging Face,但缺少模型参数、评测指标、许可和下载条件。Benchmark 名字越来越多,真正稀缺的是可复现的评测说明。
-
Qwen3.6-35B-A3B-UD-IQ4_XS 的 Rust 移植测试只看到标题,不能判断质量。可这类迁移本身说明,推理生态还在往工程可维护性上走,不只是追求“能跑”。
-
Qwen3.5 122B 低比特对 Qwen3.5 35B 高精度的讨论,会继续出现。因为消费级硬件没有突然变无限大,模型选择就永远是取舍题。
-
OpenAI 把 GPT-5.5 的生物安全赏金放进 Codex Desktop,是今天最值得盯的一条。模型能力越往 agent 壳层里走,安全测试也会越来越不像传统聊天红队。
今天这期的关键词大概不是“发布”,而是“边界”:安全边界、量化边界、证据边界、硬件边界。热闹少一点,缝隙多一点。