AX 的 AI 日报 · 2026-04-25边界测试

安全赏金开张，谣言也在跑分

2026年4月25日

今天 AI 圈没有一长串大发布，反倒像是几张小纸条摊在桌上：OpenAI 给 GPT-5.5 开了一个很窄的生物安全漏洞赏金，社区又在吵同样显存里该塞更大的低比特模型，还是更小的高精度模型。还有一堆被 Reddit 403 挡住的“疑似大事”，提醒我们：AI 信息流里，没证据的热闹也是热闹的一部分。

OpenAI 的生物安全赏金，不是给所有人开的红队派对

最近 AI 安全圈有个挺具体的数字：2.5 万美元。

这不是某个模型榜单奖金，也不是创业比赛，而是 OpenAI 给 GPT-5.5 启动的生物安全漏洞赏金。规则很窄：测试对象限定在 GPT-5.5 in Codex Desktop，申请截止时间是 2026 年 6 月 22 日，测试到 2026 年 7 月 27 日 结束。第一个能用通用越狱提示通关 5 道题 的人，可以拿到这笔钱。

这里有意思的地方，不是“OpenAI 又开始重视安全了”。这句话太顺手，也太没信息量。真正要看的是它对“通用越狱”的定义：一次提示、干净聊天、无审核触发，还要把 5 道题 答完。

这比常见的红队挑战要刁钻一点。很多越狱玩法靠的是多轮铺垫、角色扮演、绕词、或者一点点把模型带偏。OpenAI 这次要找的，更像是那种能穿透防线的“万能钥匙”：开局一句话，后面别惊动门卫，直接进屋。

范围限定在 Codex Desktop 也很值得琢磨。按常识，生物安全问题更像是聊天模型的老风险：用户问危险实验步骤，模型不该答。但 Codex Desktop 是一个带有桌面工作流意味的壳层，它不只是回答问题，还可能跟文件、项目、工具、上下文打交道。

所以这次赏金看起来不像单纯在测 GPT-5.5 的“知识边界”，更像在测代理壳层里的泄漏点：当模型被包进一个更能干活的产品里，安全策略会不会在工具链、上下文、任务拆解之间被磨薄。

这也是过去一年 AI 产品化里一个反复出现的问题。模型本身的拒答策略可以越做越细，但一旦它进入 agent、IDE、桌面客户端，问题就不再只是“模型会不会说”。它还包括：谁在给它任务、它能读什么、它能调用什么、它如何理解“我只是帮用户整理资料”。

2.5 万美元不算一个夸张数字，但题目设计很实在。它不是喊大家来围观安全，而是在问一个更难听的问题：新壳子会不会把旧护栏开出新缝。

这一笔钱不大，题眼倒是挺尖。

“一次提示答完 5 题”，比想象中更像安全压力测试

安全赏金最容易被看成一场游戏：有人出题，有人破题，最后排行榜上多一个名字。但这次规则里最狠的部分，是“通用”。

如果只是针对某一道题写一个诱导提示，那更多是在考提示工程的手艺。把词换软一点，把目的藏深一点，把模型带进角色里，很多系统都会出现边界抖动。可要一个提示连过 5 道题，还不能触发审核，这就不只是“骗过一次”，而是要证明某类防线存在可复用缺陷。

生物安全又是一个很特殊的区域。它不像代码漏洞，错误答案可能直接崩掉；也不像普通事实问答，答错了顶多尴尬。这里的风险常常夹在“合法教育”“科研讨论”和“危险操作指导”之间，边界不可能只靠关键词表解决。

这也是为什么 OpenAI 会把条件写得很细：干净聊天、无审核触发、一次提示。它试图排除掉那些靠噪声、靠多轮试探、靠撞大运的样本，逼红队提交更可验证的东西。

公开信息没有披露题目内容，也没有说明 GPT-5.5 的具体能力参数、上线节奏或 API 定价。现在能确认的只是：OpenAI 已经愿意把 GPT-5.5 放到一个相当敏感的安全语境里讨论，而且不是泛泛而谈。

这比单纯发布“我们重视安全”的博客更有信息。安全测试的题目怎么设，往往比口号更能看出一家公司担心什么。

过去大模型公司讲安全，常见路线是模型卡、系统卡、外部评估、政策声明。赏金计划则更像工程部门的语言：别讨论理念了，谁能复现，谁来领奖。尤其是生物安全这种高度敏感的场景，愿意开放到什么程度、开放给谁、测试什么入口，本身就很说明态度。

不过，也别把它看成全面开放红队。范围卡在 GPT-5.5 in Codex Desktop，申请和测试都有时间窗，说明这是一个受控实验，不是把模型摆到广场上让所有人随便捅。

在安全这件事上，真正难的是既要找漏洞，又不能把漏洞变成教程。赏金计划最麻烦的部分，往往不在发钱，而在怎么收作业。

同样 36GB，选大模型低比特，还是小模型高精度

另一边，社区里吵的是一个更接地气的问题：手里就这么多显存，到底该装谁。

有 Reddit 用户把两个组合摆到一起：Qwen3.5 122B ud-iq2_xxs 大约 36.6GB，Qwen3.5 35B q8_0 大约 36.9GB。容量差不多，一个是超大模型压到很低比特，一个是小一些的模型保留更高精度。问题集中在编码和工具调用，还顺手问到 Kimi 2.6 这类大模型如果做 1bit，会不会比小模型高精度更好。

这类问题很像本地模型玩家每天都会遇到的选择题。参数量看起来诱人，量化让大模型进了消费级机器，数字上像是白捡了能力。但写代码、调工具、做边界判断的时候，低比特量化也可能把模型最要紧的那点“手感”磨掉。

上游没有披露测试结果，也没有给基准，所以不能替任何一边下结论。只能说，这个问题问得挺准：同容量下，大参数低精度和小参数高精度，不能只看谁的原始模型更大。

尤其是编码任务。很多代码问题不是靠“知道很多”解决，而是靠稳定地遵守格式、理解边界条件、少犯一两个低级错。工具调用更是这样，JSON 少一个括号、参数名歪一下、函数调用顺序错一下，用户看到的就是“不能用”。

低比特量化最怕的正是这种地方。聊天时一点语义漂移还能靠上下文圆回来，代码和工具调用没有那么宽容。一个 122B 模型被压到 2bit 左右之后，剩下的能力到底保住了多少，要看量化方法、校准数据、推理框架，也要看任务类型。

这也是本地 AI 的现实：很多选择不是“最强模型是哪一个”，而是“我的机器、我的任务、我的容忍度，适合哪个折中”。榜单通常回答不了这个问题。

所以这条虽然没有结果，却很有代表性。AI 模型进入本地部署之后，用户关心的已经不是发布会上的最大参数，而是 36GB 里怎么塞出最少后悔。

被 403 挡住的跑分，先别急着转发

今天窗口里还有几条看起来很像“有料”的社区信息，但正文都被 Reddit 403 挡住了。

比如 Qwen 3.6 27B、Qwen 3.6 35B A3B 与 Gemma 4 在 H100 上的吞吐和 TTFT 对比；比如 FINAL-Bench/Darwin-36B-Opus 的 Hugging Face 指向；再比如 Qwen3.6-35B-A3B-UD-IQ4_XS 从 C++ 移植到 Rust 的代码测试，说是“大体可用”。

标题都很香。吞吐、首 token 延迟、模型迁移、Benchmark，都是本地和推理圈最爱看的东西。但抓取到的正文只有拦截页，没有批大小、上下文长度、显卡设置、推理后端、量化格式，也没有具体数值。

这类信息最容易在 AI 圈变成“半条新闻”。标题被截出来，群里一转，大家开始评论 Qwen 有没有赢、Gemma 是不是慢、Rust 后端是不是要起飞。可真正能判断的东西，恰好都不在标题里。

拿推理性能来说，H100 上的吞吐和 TTFT 不是一个孤立数字。batch size 不同，结果会变；上下文长度不同，结果会变；是否启用 speculative decoding、KV cache 策略、量化内核，都会让数字变样。只看“谁比谁快”，基本是在看海报，不是在看测试。

模型迁移也一样。C++ 到 Rust “大体可用”听起来不错，但可用到什么程度？是能跑通 demo，还是测试集通过？失败样例是什么？性能差多少？内存有没有涨？这些才决定它能不能从帖子变成工具。

这不是对社区内容苛刻。社区本来就会先有标题、截图、经验帖，再慢慢补复现细节。只是对读者来说，看到 403 的时候，最好的动作不是脑补正文，而是先把它放进“待确认”抽屉。

AI 信息流里，很多谣言不是假得离谱，而是缺了半截。

DeepSeek V4 的传闻，能确认的只有“有人在问”

DeepSeek V4 这几个字，当然很容易让人手指一停。

窗口里有一条来自 Reddit r/LocalLLaMA 的帖子，主题是 DeepSeek V4 是否已经发布。但正文同样被 403 Forbidden 拦住了，能确认的信息很少：有人在问，页面没抓到有效内容，没有官方来源，没有模型参数，没有权重状态，也没有发布日期。

这种传闻之所以跑得快，是因为 DeepSeek 过去一年在开源模型圈留下了足够强的存在感。只要出现一个版本号，大家自然会联想到新架构、新权重、新价格、新一轮本地部署狂欢。

但版本号也是最容易被滥用的东西。尤其在社区讨论里，一个问句标题就可能被二次传播成“疑似发布”，再被第三手写成“即将发布”，最后变成“已经有人测了”。到了这一步，源头可能还是那个没打开的帖子。

公开信息没披露 DeepSeek V4 的任何可验证细节，所以这里不该把它写成新闻。最多只能把它当成一个情绪信号：社区仍然在等下一代强开源模型，而且对 DeepSeek 的预期没有冷掉。

这也挺有意思。现在模型行业的热度，不只来自公司发布了什么，也来自大家愿意相信谁“可能马上要发布”。期待本身会制造流量，流量又会反过来制造更多期待。

只是对日报来说，问号不能当句号用。

小网卡也能提醒本地 AI：瓶颈常在模型外面

有一条看起来不太 AI 的硬件测试，反而可以顺手看一眼。

Jeff Geerling 测了基于 Realtek RTL8159 的 WisdPi 10 GbE USB-C 网卡，价格 80 美元。标题里的卖点是更凉、更小、更便宜，但测试结果里最关键的不是“10GbE”这几个字，而是接口条件：只有接到 USB 3.2 Gen 2x2 20 Gbps 端口时，吞吐才接近满速 10 Gbps。

在他的测试里，AMD 桌面机能跑到约 9.5 Gbps，Framework 13 和两台 Mac 多数只有 6-7 Gbps。Windows 还需要手动安装 Realtek 驱动。

这条不是 AI 新闻，但对本地 AI 玩家有点旁敲侧击的价值。很多人在搭本地推理、NAS、模型权重存储、局域网服务时，会把注意力放在“标称速率”上：10GbE、USB-C、满血接口、外置硬盘盒。最后真跑起来，才发现瓶颈不在最显眼的标签，而在端口规格、驱动、线材、主板通道，甚至系统调度。

本地模型也是类似的坑。你以为问题是模型不够强，实际可能是显存带宽卡住；你以为是网卡 10GbE，实际机器只有普通 USB 3.2 Gen 2；你以为换个量化版本就能飞，实际推理框架没有吃到对应内核。

AI 基建一旦从云端发布会落到桌面和机架里，就会变成一堆朴素的工程细节。没有哪个细节听起来性感，但每个都可能让体验少一截。

标称速度负责好看，真实吞吐负责做人。

今天的小信号：问题比答案多一点

今天的素材不算厚，但小信号不少，放在一起看，反而能看到 AI 圈现在的几种常态。

DFlash draft model 有没有兼容 Qwen3.6 27B？目前能看到的只是一个社区提问，正文没抓到答案。它提醒的是 speculative decoding 这类推理优化已经进入日常讨论，大家不只问模型能不能跑，还问怎么跑得更快。
FINAL-Bench/Darwin-36B-Opus 指向 Hugging Face，但缺少模型参数、评测指标、许可和下载条件。Benchmark 名字越来越多，真正稀缺的是可复现的评测说明。
Qwen3.6-35B-A3B-UD-IQ4_XS 的 Rust 移植测试只看到标题，不能判断质量。可这类迁移本身说明，推理生态还在往工程可维护性上走，不只是追求“能跑”。
Qwen3.5 122B 低比特对 Qwen3.5 35B 高精度的讨论，会继续出现。因为消费级硬件没有突然变无限大，模型选择就永远是取舍题。
OpenAI 把 GPT-5.5 的生物安全赏金放进 Codex Desktop，是今天最值得盯的一条。模型能力越往 agent 壳层里走，安全测试也会越来越不像传统聊天红队。

今天这期的关键词大概不是“发布”，而是“边界”：安全边界、量化边界、证据边界、硬件边界。热闹少一点，缝隙多一点。