FEATUREDAI HOT 精选· aihot-apiZH23:04 · 05·08
Runway 公布儿童安全方案:用多层检测和 516 份举报,堵住 AI 生成儿童性虐待内容的口子
Runway 在 2026 年 5 月 8 日发了一篇安全说明,专门讲他们怎么防止自家视频、图像生成工具被用来制作儿童性虐待内容(CSAM)。做法分三步:模型开发阶段,先用哈希匹配和专门的分类器清洗训练数据,不让模型学到涉及未成年人的色情内容,上线前还会做对抗测试找漏洞;产品部署后,所有用户上传的内容都要过已知 CSAM 哈希库和分类器扫描,一旦确认违...
#Safety#Alignment#Runway#Thorn
精选理由
Runway这篇讲的是他们怎么防儿童性虐待内容,不是产品更新。我会先打个折:标题很平,就是篇安全说明。但内容给了干货——哈希匹配和分类器做第一道过滤,再用大语言模型审核,最后靠红队找漏洞。2025年向NCMEC提交了516份报告,这个数字说明他们确实在跑这套流程,不是空话。对做视频生成模型的同行来说,审核成本和监管压力是绕不开的,这篇算一个可参考的操作样本。
一句话点评
Runway 主动公开了儿童安全防护的完整技术链条,但 2025 年全年只向 NCMEC 提交了 516 份报告,这个数字对一家头部视频生成公司来说不算高,可能说明防护有效,也可能说明检测覆盖有限。
锐评
Runway 这篇安全说明把防护拆成了模型开发、产品部署和持续维护三个阶段,思路很清晰。开发阶段用哈希匹配和专门分类器清洗训练数据,确保模型没学过涉及未成年人的色情内容,上线前还做对抗测试找漏洞。部署后所有用户上传内容都要过已知 CSAM 哈希库和分类器扫描,确认违规就永久封号并上报 NCMEC。2025 年全年他们提交了 516 份报告,这个数字本身不大,但正文没披露总生成量或扫描量,所以没法判断是漏检少还是真没多少人尝试滥用。
值得留意的是他们用了 C2PA 来源标记,让生成内容能追溯到工具本身,这对后续追责有帮助,但正文也承认这不是完整解决方案。整体来看,Runway 的做法跟 Thorn 的生成式 AI 安全设计原则对齐,技术栈说得比较实在,没画大饼。缺的是独立审计或第三方验证的结果,光靠自述很难判断这些分类器在实际对抗中的表现到底怎么样。
HKR 分解
hook —knowledge ✓resonance ✓