全部

▸ 200 items · updated 3m ago

按日期浏览5421 项 · 59 天

2026年2月

一二三四五六日

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2715 285

2026年3月

一二三四五六日

13 22 35 44 519 616 71 81 97 109 117 126 137 14 15 167 1711 1844 1984 2069 2132 2241 2375 2477 2579 2670 2756 2824 2932 3058 3185

2026年4月

一二三四五六日

198 2102 379 432 535 691 7126 8129 9112 1088 1142 1271 13159 14141 15123 16249 1781 1854 1968 20386 21705 22362 23366 24278 2535 2627 27176 282552930

2026-04-21 · 星期二2026年4月21日

04:00

7d ago

FEATUREDarXiv · cs.LG· atomEN04:00 · 04·21

揭开深度伪造：面向深度伪造检测的频率感知三分支网络

该论文提出频率感知三分支网络，用原图与不同频率通道重建图联合做深度伪造检测，并在6个大规模基准数据集上报告SOTA结果。方法包含空间分支与频率分支，还基于互信息推导特征解耦和融合损失，以减少伪造区域上的冗余表征。真正值得盯的是泛化逻辑：这不是再堆单一频域特征，而是用多频重建加解耦约束抗过拟合；正文未披露具体数据集名称和指标数值。

#Vision#Benchmarking#Safety#arXiv

精选理由

这篇论文有机制信息，但受众面偏窄。HKR-K 命中，三分支频域结构、互信息解耦损失和 6 个基准是新信息；HKR-H 弱，标题只有架构名；HKR-R 也弱，正文没有平台治理、误报成本或生产部署结果。按 60–71 档给 66，归入 all。

编辑点评

论文用三分支加互信息解耦打六个基准，我先给半分肯定；没数据集名和指标，这个 SOTA 先别急着认。

深度解读

论文提出三分支网络，并声称在六个基准做到 SOTA；但摘要没给数据集名、指标值、跨域设置，我不会先把它当成 deepfake 检测的新锚点。我对这条的初步判断是：方向没问题，叙事也比很多“再加一个频谱分支”的论文更像样。它至少抓住了两个老问题。第一，频域线索很容易学成数据集指纹。JPEG 压缩、上采样纹理、插值噪声，在一个 benchmark 上很好使，换生成器或换平台就掉。第二，多分支模型经常看的是同一块伪造区域，只是换了特征名字，最后参数更多，信息却没更丰富。作者用原图加不同频率重建图，再加基于互信息的解耦和融合损失，目标就是把“重复盯同一瑕疵”这件事压下去。这个思路我买账一半，因为它确实比单一 FFT 或 DCT cue 更接近泛化问题本身。但我对 deepfake 检测论文的“六个数据集 SOTA”一直比较警觉。这个领域过去两年最常见的情况，就是同分布测试很好看，跨数据集一塌糊涂。像 FaceForensics++、Celeb-DF、DFDC、DeeperForensics 这些常用集，压缩率、脸部裁剪流程、视频转图策略都不一样，模型很容易记住采样链路，不是真的学会伪造机理。摘要只说 six large-scale benchmarks，没有列名字，也没说 AUC、EER、ACC 还是 frame-level / video-level 指标。连最基本的评估口径都没公开，SOTA 这两个字就只能先打折。我还想追问一个更硬的问题：这个方法到底在防哪一类过拟合？如果它主要靠多频重建，把低频和高频的线索拆开学，那它对 2025 年后那批扩散式视频脸替换、强后处理、再压缩上传的样本，提升幅度有多大？很多早期频域方法一碰到重编码和平台再处理，优势会迅速收缩。我记得前一波比较扎实的工作，都会专门做 cross-manipulation 或 cross-dataset 测试，有些还会加未知生成器设置。这里摘要没写，我自己也没查到论文正文的表格，所以暂时不能判断它是“泛化提升”，还是“同类 benchmark 上多拿几点”。从更大的脉络看，这篇论文踩在一个已经很明确的转向上：deepfake detection 不再迷信单一伪影。前几年不少方法押频谱尖峰、色彩失真、眨眼异常，后来生成模型把这些瑕疵补掉，检测器就一起失效。过去一年更稳的路线，基本都在做多视角证据融合：空间纹理、频率残差、生理一致性、时序稳定性、身份约束，谁也不敢说单路特征够了。这个三分支方案放在这里看，是一次合理迭代，不是范式突变。我还有一点怀疑，甚至比 benchmark 更重要：互信息解耦在论文里通常很好看，落到训练上不一定稳定。很多 MI 类损失对估计器选择、负样本构造、batch size 都很敏感。摘要说“mathematically derive”，这在写法上很强，但推导成立不等于优化就顺。要是代码里为了训稳加了很多 trick，或者收益主要来自分支增多而不是解耦损失，那论文的核心卖点就会打折。这个得看 ablation，摘要完全没给。所以这条我会记下，但不会高估。它提供的是一个更像样的泛化修补方案，不是 deepfake 检测已经被解决的信号。要让我认真提高评级，至少还得看到三样东西：六个数据集到底是谁；跨数据集和未知生成器结果是多少；去掉互信息解耦后性能掉多少。现在只有标题和摘要，离“可复现地更强”还差这三步。

HKR 分解

hook —knowledge ✓resonance —

全部

更多

频道

后台