FEATUREDHacker News 首页· rssEN19:28 · 04·24
TIPSv2:Google DeepMind 给视觉语言模型换了套预训练配方,零样本分割涨了 14.1 分
Google DeepMind 发了 TIPSv2,一篇 CVPR 2026 论文,改了三处预训练方法,让视觉模型在零样本分割上明显变强。核心发现是:用蒸馏训练出来的小模型,在图像区域和文本的对齐能力上反而超过了大模型老师,原因在于老师模型在预训练时没管那些没被遮住的图像块。于是他们搞了个 iBOT++,把自监督学习的目标从只盯被遮住的块,扩展到所有图...
#Multimodal#Vision#Benchmarking#Google DeepMind
精选理由
Google DeepMind 在 CVPR 2026 拿出的 TIPSv2,核心是三处预训练改动。最值得看的是 iBOT++:对遮挡和可见 patch 都加自蒸馏损失,零样本分割直接涨了 14.1 mIoU,同时用 Head-only EMA 把训练参数砍掉 42%。我会先打个折——这还是一次研究发布,不是当天就能用的模型,但可见 token 监督这个方向比堆大教师模型务实,对想省预训练成本的人是个信号。
一句话点评
Google DeepMind 发现,用蒸馏训练的小模型在图像区域对齐文本上反而吊打大模型老师,于是改了预训练方法,零样本分割涨了 14.1 mIoU。
锐评
这篇 CVPR 2026 论文的核心发现挺反直觉:一个 ViT-L 学生模型,通过蒸馏,在零样本分割上直接超过了更大的 ViT-g 老师。团队追查原因,发现老师模型预训练时只盯着被遮住的图像块学,忽略了可见区域,导致局部对齐能力拉胯。于是他们搞了个 iBOT++,把自监督学习目标扩展到所有图像块,在 ADE150 数据集上零样本分割直接提了 14.1 mIoU,这个数字说明改进幅度很大。另外,Head-only EMA 这招把训练参数量砍了 42%,省了不少算力。
不过得打个折。文章主要展示的是零样本分割的提升,其他 8 类任务只说“持平或更好”,具体数字没给全。多粒度文本描述用了 PaliGemma 和 Gemini 生成,但正文没披露生成质量怎么控制,也没说这些描述有没有人工校验。如果描述本身有噪声,模型学到的对齐可能就不够干净。
还缺一个关键对比:iBOT++ 带来的 14.1 点提升里,到底多少是扩展监督范围贡献的,多少是跟多粒度文本描述叠加后的效果,文章没做消融拆解。另外,训练总成本和 wall-clock time 也没提,光说参数减了 42%,实际跑起来快多少还不清楚。
HKR 分解
hook ✓knowledge ✓resonance ✓