FEATURED机器之心 · 公众号· rssZH13:58 · 05·23
22.9倍加速:FlashAR 用0.05%数据加速预训练自回归图像模型
浙江大学与阿德莱德大学提出 FlashAR,用 0.05% 原始训练数据把 Emu3.5-Image-34B 的 512×512 生成从 130.10 秒降到 5.68 秒,GenEval 总分从 80.48 降至 80.29。
#Inference-opt#Vision#Multimodal#Zhejiang University
精选理由
HKR 三项都成立:FlashAR 给出具体加速倍数、数据比例、耗时和 GenEval 变化,且面向自回归图像模型的推理瓶颈。非头部实验室发布,先放在80分精选,不上P1。
一句话点评
FlashAR最狠的不是22.9倍,而是把AR图像生成的1024步串行砍到63步,还只喂8万张图;扩散模型的护城河又少一块。
锐评
FlashAR打到的是AR图像模型最尴尬的部署点:质量够了,延迟烂到没法用。Emu3.5-Image-34B在512×512上从130.10秒降到5.68秒,GenEval只从80.48掉到80.29;关键机制是加垂直预测头,把32×32 token的解码从1024步压到H+W-1的63步。
我对“几乎无损”先买一半。GenEval覆盖不了审美、文本细节和长提示一致性,8万张后训练数据也不等于广域稳。可BlockDiffusion同设置掉到73.83,FlashAR至少证明一件事:AR图像生成不必靠从头预训练才拿到并行性。
HKR 分解
hook ✓knowledge ✓resonance ✓