[CV]《Next Visual Granularity Generation》Y Wang, Z Wang, Z Wu, Q Tao... [Nanyang Technological University & SenseTime Research] (2025)
Next Visual Granularity Generation(NVG):一种基于多粒度视觉结构的图像生成新框架,突破传统将图像视为无结构数据的局限,带来更自然且可控的生成过程。
• 多粒度结构序列:将图像编码为多级唯一token序列,空间分辨率不变,token数量递减,逐步揭示从细节到整体的层次结构。
• 结构映射驱动:通过数据驱动的聚类构造多阶段结构图,明确展示各粒度token在潜空间的分布,实现粗到细的布局控制。
• 生成流程创新:每阶段先生成结构映射,再基于结构生成内容,支持用户输入结构导引,提升生成的多样性与一致性。
• 结构感知RoPE编码:扩展旋转位置编码,编码层级结构信息,使模型深刻理解层级token间关系,提升预测准确性。
• 内容生成采用残差量化策略:通过学习当前画布与最终图像的差异,逐步细化图像,避免自回归误差累积,融合扩散与自回归优点。
• 实验结果领先:在ImageNet 256×256分类生成任务上,NVG系列模型在FID、Inception Score及召回率上均优于VAR等先进方法,且训练步骤更少,参数规模合理。
• 结构引导生成:支持基于简单几何结构图或参考图像结构生成新图,灵活控制图像布局及细节,展现强大泛化与纠错能力。
• 长远应用潜力:方法天然适配区域感知生成、物理一致的视频生成和层级空间推理,助力设计、科学可视化等多领域发展。
NVG框架揭示了图像生成的层次化本质,通过明确结构控制实现高质量与高自由度并重的视觉创作路径。
论文🔗 arxiv.org/pdf/2508.12811
了解详情🔗 yikai-wang.github.io/nvg
人工智能图像生成计算机视觉深度学习生成模型视觉结构