一、本文解决了什么问题? 核心问题: 现有的掩码自回归图像生成模型(Masked AR)在图像质量和生成效率方面仍落后于扩散模型,主要瓶颈在于: Tokenizer压缩率低(通常为8×或16×),导致高分辨率图像生成时Token序列过长,计算开销大; 高压缩比下离散Tokenizer重建质量差,难以同时兼顾效率与图像保