TransDiff最简洁自回归+扩散图像生成方法

14小时前发布
0 16 0

TransDiff最简洁自回归+扩散图像生成方法
TransDiff最简洁自回归+扩散图像生成方法
TransDiff最简洁自回归+扩散图像生成方法
TransDiff最简洁自回归+扩散图像生成方法
TransDiff最简洁自回归+扩散图像生成方法大家好,很高兴为大家介绍我们的新工作–Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression,后面我们简称TransDiff。
Paper: https://arxiv.org/pdf/250

Soul居然也有科研部门啊

© 版权声明

相关文章

没有相关内容!

16 条评论

  • 头像
    程亮 读者

    这个soul是我想的那个嘛

    无记录
    回复
  • 头像
    sianyoo 投稿者

    你猜对了

    无记录
    回复
  • 头像
    打不死的甄嬛 读者

    和transfusion比主要进步在哪呢?

    无记录
    回复
  • 头像
    混沌小 读者

    也有的。 今年还有一篇cvpr,不过体量和声量都刚开始起步 不过7月可以关注我们语音和视频全双工工作,效果也是比较领先 哈哈 预告下

    无记录
    回复
  • 头像
    蔡柳青 读者

    回复不能超过300字,我图片回复哈 有问题随时交流

    无记录
    回复
  • 头像
    楊冰 读者

    [g=zhuakuang] 这个ar的unit是什么呀 是reference image吗

    无记录
    回复
  • 头像
    岚岚岚岚岚漪 投稿者

    和acdit对比怎么样呢

    无记录
    回复
  • 头像
    龙行天下 读者

    哦哦 你说的是的,但是可能不全对哈。 我解释下,智源的NOVA是完整参考了MAR,所以Diffusion也是和MAR一样的n层MLP。这种结构就会带来一个问题:不仅Diffusion需要N步解码,Transformer也需要多次迭代(MAR是256,NOVA是128)。而我们的结构,由于使用了更复杂(但参数量增加不多的Dit结构)的Diffusion Decoder,可以一次生成的,当然也可以参考第4图的第二个问题哈。不知道是不是解释清楚哈

    无记录
    回复
  • 头像
    痞帅仔 投稿者

    没 ,1Step AR指的是 ar transformer, diffusion还是多步,但是diffusion相对较小。

    无记录
    回复
  • 头像
    洪帮主创业论 读者

    才发现还有这篇。从benchmark来看,我们应该还是有不小的优势。

    无记录
    回复
  • 头像
    星光下的追梦人201512 投稿者

    [g=haobang] 这个架构和iclr 2025的NOVA视频生成好像啊

    无记录
    回复
  • 头像
    王宇辉和马奕屹 读者

    请问和orthus区别是?

    无记录
    回复
  • 头像
    灵曦 读者

    觉得soul不好用可以去github下面留言吗

    无记录
    回复
  • 头像
    陆爷 读者

    [g=wozuimei] 1-step AR里面的diffusion也是单步的吗,这个是怎么做到的

    无记录
    回复
  • 头像
    幻影 读者

    是的。 训练中,ar的输入是同类别其他图片。推理中是之前生成的图片。

    无记录
    回复
  • 头像
    木子少儿艺术课堂 读者

    我也刚看到这篇论文。Orthus应该还是Mar的衍生方法:在语言模型上嫁接个diffloss的头,做的是t2i任务。 然后Mar和我们方法的具体区别,可以参考第4张图哈

    无记录
    回复