今天 Paper reading 发现 TripoAI 的最新工作 TripoSF 基本上放弃了之前很多厂商一直在用的 3dshape2vecset
转而 follow 了 TRELLIS 使用的 sparse voxel
理性讨论:是否说明 sparse voxel 相比 3dshape2vecset 表达能力更
Sparse voxel系的方法是个更自然的思考,缺点是生成模型需要多阶段的训练,包括xcube 也是这样;vecset的生成阶段只要一次训练。只思考更强的细节表达能力:sparse voxel有着很强的inductive bias,需要超大分辨率;vecset只要线性增大特征集大小就好了。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
上一篇
没有更多了...
下一篇
没有更多了...
相关文章
没有相关内容!
Trellis 不会是你参与的吧
你真的看过paper吗
个人感觉trellis/triposf优势是用了2d高分辨率的normal做监督,这也使得可以表达任意拓扑,而vecset也可以这样做
TripoSF都是多老的工作了,你看看那个效果就知道多原始,刚开源罢了
你懂锤子3d
@我想要两颗西柚 @mystic @zirui @小红薯6765775B [g=gouyin]
[g=leiben][g=leiben] 谢谢老师的讨论。不过看triposf里的重建结果好像比Dora好许多,是否说明如果sparse voxel做好了高分辨率上限更高
为什么trellis的multiview feature融合是用average而不是concat ,相加或其他?
来自一作的专业见解
有幸参与了
Sparse voxel 保留inductive bias,locality,以及latent的坐标信息,细节保持更好,也适合局部编辑。VecSet直接编码成无位置的latent,类似ViT的感觉,优势在于简单,容易scale,相对于sparse voxel和八叉树上手快。
Sparse voxel的locality作为vae的inductive bias对于压缩编码保真度是优异的,但是由于sparsity的存在必须要多阶段生成。vecset类的全局压缩算法具有更高的压缩率但是从图像编码的一系列研究(TiTok FlexiTok等)来看,保真度可能比较有限,尤其拓展到更复杂的信号,列如表面材质可能会遇到困难?也许配合3d的adversarial loss会比较有用
很好的例子不过Dora的sampling方式应该会让3dshape2vecset更容易取到顶点和棱吧,应该会缓解这个问题
各有千秋叭思考一个封闭的球和一个封闭的长方体,球用vecset均匀取query点是一个比较自然的表达方式,而sparse voxel就比较吃分辨率,否则容易出现aliasing。反之长方体用sparse voxel 就很自然,而用vecset会出现如何把点精准地取到长方体顶点和棱上的问题 [g=nanguo]
一作同学最开始试的时候是平均,后来发现效果不错就没有换其他的了
structure 对下游很友善,适合局部的 downstream tasks 吧;而且 sparsity 的性质结合 llm 要是能 scaling 就很有意思了