头像

新概念

帅气的我简直无法用语言描述!

无标注训练 ViT(Vision Transformer):从自监督到 MAE 的完整指南 (一)

在图像领域,Vision Transformer(ViT)已经成为与 CNN 并驾齐驱的主流架构。然而,许多开发者仍认为 ViT 必须依赖大量人工标注的数据 才能训练出可用的模型。 事实并非如此。 即...
头像6天前
000