无标注训练 ViT（Vision Transformer）：从自监督到 MAE 的完整指南（一)

内容分享7个月前发布

23 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

在图像领域，Vision Transformer（ViT）已经成为与 CNN 并驾齐驱的主流架构。然而，许多开发者仍认为 ViT 必须依赖大量人工标注的数据 才能训练出可用的模型。

事实并非如此。

即使在完全无标签的情况下，我们也可以训练出强大的 ViT 模型。
这得益于近年来火爆的 自监督学习（Self-Supervised Learning, SSL） 与 对比学习（Contrastive Learning） 技术，尤其是 MAE（Masked AutoEncoder）更是引领潮流。

本文将系统整理：

为什么 ViT 不依赖标签也能训练主流的无标签训练方法MAE 训练流程与 PyTorch 代码示例如何在下游任务上微调（Fine-tune）

适合视觉、遥感、高光谱、医学图像等任务的开发者阅读使用。

1. ViT 是否一定需要标签？不需要！

ViT 的本质是 Transformer Encoder，它只是一种特征提取器，并不强制必须监督学习。

你只需要给它一个可以优化的训练目标（Loss），就可以在无标注条件下进行训练。

常见的无监督目标包括：

图像重建（MAE）对比损失（Contrastive Loss）匹配增强视图（BYOL/SIMSIAM）聚类目标（DINO/iBOT）

因此，ViT 完全可以在无标签的海量数据上进行预训练，然后再用于分类、分割等任务。

2. 无标签训练 ViT 的主流路线

根据行业实践，我们可以把无监督 ViT 分为三类：

2.1 Masked AutoEncoder (MAE) —— 最推荐方案

MAE 是目前最流行、效果最高、最易训练的自监督方案。

核心思想：

将图像切成 patch（ViT 的输入）随机 Mask 掉 75% 的 patchEncoder（ViT）只看 25% patchDecoder 重建被遮挡的图像

特点：

完全不需要标签Encoder 更高效（看更少 patch）对图像结构理解更深刻训练稳定、实现简单

MAE 让 ViT 在自监督场景中效果甚至超过了 CNN。

2.2 对比学习（Contrastive Learning）

代表方法：

SimCLRMoCo v3（ViT backbone）BYOL / SimSiam

思路：

对同一张图像做两个不同增强ViT 提取特征拉近相同图像的向量，推远不同图像的向量

完全不需要标签，适用于：

大规模图像集实拍/网络图片场景丰富的数据集

2.3 自蒸馏/聚类（DINO、iBOT、MaskFeat）

DINO（Facebook）非常强大：

无监督情况下可自动生成“物体分割注意力”在下游任务迁移效果极好ViT 在 DINO 训练下会自动学到“类激活图”

iBOT 则是 DINO + Masked Image Modeling 的结合，效果更强。

3. MAE：最适合无标签训练 ViT 的方法

由于 MAE 简单高效，这里重点讲解 MAE 的训练流程与代码。

4. MAE 训练流程解析

!（可插入一个 MAE 工作流程图）

MAE 训练步骤：

Step 1：图像切成 patch

例如 224×224 图像，每个 patch 16×16，对应 196 个 patch。

Step 2：随机 Mask 75% patch

Mask 比例越高，自监督效果越好。

Step 3：Encoder 编码未 Mask 的 patch

ViT Encoder 只处理 25% 的 patch，训练更快。

Step 4：Decoder 重建全图

通过计算 L2 Loss / Smooth L1 Loss 来学习视觉特征。

5. MAE + ViT 无标签训练 PyTorch 实现示例

下面给出一个极简可运行 MAE 训练代码。

▶️ 安装依赖


pip install torch torchvision timm

▶️ MAE 模型实现（简化版）


import torch
import torch.nn as nn
import timm

class MAE(nn.Module):
    def __init__(self, encoder_name="vit_base_patch16_224"):
        super().__init__()
        self.encoder = timm.create_model(encoder_name, pretrained=False)
        self.decoder = nn.Sequential(
            nn.Linear(768, 512),
            nn.GELU(),
            nn.Linear(512, 768)
        )

    def forward(self, x, mask):
        # x: [B, N, 768]
        x_visible = x[~mask].view(x.size(0), -1, x.size(2))
        encoded = self.encoder.patch_embed(x_visible)
        decoded = self.decoder(encoded)
        return decoded

▶️ 简单训练循环


import torch.optim as optim

model = MAE().cuda()
optimizer = optim.Adam(model.parameters(), lr=1e-4)
loss_fn = nn.MSELoss()

for epoch in range(10):
    for imgs in dataloader:
        imgs = imgs.cuda()

        # patch + mask
        patches = patchify(imgs)
        masked_patches, mask = random_mask(patches)

        # mae forward & loss
        outputs = model(masked_patches, mask)
        loss = loss_fn(outputs, patches)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch}, Loss = {loss.item():.4f}")

这是一个可自行扩展的最小版本示例。实际训练中需加入 patchify、mask、decoder、scheduler 等完整实现。

6. 无标注 ViT 预训练后如何使用？

预训练完成后，可以进行多种下游任务：

1️⃣ 图像分类

只需加一个 MLP head：


model = pretrained_vit
model.head = nn.Linear(768, num_classes)

2️⃣ 图像分割（如 UNet + ViT Encoder）

先冻结 encoder，再 fine-tune decoder。

3️⃣ 特征提取（检索 / 聚类 / 语义分析）

MAE/DINO 提取的特征具有强大的语义性。

4️⃣ 高光谱、医学图像、遥感分类

无标签预训练可以极大提升有限标注上的性能。

7. 无标签 ViT 的优势总结

方法	是否需要标签	优势	代表算法
MAE	❌ 无需标签	结构简单，效果强	MAE, MaskFeat
对比学习	❌ 无需标签	适合大规模图像	MoCo v3, SimCLR
自蒸馏	❌ 无需标签	自动学习类激活	DINO, iBOT