Chinese Truman
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

ViT Patch Embedding理解

ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。 假设输入图像的维度为 $H \times W \times C$,分别表示高,宽和通道数。 Patch Embeeding操作将输入图像分成 $N$ 个大小为 $P^2C$ 的 patch,并reshape成维度为 $N \times (P^2C
2021-06-11
计算机视觉
#计算机视觉
1…8910

搜索

© 2022-2026 Real Supervised Chinese Truman
总访问量 次 总访客数 人