ViT Patch Embedding理解 ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。 假设输入图像的维度为 $H \times W \times C$,分别表示高,宽和通道数。 Patch Embeeding操作将输入图像分成 $N$ 个大小为 $P^2C$ 的 patch,并reshape成维度为 $N \times (P^2C 2021-06-11 计算机视觉 #计算机视觉