Chinese Truman

Attention Rollout

问题陈述从图1a中的原始attention可以看出，只有在最开始的几层，不同位置的attention模式有一些区别，但是更高层中的attention权重更加一致。这表示随着模型层数的增加，嵌入的内容变得更加情境化，可能都带有类似的信息。此外，另一篇文章中表示注意力权重不一定与输入token的相对重要性相对应。作者使用输入消融法，blank-out方法来估计每个输入token的重要性。Blan

2021-08-14

自然语言处理

#计算机视觉 #人工智能 #自然语言处理

torch.autograd.variable

在PyTorch0.4.0之后Variable 已经被PyTroch弃用 Variable不再是张量使用autograd的必要条件只需要将张量的requires_grad设为True该张量就会自动支持autograd运算在新版的PyTorch中Variable(tensor)和Varialbe(tensor, requires_grad)还能继续使用，但是返回的是tensor变量，而不是Var

2021-08-03

pytorch

#pytorch

pandas stack

堆叠一个DataFrame意味着将最内层的列索引移动为最内层的行索引。其逆运算叫做反叠加。堆叠（stack）是什么?-如果我们有多个索引列，通过将最内层的列级别移动到最内层的行级别来减少数据集列。所以堆栈是将cols的索引变到rows(最里面的)。如图2所示，经过pt.stack()操作后marital_status从列索引变为行索引反叠加（unstack）是什么?-如果我们有多索引行，我

2021-07-21

pandas

#pandas

Transformer可视化概念理解

最近需要对Transformer网络的中间层进行可视化，便于分析网络，在此记录一些常用到的概念。常用到的方法主要是Attention Rollout和Attention Flow，这两种方法都对网络中每一层的token attentions进行递归计算，主要的不同在于假设低层的attention weights如何影响到高层的信息流，以及是否计算token attentions之间的相关性。为

2021-06-17

可视化

#可视化 #算法

kwargs.pop

pop(key[, default]) if key is in the dictionary, remove it and return its value, else return default. If default is not given and key is not in the dictionary, a KeyError is raised. kwargs.pop()的作用是

2021-06-14

python

#python

ViT Patch Embedding理解

ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。假设输入图像的维度为 $H \times W \times C$，分别表示高，宽和通道数。 Patch Embeeding操作将输入图像分成 $N$ 个大小为 $P^2C$ 的 patch，并reshape成维度为 $N \times (P^2C

2021-06-11

计算机视觉

#计算机视觉