Chinese Truman
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Attention Rollout

问题陈述 从图1a中的原始attention可以看出,只有在最开始的几层,不同位置的attention模式有一些区别,但是更高层中的attention权重更加一致。这表示随着模型层数的增加,嵌入的内容变得更加情境化,可能都带有类似的信息。此外,另一篇文章中表示注意力权重不一定与输入token的相对重要性相对应。 作者使用输入消融法,blank-out方法来估计每个输入token的重要性。Blan
2021-08-14
自然语言处理
#计算机视觉 #人工智能 #自然语言处理

torch.autograd.variable

在PyTorch0.4.0之后Variable 已经被PyTroch弃用 Variable不再是张量使用autograd的必要条件 只需要将张量的requires_grad设为True该张量就会自动支持autograd运算 在新版的PyTorch中Variable(tensor)和Varialbe(tensor, requires_grad)还能继续使用,但是返回的是tensor变量,而不是Var
2021-08-03
pytorch
#pytorch

pandas stack

堆叠一个DataFrame意味着将最内层的列索引移动为最内层的行索引。其逆运算叫做反叠加。 堆叠(stack)是什么?-如果我们有多个索引列,通过将最内层的列级别移动到最内层的行级别来减少数据集列。所以堆栈是将cols的索引变到rows(最里面的)。如图2所示,经过pt.stack()操作后marital_status从列索引变为行索引 反叠加(unstack)是什么?-如果我们有多索引行,我
2021-07-21
pandas
#pandas

Transformer可视化概念理解

最近需要对Transformer网络的中间层进行可视化,便于分析网络,在此记录一些常用到的概念。 常用到的方法主要是Attention Rollout和Attention Flow,这两种方法都对网络中每一层的token attentions进行递归计算,主要的不同在于假设低层的attention weights如何影响到高层的信息流,以及是否计算token attentions之间的相关性。 为
2021-06-17
可视化
#可视化 #算法

kwargs.pop

pop(key[, default]) if key is in the dictionary, remove it and return its value, else return default. If default is not given and key is not in the dictionary, a KeyError is raised. kwargs.pop()的作用是
2021-06-14
python
#python

ViT Patch Embedding理解

ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。 假设输入图像的维度为 $H \times W \times C$,分别表示高,宽和通道数。 Patch Embeeding操作将输入图像分成 $N$ 个大小为 $P^2C$ 的 patch,并reshape成维度为 $N \times (P^2C
2021-06-11
计算机视觉
#计算机视觉
1…789

搜索

© 2026 Real Supervised Chinese Truman
总访问量 次 总访客数 人