引言:本文主要总结对于机器学习和深度学习领域一些比较片面粗浅的理解,包含的范围比较杂乱,在此做一个记录。
一、对于CNN和Transformer的对比
CNN使用了较强的归纳偏置(inductive biases):
- 权重共享,图像不同部分以相同方式处理,位置不敏感;
- 由于卷积算子的性质,卷积的特征图具有局部敏感性,也就是每次卷积操作只会考虑原始数据的一小部分的局部信息。
因此,CNN 的归纳偏置缺乏对输入数据本身的整体把握。它很擅长提取局部的有效信息,但是没能提取全局数据之间的长距离特征。
相比之下,基于自注意力机制的Transformer模型最小化了归纳偏置。当在大数据集上进行训练时,这些模型的性能已经可以媲美甚至超过 CNN 。但在小数据集上训练时,它们往往很难学习有意义的表征。可以说,CNN在小数据集上表现较为突出,因为预先强加了归纳偏置,可以让网络一开始就朝着比较正确的方向学习,但当数据量增大时,可能由于这些归纳偏置,导致其达到一个上限,而Transformer没有,所以对数据非常饥渴,但同时上限也很高。