transformer与cnn相比优缺点

transformer与cnn相比优缺点如下:

Transformer优点:

(1)突破了RNN模型不能并行计算的限制。

(2)相比CNN,计算两个位置之间的关联所需要的操作次数不会随着距离的增长而增加。

(3)attention机制可以产生更具可解释性的模型,可以从模型中检查attention分布,各个attention head可以学会执行不同的任务。

(4)Selfattention天然就能解决这个问题,因为在集成信息的时候,当前单词和句子中任意单词都发生了联系,一步到位。

Transformer缺点:

(1)局部信息的获取不如RNN和CNN强。

(2)位置信息编码存在问题,因为位普编码在语义空间中并不具备词向量的可线性变换,只是相当干人为设计的一种索引,所以并不能很好表征位置信息。

(3)由于transformer模型实际上是由残差模块和层归一化模块组合而成,并且层归一化模块位于两个残差模块之间,导致如果层数较多时连乘计算会使得顶层出现梯度消失问题。

特征表示能力

CNN可以通过卷积层提取出具有空间特征的特征表示,例如边缘、角点等,这些特征表示可以用于图像分类、目标检测、人脸识别等任务。

RNN可以通过循环层提取出具有时序特征的特征表示,例如序列中的依赖关系和上下文信息,这些特征表示可以用于文本分类、语音识别、音乐生成等任务。

Transformer可以通过多头注意力机制提取出具有上下文关联性的特征表示,例如文本中的关键词和语义信息,这些特征表示可以用于机器翻译、文本生成、问答系统等任务。