admin管理员组文章数量:1122850
Transformer
简介
Transformer智能学习具有固定长度内容的建模局限性,新网络Transformer-XL(超长)包含片段级递归机制和新颖的位置编码机制,从而捕获长期依赖性。
Transformer-XL引入递归机制,重用之前片段中获得的隐藏状态,而不是每次都要从头开始计算每个片段的隐藏状态。重用的隐藏状态当作当前片段的存储器,构成前一片段和当前片段的连接。
除了使用前片段的隐藏状态,Transformer-XL还使用相对位置编码,而不是绝对位置编码,这是因为不引起时间混淆情况下重用状态。
因此,Transformer-XL能够获得更多的相对有效上下文长度(Relative Effective Context Length,RECL)。
1.模型
给定 x = ( x 1 , . . . , x T ) \mathbf x = (x_1, ..., x_T) x=(x1,...,xT),联合概率 P ( x ) = ∏ t P ( x t ∣ x < t ) P(\mathbf x) = \prod_t P(x_t| \mathbf x_{< t}) P(x)=∏tP(xt∣x<t),
一种vanilla model是,先把语料分割为很多个片段,每个片段都没有信息交叉(如上图左)。评估阶段就每次移动一个位置。
Transformer-XL 模型结构是这样,
计算公式:
SG(·)代表stop-gradient。 [ h u ∘ h v ] [\mathbf h_u \circ \mathbf h_v] [hu∘hv]代表两个片段的拼接。
reference:
- 谷歌、CMU重磅论文:Transformer升级版
- 源代码
本文标签: Transformer
版权声明:本文标题:Transformer 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/web/1687169832a71936.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论