由于并行性和容量,Transformer架构被广泛用于LLM,支持将语言模型扩展到数十亿甚至数万亿个参数。 现有的LLMs可以大致分为三种类型: encoder-decoder, causal decoder, and prefix decoder.
General Architecture
如上所述,有三种类型的LLMs架构
从图可以看出,不同的语言模型架构是通过attention mask(注意力掩码)设计实现的,mask取全1就对应双向注意力,mask取下三角矩阵就对应单向注意力。
Encoder-Decoder
基于普通的Transformer模型,编码器-解码器架构由两个Transformer块堆栈组成——编码器和解码器。 编码器利用堆叠的多头自注意层对输入序列进行编码并产生潜在表征。解码器对这些表示执行交叉注意并生成目标序列。
如Flan-T5,是使用这种架构构建的。Encoder部分采用双向注意力,对应的prompt的每个token都可以互相看到;而Decoder部分仍然采用单向注意力,对应的completion仍然保证前面的token看不到后面的token。
Causal Decoder
causal decoder包含一个单向注意掩码,允许每个输入token只关注过去的token和它自己。在解码器内以相同的方式处理输入和输出token。
gpt系列模型,包括GPT-1、GPT-2和GPT-3;Llama1 & 2 同样也是构建在此体系结构上的代表性语言模型。GPT-3表现出显著的情境学习能力。属于Decoder-Only架构。
一般会将其mask处理称为Casual Mask.
Prefix Decoder
prefix decoder架构,也称为non-causal decoder解码器,修改了causal decoder的屏蔽机制,以实现对prefix token的双向关注和对生成token的单向关注。
与编码器-解码器架构一样,prefix decoder可以对prefix序列进行双向编码,并使用共享参数自回归地预测输出token。
对比于从头开始训练,一种实用的方法是训练causal decoder并将其转换为prefix decoder,以更快地收敛。基于prefix decoder的LLMs包括GLM130B和U-PaLM。
Conclusion
所有三种架构类型都可以使用混合专家缩放技术进行扩展,该技术为每个输入稀疏地激活神经网络权重的子集。 该方法已用于Switch Transformer和GLaM等模型,增加专家数量或总参数大小可以显着提高性能。
原文始发于微信公众号(阿郎小哥的随笔驿站):大型语言模型(LLM)的面面观(一)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/244184.html