大型语言模型(LLM)的面面观(一)

小半 • 2024年3月18日下午7:48 • 后端笔记 • 阅读 278

由于并行性和容量，Transformer架构被广泛用于LLM，支持将语言模型扩展到数十亿甚至数万亿个参数。现有的LLMs可以大致分为三种类型: encoder-decoder, causal decoder, and prefix decoder.

如上所述，有三种类型的LLMs架构

image.png

从图可以看出，不同的语言模型架构是通过attention mask(注意力掩码)设计实现的，mask取全1就对应双向注意力，mask取下三角矩阵就对应单向注意力。

基于普通的Transformer模型，编码器-解码器架构由两个Transformer块堆栈组成——编码器和解码器。编码器利用堆叠的多头自注意层对输入序列进行编码并产生潜在表征。解码器对这些表示执行交叉注意并生成目标序列。

如Flan-T5，是使用这种架构构建的。Encoder部分采用双向注意力，对应的prompt的每个token都可以互相看到；而Decoder部分仍然采用单向注意力，对应的completion仍然保证前面的token看不到后面的token。

causal decoder包含一个单向注意掩码，允许每个输入token只关注过去的token和它自己。在解码器内以相同的方式处理输入和输出token。

gpt系列模型，包括GPT-1、GPT-2和GPT-3；Llama1 & 2 同样也是构建在此体系结构上的代表性语言模型。GPT-3表现出显著的情境学习能力。属于Decoder-Only架构。

一般会将其mask处理称为Casual Mask.

prefix decoder架构，也称为non-causal decoder解码器，修改了causal decoder的屏蔽机制，以实现对prefix token的双向关注和对生成token的单向关注。

与编码器-解码器架构一样，prefix decoder可以对prefix序列进行双向编码，并使用共享参数自回归地预测输出token。

对比于从头开始训练，一种实用的方法是训练causal decoder并将其转换为prefix decoder，以更快地收敛。基于prefix decoder的LLMs包括GLM130B和U-PaLM。

所有三种架构类型都可以使用混合专家缩放技术进行扩展，该技术为每个输入稀疏地激活神经网络权重的子集。该方法已用于Switch Transformer和GLaM等模型，增加专家数量或总参数大小可以显着提高性能。

原文始发于微信公众号（阿郎小哥的随笔驿站）：大型语言模型(LLM)的面面观(一)

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/244184.html