大型语言模型(LLM)的面面观(二)

UniLM

UniLM是微软在2019年发布的语言模型。其框架类似BERT，但训练方式不一样，它需要联合训练3种不同目标函数的无监督语言模型，如下所示：

三种不同目标函数的无监督语言模型：双向语言模型、单向语言模型、序列到序列语言模型，被共同优化在同一个模型网络中。通过不同的掩码控制预测单词的上下文可见性，实现不同的模型表征。

单向语言模型：分为从左到右和从右到左两种。从左到右，即仅使用被掩蔽token左侧所有的文本来预测被掩蔽的token。从右到左，则是仅使用被掩蔽token右侧的所有文本来预测被掩蔽的token。
双向语言模型：与BERT模型一致，在预测被掩蔽的token时，可以观察到所有的token。
序列到序列语言模型：如果被掩蔽的token，在第一个文本序列中，那么仅可以使用第一个文本序列中的token，不能使用第二个文本序列的任何信息；如果被掩蔽的token在第二个文本序列中，那么可以使用第一个文本中所有的token和第二个文本序列中被掩蔽token左侧的token预测被掩蔽的token。

序列到序列模型的预测要求也可以看作是单向语言模型，只是，在这里有两个文本序列。文本序列的抽取一般都会有特定的规则。

在UniLM的预训练过程中，每个训练批次中有1/3的数据用于优化双向语言模型，1/3用于优化序列到序列语言模型，1/6用于优化从左到右的单向语言模型，1/6用于优化从右到左的单向语言模型。token掩码的概率是15%，在被掩蔽的token中，80%使用”[MASK]”标记替换，10%使用字典中随机的token替换，10%保持原有的token不变。

2020年，微软提出UniLM-2，使用伪掩蔽语言模型(Pseudo-Masked Language Mode，PMLP)进行自编码和自回归语言模型任务的统一预训练。其中，使用传统的掩码进行自编码方式，学习被掩蔽的token与上下文的关系；使用伪掩码通过自回归方式，学习被掩蔽的token之间的关系。中心思想与UniLM一致，即实现同一程序做不同的任务。