UniLM
UniLM是微软在2019年发布的语言模型。其框架类似BERT,但训练方式不一样,它需要联合训练3种不同目标函数的无监督语言模型,如下所示:
三种不同目标函数的无监督语言模型:双向语言模型、单向语言模型、序列到序列语言模型,被共同优化在同一个模型网络中。通过不同的掩码控制预测单词的上下文可见性,实现不同的模型表征。
-
单向语言模型:分为从左到右和从右到左两种。从左到右,即仅使用被掩蔽token左侧所有的文本来预测被掩蔽的token。从右到左,则是仅使用被掩蔽token右侧的所有文本来预测被掩蔽的token。 -
双向语言模型:与BERT模型一致,在预测被掩蔽的token时,可以观察到所有的token。 -
序列到序列语言模型:如果被掩蔽的token,在第一个文本序列中,那么仅可以使用第一个文本序列中的token,不能使用第二个文本序列的任何信息;如果被掩蔽的token在第二个文本序列中,那么可以使用第一个文本中所有的token和第二个文本序列中被掩蔽token左侧的token预测被掩蔽的token。
序列到序列模型的预测要求也可以看作是单向语言模型,只是,在这里有两个文本序列。文本序列的抽取一般都会有特定的规则。
在UniLM的预训练过程中,每个训练批次中有1/3的数据用于优化双向语言模型,1/3用于优化序列到序列语言模型,1/6用于优化从左到右的单向语言模型,1/6用于优化从右到左的单向语言模型。token掩码的概率是15%,在被掩蔽的token中,80%使用”[MASK]”标记替换,10%使用字典中随机的token替换,10%保持原有的token不变。
2020年,微软提出UniLM-2,使用伪掩蔽语言模型(Pseudo-Masked Language Mode,PMLP)进行自编码和自回归语言模型任务的统一预训练。其中,使用传统的掩码进行自编码方式,学习被掩蔽的token与上下文的关系;使用伪掩码通过自回归方式,学习被掩蔽的token之间的关系。中心思想与UniLM一致,即实现同一程序做不同的任务。
GLM
GLM由清华大学于2021年3月提出。GLM通过修改attention的掩码机制实现统一模型,使得模型既可以用于NLU任务也可以用于NLG任务,与UniLM的思想一致。
在预训练过程中,GLM会从一个文本中随机挑选多个文本片段(片段长度服从以为3的泊松分布),利用”[MASK]”标记替换挑选出的片段并组成文本A,同时将这些挑选出来的文本片段随机排列组合成新的文本B。通过对”[MASK]”标记进行预测,达到模型预训练的目的。
Prefix LM
Prefix LM,即前缀语言模型,该结构是Google的T5模型论文起的名字,最早可以追溯到微软的UniLM。
Prefix LM是Encoder-Decoder模型的变体:在Prefix-LM中,Encoder与Decoder共享了同一个Transformer结构,在Transformer内部通过Attention Mask机制来实现共享。
Prefix LM在Encoder部分采用AE自编码模式,即前缀序列中任意两个token都相互可见;Decoder部分采用AR自回归模型,即待生成的token可以看到Encoder侧所有的token,和Decoder侧已经生成的token,但不能看未来尚未产生的token。
Prefix LM的代表模型是UniLM、T5、GLM。
理解与总结:对于Prefix LM,这里的Prefix前缀即掩码标记[MASK]之前的token段,在预训练与微调中,通过Prefix的引导可以生成指定任务的输出。
Causal LM
Causal LM是因果语言模型,只涉及到Encoder-Decoder中的Decoder部分,采用AR自回归模式,只根据历史的token来预测下一个token,也是通过Attention机制实现:
Causal LM代表模型是GPT家族、Llama系列。
结构模型
虽然目前的大模型基本都是基于Transformer结构模型构建,但基本都是其变体。对于模型的具体所属其实说法不一,官方也没有给出具体的回答,总结一下看到书上的内容。
基于Encoder结构的模型
-
BERT -
ERNIE(百度文心一言的基座) -
RoBERTa -
UniLM -
GLM(网上也有说是基于Decoder模型,但官方并没有说明,网上也有人说是ChatGLM1是Encoder,后面的2&3,魔改成了decoder)
基于Decoder结构的模型
-
GPT系列 -
Llama
基于Encoder-Decoder结构的模型
-
MASS -
BART -
T5
现在的大模型基于标准transformer结构”魔改”,老实说,如果源码或是官方说明不明确其结构模型,我基本上看不出来其结构。
原文始发于微信公众号(阿郎小哥的随笔驿站):大型语言模型(LLM)的面面观(二)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/244177.html