大型语言模型(LLM)的面面观(二)

UniLM

UniLM是微软在2019年发布的语言模型。其框架类似BERT,但训练方式不一样,它需要联合训练3种不同目标函数的无监督语言模型,如下所示:大型语言模型(LLM)的面面观(二)

三种不同目标函数的无监督语言模型:双向语言模型、单向语言模型、序列到序列语言模型,被共同优化同一个模型网络中。通过不同的掩码控制预测单词的上下文可见性,实现不同的模型表征。

  • 单向语言模型:分为从左到右和从右到左两种。从左到右,即仅使用被掩蔽token左侧所有的文本来预测被掩蔽的token。从右到左,则是仅使用被掩蔽token右侧的所有文本来预测被掩蔽的token。
  • 双向语言模型:与BERT模型一致,在预测被掩蔽的token时,可以观察到所有的token。
  • 序列到序列语言模型:如果被掩蔽的token,在第一个文本序列中,那么仅可以使用第一个文本序列中的token,不能使用第二个文本序列的任何信息;如果被掩蔽的token在第二个文本序列中,那么可以使用第一个文本中所有的token和第二个文本序列中被掩蔽token左侧的token预测被掩蔽的token。

序列到序列模型的预测要求也可以看作是单向语言模型,只是,在这里有两个文本序列。文本序列的抽取一般都会有特定的规则。

在UniLM的预训练过程中,每个训练批次中有1/3的数据用于优化双向语言模型,1/3用于优化序列到序列语言模型,1/6用于优化从左到右的单向语言模型,1/6用于优化从右到左的单向语言模型。token掩码的概率是15%,在被掩蔽的token中,80%使用”[MASK]”标记替换,10%使用字典中随机的token替换,10%保持原有的token不变。

2020年,微软提出UniLM-2,使用伪掩蔽语言模型(Pseudo-Masked Language Mode,PMLP)进行自编码和自回归语言模型任务的统一预训练。其中,使用传统的掩码进行自编码方式,学习被掩蔽的token与上下文的关系;使用伪掩码通过自回归方式,学习被掩蔽的token之间的关系。中心思想与UniLM一致,即实现同一程序做不同的任务。

GLM

GLM由清华大学于2021年3月提出。GLM通过修改attention的掩码机制实现统一模型,使得模型既可以用于NLU任务也可以用于NLG任务,与UniLM的思想一致

预训练过程中,GLM会从一个文本中随机挑选多个文本片段(片段长度服从以为3的泊松分布),利用”[MASK]”标记替换挑选出的片段并组成文本A,同时将这些挑选出来的文本片段随机排列组合成新的文本B。通过对”[MASK]”标记进行预测,达到模型预训练的目的。

Prefix LM

Prefix LM,即前缀语言模型,该结构是Google的T5模型论文起的名字,最早可以追溯到微软的UniLM。

Prefix LM是Encoder-Decoder模型的变体:在Prefix-LM中,Encoder与Decoder共享了同一个Transformer结构,在Transformer内部通过Attention Mask机制来实现共享。

Attention MASK机制:大型语言模型(LLM)的面面观(二)

Prefix LM在Encoder部分采用AE自编码模式,即前缀序列中任意两个token都相互可见;Decoder部分采用AR自回归模型,即待生成的token可以看到Encoder侧所有的token,和Decoder侧已经生成的token,但不能看未来尚未产生的token。

Prefix LM的代表模型是UniLM、T5、GLM。

理解与总结:对于Prefix LM,这里的Prefix前缀即掩码标记[MASK]之前的token段,在预训练与微调中,通过Prefix的引导可以生成指定任务的输出。

Causal LM

Causal LM是因果语言模型,只涉及到Encoder-Decoder中的Decoder部分,采用AR自回归模式,只根据历史的token来预测下一个token,也是通过Attention机制实现:大型语言模型(LLM)的面面观(二)

Causal LM代表模型是GPT家族、Llama系列。

结构模型

虽然目前的大模型基本都是基于Transformer结构模型构建,但基本都是其变体。对于模型的具体所属其实说法不一,官方也没有给出具体的回答,总结一下看到书上的内容。

基于Encoder结构的模型

  1. BERT
  2. ERNIE(百度文心一言的基座)
  3. RoBERTa
  4. UniLM
  5. GLM(网上也有说是基于Decoder模型,但官方并没有说明,网上也有人说是ChatGLM1是Encoder,后面的2&3,魔改成了decoder)

基于Decoder结构的模型

  1. GPT系列
  2. Llama

基于Encoder-Decoder结构的模型

  1. MASS
  2. BART
  3. T5

现在的大模型基于标准transformer结构”魔改”,老实说,如果源码或是官方说明不明确其结构模型,我基本上看不出来其结构。


原文始发于微信公众号(阿郎小哥的随笔驿站):大型语言模型(LLM)的面面观(二)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/244177.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!