超大预训练模型是NLP的未来么？

大家好，好久不见，我是Zarc

之前在面试的时候，被问到如何看待当前诸如GPT-3的超大模型，那今天我也来和大家简单聊一下当前的大模型发展状况

从2020年GPT-3发布以来，似乎各大厂商都被这种超大预训练语言模型的零样本和小样本能力所震撼，然后都争相发布自己的模型，所以经常看到各种推文：某某机构耗时多久训练出了多少亿参数的某某模型，在那些榜单取得了SOTA的效果！

之前组里的同事都感慨，辛辛苦苦调了半个月的模型，都比不上人家大模型的小样本效果，所以，超大预训练模型真的是NLP的未来么？

—

预训练模型

先来看看预训练模型，预训练模型可以说是每个NLP从业者都烂熟于心的东西了，预训练模型本质上属于自监督学习，利用大规模高质量文本学习一个语言模型，对于一个具体的简单下游任务，用有限的标注数据进行fine-tuning，这种预训练模型+fine-tuning往往就可以达到比较好的效果，简单、好用、高效，这也标志着NLP进入到了工业化实施阶段。

这一阶段的预训练模型往往模型的层数都比较浅，基本上都是基于BERT和GPT进行改进，模型的参数量也不大，如BERT（base）的12层，参数量在110B左右。

目前的预训练模型基本上都是基于transformer结构，一般按照encoder、decoder分为以下三类：

基于encoder ：BERT、Roberta、BigBird
基于decoder ：GPT、GPT-2、GPT-3
基于encoder + decoder ：BART、T5

—

超大预训练模型

我认为语言模型真正进入到超大预训练时代的标志的GPT-3的发布，GPT-3在2020年5月发布，论文《Language Models are Few-Shot Learners^[1]》展示了GPT-3的小样本和单样本能力，如下图：

在TriviaQA数据集上的不同参数的模型表现

上图可以看出：模型的参数越大、模型的表现越优秀，在175B的模型的小样本能力甚至超过了fine-tuned的SOTA

说实话，当初我看到这个图的时候也是虎躯一震，让我惊讶的是模型的零样本能力竟然如此优秀，在此之前，我一直觉得小样本能力和零样本能力都是虚无飘渺的东西，完全是为了发paper搞出来的一个榜单。

然而，看到GPT-3的小样本、零样本能力后，似乎开始畅想强人工智能实现的那一天了~

在GPT-3之后，各大厂商纷纷开启了军备竞赛模式，下图是近几年的每个月大规模预训练模型发布的数量

超大模型数量

而超大预训练模型的参数量已经从GPT-3的千亿参数模型卷到了十万亿参数——阿里M6-10T

当时看到M6的推文我都震惊了

一般来说，超大预训练模型的结构都是基于Transformer架构，而这些大模型又分为两类：

稠密型：也就是模型对Transformer结构的全尺寸扩容，这类模型一般而言会很深，如GPT-3的176B参数版本模型的层数达到了96层，13B参数版本的层数也是达到了40层
稀疏型：稀疏型Transformer主要是在对模型的全连接层引入MoE(Mixture-Of-Experts，混合专家网络)进行扩容，整个模型会更 ”宽“ 一些，如M6-10T的参数量达到了10万亿，但是模型的层数只有36层，大量参数集中在混合专家网络，混合专家网络在深度学习的设计最早可以追溯到2017年谷歌的一篇文章《OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER》，感兴趣的朋友可以了解一下。

总的来说，目前大模型的趋势似乎在往稀疏型transformer上靠，这样模型不需要特别深就能够实现扩容到参数比较大的量级，并且这种MoE架构看起来也似乎更加合理，更适合模型处理多模态的数据输入。

—

个人感受

超大预训练模型这种大力出奇迹取得比较好的效果，在我看来，本质上有点类似于人的学习过程，给予更大的脑容量（模型参数量），学习更多的知识（大规模高质量数据集），学习更长的时间（训练时长），更高效的学习方法（训练任务设计），通过大量反复的学习，找到数据之间的规律，从而具备一定的小样本能力，但是正如大家对GPT-3的批判中所说的那样，由于数据集的原因，大模型本身可能就会存在偏见，更有甚者可能还会出现种族歧视、色情暴力这些输出，所以在大模型的训练过程中，高质量的数据集是十分繁琐且重要的一个步骤。

另外，从transformer在2017年提出至今，仍然没有新的结构出现，并且结合当前的形势来看，好像未来并不会出现优于transformer的模型结构了，当前大模型都是采用transformer架构，并且已经有硬件厂商专门针对transformer进行了优化，这就导致即使未来出现比transformer理论上更合理、更高效的模型结构，在实际应用过程中也会由于硬件的限制导致其性能遇到瓶颈，这也是众多深度学习巨佬所担心的问题

最后，至于说超大预训练模型是不是NLP的未来，我个人觉得预训练的NLP未来发展的趋势，但是大模型可能并不是未来的终极形态，大模型的数据处理、模型训练、部署推理所需要的算力就决定了它始终是只属于头部公司机构的独角戏，其他人就只能等待大模型开源或者开放API来感受一下大模型的魅力，至于那些具体的下游任务，还是得去自己搭建Baseline进行调优达到业务上的可用。

关注六只栗子，面试不迷路！