ChatGPT技术路径：GPT的进化历程

ChatGPT技术路线演化

ChatGPT经历多类技术路线演化，逐步成熟与完善。ChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。

ChatGPT经过多类技术积累，最终形成针对人类反馈信息学习的大规模预训练语言模型

ChatGPT的性能提升

ChatGPT是基于Transformer架构的语言模型，它在以往大语言模型（如ELMo和GPT-2）的基础上有诸多性能提升。

更大的语料库：ChatGPT使用了更大的语料库，以更好地捕捉人类语言的复杂性。更高的计算能力：ChatGPT使用了更高的计算资源，以获得更好的训练效果。更加通用的预训练：ChatGPT的预训练是通用的，因此它可以更好地适应各种不同的任务。更高的准确性：ChatGPT的训练效果比以往的大语言模型更好，因此它的准确性更高。更高的适应性：ChatGPT具有较高的适应性，可以根据不同的场景和任务进行微调，以提高其在特定领域的效果。更强的自我学习能力：ChatGPT具有自我学习能力，可以在不断接触新语料的过程中持续提高自己的性能。

技术里程碑1：迁移学习

迁移学习(Transfer Learning)使基础模型成为可能

技术层面上，基础模型通过迁移学习(Transfer Learning)(Thrun 1998)和规模(scale)得以实现。迁移学习的思想是将从一项任务中学习到的“知识”（例如，图像中的对象识别）应用于另一项任务（例如，视频中的活动识别）。在深度学习中，预训练又是迁移学习的主要方法：在替代任务上训练模型（通常只是达到目的的一种手段），然后通过微调来适应感兴趣的下游任务。转移学习(Transfer Learning)使基础模型成为可能。

大规模化(scale)使基础模型更强大，因而GPT模型得以形成

大规模需要三个要素：

计算机硬件的改进——例如，GPU吞吐量和内存在过去四年中增加了10倍；Transformer模型架构的开发（ Vaswani et al. 2017 ），该架构利用硬件的并行性来训练比以前更具表现力的模型；以及更多训练数据的可用性。

技术里程碑2：Transformer

Transformer奠定了生成式AI领域的游戏规则

基于Transformer的序列建模方法现在应用于文本、图像、语音、表格数据、蛋白质序列、有机分子和强化学习等，这些例子的逐步形成使得使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟。

例如，GPT-3（Brown et al. 2020 ）与GPT-2的15亿参数相比， GPT-3具有1750亿个参数，允许上下文学习，在上下文学习中，只需向下游任务提供提示（任务的自然语言描述），语言模型就可以适应下游任务，这是产生的一种新兴属性。

Transformer摆脱了人工标注数据集的缺陷，模型在质量上更优、更易于并行化

Transformer通过成功地将其应用于具有大量和有限训练数据的分析，可以很好地推广到其他任务。 2017年，在Ashish Vaswani et.al 的论文《Attention Is All You Need》中，考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络，性能最好的模型被证明还是通过注意力机制（attention mechanism）连接编码器和解码器，因而《Attention Is All You Need》中提出了一种新的简单架构——Transformer，它完全基于注意力机制，完全不用重复和卷积，因而这些模型在质量上更优，同时更易于并行化，并且需要的训练时间明显更少。 Transformer出现以后，迅速取代了RNN系列变种，跻身主流模型架构基础。（RNN缺陷正在于流水线式的顺序计算）

Transformer模型架构

Transformer典型技术场景下的原理介绍

Transformer架构可分为自回归系列（例如GPT-3，偏好生成性任务）、双向Transformer+Mask的自编码系列（例如BERT，偏好自然语言理解）、Encoder-decoder架构（例如T5，使用双向/单向attention，偏好条件文本生成）。

摘要/标题生成

首先通过词嵌入(Word Embedding)将字、词、句进行区分，然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重其次洗择相应的文本单元子集组成摘要候洗集，完成内容选择，最后针对字数要求等限定条件，对候选集的内容进行整理形成最终摘要，完成内容组织。其细分路径又包含生成式文本摘要(AATS)，即形成抽象认知并创造新词灵活概括，和抽取式文本摘要(EATS)，即直接抽取原始素材并拼接成简单概要。

2. 内容续写（例如文章续写）

通过随机Mask(即遮挡)数据库文本中的词语或语段，让神经网络自主学习复原被遮挡部分，从而拥有“猜测”缺失内容的能力，产出预训练模型。再通过大规模预训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程。

3. 整段文本生成

对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。结构性的文本生成，首先通过注意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理。增强数据间的结构信息。其次通过Transformer等模式结合上下文进行推导，生成最终文本。

4. 文本风格迁移

主流思路是分离文本属性及文本内容。隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。

GPT-1：借助预训练，进行无监督训练和有监督微调

GPT-1模型的核心手段是预训练（Pre-training）

GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要。

GPT（Generative Pre-training Transformer）于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。

同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。

在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之前方法不同，GPT在微调期间使用任务感知输入转换，以实现有效的传输，同时对模型架构的更改最小。

GPT-1模型的核心手段是预训练（Pre-training）

GPT相比于Transformer等模型进行了显著简化

相比于Transformer，GPT训练了一个12层仅decoder的解码器（原Transformer模型中包含Encoder和Decoder两部分）。

相比于Google的BERT(Bidirectional Encoder Representations from Transformers,双向编码生成Transformer)， GPT仅采用上文预测单词（BERT采用了基于上下文双向的预测手段）。

注：ChatGPT的表现更贴近人类意图，部分因为一开始GPT是基于上文的预测，这更贴近人类的话语模式，因为人类言语无法基于将来的话来做分析。

GPT-1模型相比于Transformer模型有了显著简化

GPT-2：采用多任务系统，基于GPT-1进行优化

GPT-2在GPT-1的基础上进行诸多改进，实现执行任务多样性，开始学习在不需要明确监督的情况下执行数量惊人的任务。

在GPT-2阶段，OpenAI去掉了GPT-1阶段的有监督微调（fine-tuning），成为无监督模型。大模型GPT-2是一个1.5B参数的Transformer，在其相关论文中它在8个测试语言建模数据集中的7个数据集上实现了当时最先进的结果。模型中，Transfomer堆叠至48层。GPT-2的数据集增加到8 million的网页、大小40GB的文本。

GPT-2要解决和优化的问题

机器学习系统通过使用大型数据集、高容量模型和监督学习的组合，在训练任务方面表现出色，然而这些系统较为脆弱，对数据分布和任务规范的轻微变化非常敏感，因而使得AI表现更像狭义专家，并非通才。

GPT-2要实现的目标

转向更通用的系统，使其可以执行许多任务，最终无需为每个任务手动创建和标记训练数据集。

GPT-2的核心抓手——采用多任务模型（Multi-task）

GPT-2调整优化的目的是为了解决零次学习问题（ zero-shot）（注：zero-shot问题，就是针对AI在面对不认识的事物时，也能进行推理）多任务模型的特点：跟传统ML需要专门的标注数据集不同（从而训练出专业AI），多任务模型不采用专门AI手段，而是在海量数据喂养训练的基础上，适配任何任务形式。

GPT-2仍未解决应用中的诸多瓶颈

GPT-2聚焦在无监督、zero-shot（零次学习）上，然而GPT-2训练结果也有不达预期之处，所存在的问题也亟待优化。在GPT-2阶段，尽管体系结构是任务无关的，但仍然需要任务特定的数据集和任务特定的微调：要在所需任务上实现强大的性能，通常需要对特定于该任务的数千到数十万个示例的数据集进行微调。

存在的问题01：

从实用的角度来看，每一项新任务都需要一个标记示例的大数据集，这限制了语言模型的适用性；对于其中的许多任务（从纠正语法到生成抽象概念的示例，再到评论一个短篇故事等等），很难收集一个大型的监督训练数据集，特别是当每个新任务都必须重复该过程时。

存在的问题02：

预训练加微调范式中，可能在这种范式下实现的泛化可能很差，因为该模型过于特定于训练分布，并且在其之外无法很好地泛化。微调模型在特定基准上的性能，即使名义上是人类水平，也可能夸大基础任务的实际性能。

存在的问题03：

因为人类学习大多数语言任务不需要大型受监督的数据集，当前NLP技术在概念上具有一定的局限性。

GPT-3：取得突破性进展，任务结果难以与人类作品区分开来

GPT-3对GPT-2追求无监督与零次学习的特征进行了改进

GPT-3利用了过滤前45TB的压缩文本，在诸多NLP数据集中实现了强大性能。 GPT-3是一个具有1750亿个参数的自回归语言模型，比之前的任何非稀疏语言模型多10倍。对于所有任务（在few-shot设置下测试其性能），GPT-3都是在没有任何梯度更新或微调的情况下应用的，仅通过与模型的文本交互来指定任务和few-shot演示。 GPT-3在许多NLP数据集上都有很强的性能（包括翻译、问题解答和完形填空任务），以及一些需要动态推理或领域适应的任务（如解译单词、在句子中使用一个新单词或执行三位数算术）。 GPT-3可以生成新闻文章样本（已很难将其与人类撰写的文章区分开来）。

GPT-3的模型参数在GPT-2的基础上增加110多倍

GPT-3相关研究显示，few-shot(少量样本）的综合表现是在无监督模式下最优的

InstructGPT：在GPT-3基础上进一步强化

InstructGPT使用来自人类反馈的强化学习方案RLHF（reinforcement learning from human feedback），通过对大语言模型进行微调，从而能够在参数减少的情况下，实现优于GPT-3的功能。

InstructGPT提出的背景：使语言模型更大并不意味着它们能够更好地遵循用户的意图，例如大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出，即这些模型与其用户不一致。另外，GPT-3虽然选择了少样本学习（few-shot）和继续坚持了GPT-2的无监督学习，但基于few-shot的效果，其稍逊于监督微调（fine-tuning）的方式。基于以上背景，OpenAI在GPT-3基础上根据人类反馈的强化学习方案RHLF，训练出奖励模型（reward model）去训练学习模型（即：用AI训练AI的思路） InstructGPT的训练步骤为：对GPT-3监督微调 → 训练奖励模型（reward model） → 增强学习优化SFT (第二、第三步可以迭代循环多次)

InstructGPT训练三步骤各自对应的数据集规模如下图所示（labeler指的是OpenAI的标注人员，customer指GPT-3 API的用户）

ChatGPT：得益于通用（基础）模型所构建 AI 系统的新范式

ChatGPT核心技术优势：提升了理解人类思维的准确性

InstructGPT与ChatGPT属于相同代际的模型，ChatGPT只是在InstructGPT的基础上增加了Chat属性，且开放了公众测试。ChatGPT提升了理解人类思维的准确性的原因在于利用了基于人类反馈数据的系统进行模型训练。

注：根据官网介绍，GhatGPT也是基于InstructGPT构建，因而可以从InstructGPT来理解ChatGPT利用人类意图来增强模型效果。

基于人类反馈强化的核心训练流程如下所示：

基础模型（Foundation Model）在广泛的应用中整合构建机器学习系统的方法，它为许多任务提供了强大的杠杆作用。

基础模型是在深度神经网络和自我监督学习的基础上演化而来。基础模型基于广泛数据（通常使用大规模自我监督）训练的任何模型，可以适应（例如微调）广泛的下游任务，目前例子包括BERT（Devlin et al.）、GPT-3（Brown et al. 2020）和CLIP（Radford et al. 2021）。机器学习使学习算法同质化（例如，逻辑回归），深度学习使模型架构同质化（如卷积神经网络），而基础模型使模型本身同质化（比如， GPT-3）。

人工智能的发展呈现同质化的过程

ChatGPT以基础模型为杠杆，可适用多类下游任务

ChatGPT采用了GPT3.5（InstructGPT）大规模预训练模型，在自然语言理解和作品生成上取得极大性能提升。

鉴于传统NLP技术的局限问题，基于大语言模型（LLM）有助于充分利用海量无标注文本预训练，从而文本大模型在较小的数据集和零数据集景下可以有较好的理解和生成能力。基于大模型的无标准文本书收集，ChatGPT得以在情感分析、信息钻取、理解阅读等文本场景中优势突出。

随着训练模型数据量的增加，数据种类逐步丰富，模型规模以及参数量的增加，会进一步促进模型语义理解能力以及抽象学习能力的极大提升，实现ChatGPT的数据飞轮效应（用更多数据可以训练出更好的模型，吸引更多用户，从而产生更多用户数据用于训练，形成良性循环）。

研究发现，每增加参数都带来了文本合成和/或下游NLP任务的改进，有证据表明，日志丢失与许多下游任务密切相关，随着规模的增长，日志丢失呈现平稳的改善趋势。

基础模型可以集中来自各种模态的所有数据的信息，然后这一模型可以适用于广泛的下游任务

ChatGPT大模型架构也是ML发展到第三阶段的必然产物

ML中的计算历史分为三个时代：前深度学习时代、深度学习时代和大规模时代，在大规模时代，训练高级ML系统的需求快速增长。

计算、数据和算法的进步是指导现代机器学习（ML）进步的三个基本因素。在2010年之前，训练计算的增长符合摩尔定律，大约每20个月翻一番。自2010年代早期深度学习（Deep Learning）问世以来，训练计算的规模已经加快，大约每6个月翻一番。2015年末，随着公司开发大规模ML模型，训练计算需求增加10至100倍，出现了一种新趋势——训练高级ML系统的需求快速增长。

2015-2016年左右，出现了大规模模型的新趋势。这一新趋势始于2015年末的AlphaGo，并持续至今（GPT-3于2020年出现）。

ML相关计算规模呈现持续快速攀升趋势

2010年至2022年间102个里程碑ML系统的训练计算趋势如下所示

参考文献：行业专题研究2023年02月07日《ChatGPT研究框架（2023）》—— 国泰君安证券