GPT

发表于2024-08-14|更新于2024-08-14|你会Java、Go、C#，so what!AI/神经网络/深度学习，你知道不GPT（一）

|阅读量:

前言

刚进公司，需要学开发需要的新框架及现成框架，完成自己的需求。那么在此期间，遇到新东西，就可以以此为基础，学习新语言新框架新工具…，可能会学到一些新技术、新知识，总结一下，以供后面参考学习，查看。肯定大家都有一定差异啦，大家作为参考哦，与诸君共勉。

一、GPT的演进：

1、在GPT-1诞生之前，大部分自然语言处理模型如果想要学习大量样本，基本上都是采用监督学习的方式对模型进行训练，这不仅要求大量高质量的标注数据，而且因为这类标注数据往往具有领域特性，很难训练出具有通用性的模型。

2、为了解决这一问题，GPT-1的核心思想是将无监督学习作用于监督学习模型的预训练目标，先通过在无标签的数据上学习一个通用的语言模型，然后再根据问答和常识推理、语义相似度判断、文本分类、自然语言推理等特定语言处理任务对模型进行微调，来实现大规模通用语言模型的构建，这可以理解成一种半监督学习的形式。此外，GPT-1在训练时选用了BooksCorpus数据集来训练模型，它包含了大约7 000本未出版的书籍的文字，这种更长文本的形式可以更好地让模型学习到上下文的潜在关系。最终，GPT-1在多数任务中取得了更好的效果，但依然存在很大的问题：

一是基于未发表书籍数据训练具有一定的数据局限性，
二是在一些任务上的性能表现还是会出现泛化性不足的现象，这只能让AI成为领域的专家，而无法成为通用的模型。

3、为了增强GPT模型的泛化能力，GPT-2在GPT-1的基础上进行了技术思想上的优化。GPT-2的核心出发点是：在语言模型领域，所有监督学习都可以看作无监督学习的子集。例如，把“小明是A省2022年高考状元”丢给算法做无监督学习，但是它也能学会完成“A省2022年高考状元是谁？”“小明是2022年哪个省的高考状元？”等需要标注正确答案的监督学习任务。因此，当模型的容量非常大且数据量足够丰富时，一个无监督学习的语言模型就可以覆盖所有监督学习的任务。在这样的指导思想下，GPT-2的模型参数达到了15亿，相较于GPT-1翻了近10倍，同时，训练用的数据集改为了Reddit上约800万篇高赞文章，训练数据量也翻了约8倍。而在后续的测试中，GPT-2的确在许多自然语言处理任务方面表现出了普适而强大的能力，但仍然具有很大的待提升空间。

4、GPT-3基本上沿用了GPT-2的结构，但在参数量和训练数据集上进行了大幅增加，参数量增加了百倍以上，预训练数据增加了千倍以上。在这样夸张的增幅下，GPT-3也最终实现了“大力出奇迹”，在自动问答、语义推断、机器翻译、文章生成等领域达到了前所未有的性能。这样的技术飞越无疑是振奋人心的，而每个人都可以通过体验ChatGPT流畅的对话过程来体验技术的演进。ChatGPT是由其前身InstructGPT改进而来，InstructGPT是一个经过微调的新版本GPT-3，可以尽量避免一些具有攻击性的、不真实的语言输出。InstructGPT的主要优化方式是从人类反馈中进行强化学习（Reinforcement Learning from Human Feedback，简称RLHF）。而ChatGPT采用了和 InstructGPT一样的方法，只是调整了数据收集方式。

二、ChatGPT完整的训练过程

步骤一：收集示范数据并训练一个监督学习的策略：
- 模型会从问题库里抽取问题，由工作人员撰写问题的答案，这些标记了答案的问题会被用于调优GPT-3.5模型（GPT-3的改进版）。
步骤二：收集对比数据并训练一个奖励模型。
- 抽取问题和一些模型的答案，工作人员会对所有答案由好到坏排序，这些排序数据会被用于训练奖励模型。
步骤三：使用强化学习算法优化针对奖励模型的策略。
- 抽取问题，通过模型生成初步回答，回答会被输入奖励模型中得到评分和优化参数，并在优化后重复优化的过程。

三、ChatGPT的优缺点：

1、上述二中的训练方法让模型更加清晰地理解了人类对话的意图，并获得了多轮对话的能力。真格基金的林惠文曾在线上分享中表示，ChatGPT带来了不少有趣的提升：

敢于质疑不正确的前提。
主动承认错误和无法回答的问题。
大幅提升了对用户意图的理解。
大幅提升了结果的准确性

2、ChatGPT也并非完美的，依然存在很多问题。根据OpenAI的官方文档及用户实践经验，目前，ChatGPT的局限性包括：

有时会写出看似合理但不正确或荒谬的答案。
对输入措辞的调整或多次尝试相同的提示很敏感。例如，给定一个问题的措辞，模型可以声称不知道答案，但只要稍作改写，就可以正确回答。
回答通常过于冗长并过度使用某些短语。
对于模棱两可的问题，模型通常会猜测用户的意图，而非让用户澄清问题。
模型有时会响应有害的问题或表现出有偏见的行为。
在数学和物理等需要进行数字推理的任务中仍然会出现一些错误。

巨人的肩膀

周志明老师的凤凰架构
AIGC智能创作时代

文章作者: Hu hb

文章链接: https://ywmhhbaiminminai.github.io/2024/08/14/GPT/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 AIminminAI的技术博客！

GPT GPT的演进 GPT的完整训练过程

打赏

wechat
alipay

数据库加载中