@TOC


前言

刚进公司,需要学开发需要的新框架及现成框架,完成自己的需求。那么在此期间,遇到新东西,就可以以此为基础,学习新语言新框架新工具…,可能会学到一些新技术、新知识,总结一下,以供后面参考学习,查看。肯定大家都有一定差异啦,大家作为参考哦,与诸君共勉。

一、GPT的演进:

1、在GPT-1诞生之前,大部分自然语言处理模型如果想要学习大量样本,基本上都是采用监督学习的方式对模型进行训练,这不仅要求大量高质量的标注数据,而且因为这类标注数据往往具有领域特性,很难训练出具有通用性的模型。

2、为了解决这一问题,GPT-1的核心思想是将无监督学习作用于监督学习模型的预训练目标,先通过在无标签的数据上学习一个通用的语言模型,然后再根据问答和常识推理、语义相似度判断、文本分类、自然语言推理等特定语言处理任务对模型进行微调,来实现大规模通用语言模型的构建,这可以理解成一种半监督学习的形式。此外,GPT-1在训练时选用了BooksCorpus数据集来训练模型,它包含了大约7 000本未出版的书籍的文字,这种更长文本的形式可以更好地让模型学习到上下文的潜在关系。最终,GPT-1在多数任务中取得了更好的效果,但依然存在很大的问题:

  • 一是基于未发表书籍数据训练具有一定的数据局限性,
  • 二是在一些任务上的性能表现还是会出现泛化性不足的现象,这只能让AI成为领域的专家,而无法成为通用的模型。

3、为了增强GPT模型的泛化能力,GPT-2在GPT-1的基础上进行了技术思想上的优化。GPT-2的核心出发点是:在语言模型领域,所有监督学习都可以看作无监督学习的子集。例如,把“小明是A省2022年高考状元”丢给算法做无监督学习,但是它也能学会完成“A省2022年高考状元是谁?”“小明是2022年哪个省的高考状元?”等需要标注正确答案的监督学习任务。因此,当模型的容量非常大且数据量足够丰富时,一个无监督学习的语言模型就可以覆盖所有监督学习的任务。在这样的指导思想下,GPT-2的模型参数达到了15亿,相较于GPT-1翻了近10倍,同时,训练用的数据集改为了Reddit上约800万篇高赞文章,训练数据量也翻了约8倍。而在后续的测试中,GPT-2的确在许多自然语言处理任务方面表现出了普适而强大的能力,但仍然具有很大的待提升空间。

4、GPT-3基本上沿用了GPT-2的结构,但在参数量和训练数据集上进行了大幅增加,参数量增加了百倍以上,预训练数据增加了千倍以上。在这样夸张的增幅下,GPT-3也最终实现了“大力出奇迹”,在自动问答、语义推断、机器翻译、文章生成等领域达到了前所未有的性能。这样的技术飞越无疑是振奋人心的,而每个人都可以通过体验ChatGPT流畅的对话过程来体验技术的演进。ChatGPT是由其前身InstructGPT改进而来,InstructGPT是一个经过微调的新版本GPT-3,可以尽量避免一些具有攻击性的、不真实的语言输出。InstructGPT的主要优化方式是从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback,简称RLHF)。而ChatGPT采用了和 InstructGPT一样的方法,只是调整了数据收集方式。

二、ChatGPT完整的训练过程

  • 步骤一:收集示范数据并训练一个监督学习的策略:
    • 模型会从问题库里抽取问题,由工作人员撰写问题的答案,这些标记了答案的问题会被用于调优GPT-3.5模型(GPT-3的改进版)。
  • 步骤二:收集对比数据并训练一个奖励模型。
    • 抽取问题和一些模型的答案,工作人员会对所有答案由好到坏排序,这些排序数据会被用于训练奖励模型。
  • 步骤三:使用强化学习算法优化针对奖励模型的策略。
    • 抽取问题,通过模型生成初步回答,回答会被输入奖励模型中得到评分和优化参数,并在优化后重复优化的过程。

三、ChatGPT的优缺点:

1、上述二中的训练方法让模型更加清晰地理解了人类对话的意图,并获得了多轮对话的能力。真格基金的林惠文曾在线上分享中表示,ChatGPT带来了不少有趣的提升:

  • 敢于质疑不正确的前提。
  • 主动承认错误和无法回答的问题。
  • 大幅提升了对用户意图的理解。
  • 大幅提升了结果的准确性

2、ChatGPT也并非完美的,依然存在很多问题。根据OpenAI的官方文档及用户实践经验,目前,ChatGPT的局限性包括:

  • 有时会写出看似合理但不正确或荒谬的答案。
  • 对输入措辞的调整或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
  • 回答通常过于冗长并过度使用某些短语。
  • 对于模棱两可的问题,模型通常会猜测用户的意图,而非让用户澄清问题。
  • 模型有时会响应有害的问题或表现出有偏见的行为。
  • 在数学和物理等需要进行数字推理的任务中仍然会出现一些错误。

巨人的肩膀

  • 周志明老师的凤凰架构
  • AIGC智能创作时代