admin管理员组文章数量:1122852
原文首发于博客文章ChatGPT发展概览
ChatGPT 是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于 GPT-3.5、GPT-4 架构的大语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。
ChatGPT的诞生
演进过程
-
在 2020 年 7 月,OpenAI 发布了模型名称为的
davinci
的初代 GPT-3 -
在 2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据 120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的
code-cushman-001
-
在 2022 年 3 月,OpenAI 发布了指令微调 (instruction tuning) 的论文,其监督微调 (supervised instruction tuning) 的部分对应了
davinci-instruct-beta
和text-davinci-001
-
在 2022 年 4 月至 7 月的,OpenAI 开始对
code-davinci-002
模型进行 Beta 测试,也称其为 Codex -
text-davinci-002
、text-davinci-003
和ChatGPT
都是从code-davinci-002
进行指令微调得到的。详细信息请参阅OpenAI的模型索引文档 -
2022 年 5-6 月发布的
text-davinci-002
是一个基于code-davinci-002
的有监督指令微调 (supervised instruction tuned) 模型。在text-davinci-002
上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力。 -
text-davinci-003
和ChatGPT
,它们都在 2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003
恢复了(但仍然比code-davinci-002
差)一些在text-davinci-002
中丢失的部分上下文学习能力,并进一步改进了零样本能力(得益于RLHF)。另一方面,ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。
总结
- 语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练(
davinci
) - 存储大量知识的能力来自 1750 亿的参数量
- 遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(
davinci-instruct-beta
) - 执行复杂推理的能力很可能来自于代码训练(
code-davinci-002
) - 生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说:
- 如果是监督学习版,得到的模型是
text-davinci-002
- 如果是强化学习版 (RLHF) ,得到的模型是
text-davinci-003
- 无论是有监督还是 RLHF ,模型在很多任务的性能都无法超过 code-davinci-002 ,这种因为对齐而造成性能衰退的现象叫做对齐税。
- 如果是监督学习版,得到的模型是
- 对话能力也来自于 RLHF(
ChatGPT
),具体来说它牺牲了上下文学习的能力,来换取:- 建模对话历史
- 增加对话信息量
- 拒绝模型知识范围之外的问题
训练
训练有四个主要阶段:预训练、有监督微调、奖励建模、强化学习
Pretraining 预训练
- 数据收集:CommonCrawl,C4也是common crawl,然后还有一些高质量的数据集,例如GitHub、维基百科、书籍、ArXiv论文存档、StackExchange问答网站等,这些都混合在一起,然后根据给定的比例进行采样。
- 标记化(tokenization):标记化是文本片段和标记与整数之间的一种无损转换,是将互联网上抓取的原始文本翻译成整数序列。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AoyVnVqh-1687332879486)(null)] - 训练过程,可以查观看这个视频进行了解
Supervised Finetuning 监督微调
- 假设已经有了一个非常聪明的学生(即GPT-3模型),他已经学会了很多知识,并且可以在各种不同的主题上写文章。但是想让他专注于某个特定的主题,并且写出更好的文章。这就需要使用监督微调技术来让他集中精力并提高他在这个特定主题上的表现。
- 可以使用一个新的数据集来让这个学生熟悉这个领域的特定要求。例如为他提供一些示例文章,这些文章符合这个领域的要求,并让他通过学习这些文章来了解这个领域的特点和要求。这就像在学习一门新的科目时,我们需要先了解这门科目的基本概念和原理,然后通过实践来巩固这些知识。
- 一旦这位学生掌握了这个领域的基础知识,就可以开始进行实践并进行监督微调。可以让他写一些文章,并根据这些文章的质量来指导他的学习和进一步的改进。这就像在学习一门新的科目时,需要不断地进行实践和练习,以巩固我们的知识并提高我们的技能水平。最终,通过不断的实践和练习,这位学生将能够在这个特定的领域中表现出色,并写出符合要求的文章。
Reward Modeling 奖励建模
- 将奖励建模类比为让聪明的学生(即GPT-3模型)学习一门新的技能,例如学习打篮球。在学习打篮球的过程中,可以将得分作为奖励信号,以评估学生的表现。首先需要告诉学生如何打篮球,例如传球、投篮、防守等基本技能。这就像在奖励建模中,我们需要提供一些示例,以便模型可以了解任务的要求。
- 然后可以让学生在训练场上进行练习,并根据他们的表现来给予奖励。例如,如果学生成功投篮得分,我们可以给予他们一定的奖励分数。这就像在奖励建模中,可以根据模型的表现来生成奖励信号。如果模型成功完成任务,例如正确地回答问题或生成准确的文本,可以给予它一定的奖励分数。
- 通过不断的练习和奖励,学生将学会如何打篮球,并且在比赛中表现出色。同样地,通过奖励建模技术,我们可以训练GPT-3模型在特定任务中表现出色,并生成符合要求的文本。通过最大化奖励信号,模型可以学习如何有效地完成任务,并不断改进自己的表现。
Reinforcement Learning 强化学习
- 奖励建模的例子中,将奖励信号定义为每次得分的分数。如果聪明的学生成功地将篮球投入篮筐,给予它一定数量的分数;如果它没有得分,那么不给予它分数。在奖励建模中,可以使用这些分数作为奖励信号,来训练模型。我们的目标是最大化总得分,因为总得分是我们想要优化的目标函数。
- 强化学习中需要定义状态空间、行动空间和奖励函数,以让聪明的学生了解任务的要求。状态空间可以包括学生的位置、篮球的位置和篮筐的位置等信息,行动空间可以包括传球、投篮、防守等动作,奖励函数可以根据得分、失误、防守成功等情况来定义。然后让聪明的学生与环境交互,并根据当前状态和策略采取行动,并从环境中获得奖励或惩罚信号,聪明的学生可以不断更新策略,以最大化长期奖励,即总得分。
- 奖励建模使用奖励信号来指导模型的优化方向,而强化学习使用奖励信号来指导模型的行动选择。
特点
- 作为辅助工具,并与人工监督结合起来,在不注重可靠性和安全性的应用程序中使用
- 可以编写和调试计算机程序
- 具备创作音乐、电视剧、童话故事和学生论文的能力
- ChatGPT 能够记住与用户之前的对话内容和给它的提示
- 可以回答测试问题(在某些测试情境下,水平甚至高于普通人类测试者)
- ChatGPT 输入内容会由审核API过滤,以减少生成冒犯言论
局限
- 人工智能幻觉 :有时会写出看似合理但不正确或荒谬的答案
- 古德哈特定律:奖励模型围绕人类监督而设计,可能导致过度优化,从而影响性能
- 意识形态偏见:研究表明,ChatGPT对两个投票建议应用程序的政治声明表明立场时,表现出亲环境主义。
版权声明:本文标题:ChatGPT的前世今生 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1726372878a1083207.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论