ChatGPT的技术架构介绍
OpenAI于2022年11月底发布了ChatGPT及其测试接口的最新研究成果。ChatGPT在发布后的短短几天内就火了。小编还带着好奇体验了ChatGPT。整体体验是,无论是在一些传统的NLP任务中,包括关系提取、事件提取、写作和对话,还是在其他任务中,包括编写代码和角色扮演,都表现出一种非常严谨的合理性。
那接下来小编和大家一起了解下ChatGPT的技术架构演变历史。
1、GPT家族的演进
说到ChatGPT,就会需要提到GPT家族。
在ChatGPT研发之前有几个知名的同类技术,有GPT-1、GPT-2和GPT-3。在这种技术中,ChatGPT与GPT-3更为接近。
ChatGPT与GPT 1-3的技术对比
GPT系列和BERT模型,都基于Transformer技术,同为有名的NLP模型,GPT-1仅12个Transformer层,而GPT-3,则增加到了96层。
2、人类反馈强化学习
InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
在InstructGPT中,以下是“goodnessof sentences”的评价标准:信息真实性,是否对人无害性,信息的有用性
3、TAMER框架
这里还需要提到TAMER框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈,从而快速达到训练任务目标。
TAMER框架论文
加快训练速度是引进人类标记者的主要目的。虽然强化学习技术在许多领域表现突出,但仍存在许多不足,如训练收敛速度慢、训练成本高等。尤其在现实世界中,很多任务的探索成本或者数据获取成本都很高。怎样提高训练效率,是当今加强学习任务需要解决的一个重要问题。
而且TAMER可以以奖励信反馈的形式训练Agent来标记人类的知识,加速其快速收敛。TAMER不需要标记专业知识或编程技术,语料成本较低。使用TAMER+RL(加强学习),借助人类标记者的反馈,可以加强从马尔可夫的决策过程(MDP)加强学习的奖励(RL)的过程。
具体来说,人类标记者扮演对话用户和人工智能助手的角色,提供对话样本,让模型产生一些回复。然后,标记者会对回复选项进行评分和排名,并将更好的结果反馈给模型。作为一个集成系统,Agents可以通过奖励策略进行微调和迭代,同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励。
在此基础上,ChatGPT可以比GPT-3更好地理解和完成人类语言或指令,模仿人类,并提供连贯和合乎逻辑的文本信息。
4、ChatGPT训练
ChatGPT的训练过程分为以下三个阶段:
第一阶段:培训监督策略模型模型
GPT3.5很难理解不同类型的人类指令中包含的不同意图,也很难判断生成的内容是否是高质量的结果。为使GPT3.5初步有理解指令的意图,首先将问题随机抽取到数据集中,由人类标注,给出高质量的答案,然后利用这些人工标注的数据对GPT-3.5模型进行微调(获取SFT模型,SupervisedFine-Tuning)。
在这个时候,SFT模型在遵循指令/对话方面已经优于GPT-3,但并不一定符合人类的偏好。
第二阶段:训练奖励模型(Reward Mode,RM)
这一阶段主要是通过人工标记训练数据(约33K个数据)来训练回报模型。随机抽取数据集中的问题,使用第一阶段生成的模型,为每一个问题生成多个不同的答案。综合考虑这些结果,人类标记者给出了排名顺序。这个过程类似于教练或者老师的指导。
下一步,利用此排序结果数据对奖励模型进行训练。对于多个排名结果,两两组合,形成多个训练数据对。RM模型接受输入,并给出评估和回答质量的分数。通过这种方式,对于一对训练数据,调整参数使得高质量答案的分数高于低质量的分数。
第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。
PPO的核心思路是将PolicyGradient中On-policy的训练过程转化为Off-policy,将在线学习转化为离线学习,这种转化过程被称为ImportanceSampling。本阶段采用第二阶段训练好的奖励模式,通过奖励分数更新预训练模型参数。随机抽取数据集中的问题,使用PPO模型生成答案,并使用上一阶段训练出来的RM模型给出质量分数。依次传递回报分数,从而产生战略梯度,通过强化学习的方式更新PPO模型参数。
如果我们通过迭代不断重复第二和第三阶段,我们将训练出更高质量的ChatGPT模型。
以上就是ChatGPT的技术架构介绍(2023年最新)相关介绍,了解chatgpt更多消息查看汇总页。
本文所涉私募基金内容仅对合格投资者展示!因擅自转载、引用等行为导致非合格投资者获取本文信息的,由转载方自行承担法律责任和可能产生的一切风险。
本页面所载信息、意见不构成对买卖任何证券或其他金融工具的任何投资决策建议。私募排排网对本报告所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本报告所载资料所造成的任何后果,私募排排网及/或其关联机构、关联人员均不承担任何形式的责任。
本报告所载意见、评估及预测仅为该资料出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。在不同时期,私募排排网可能会发出与本资料所载意见、评估及预测不一致的报告。本报告可能会转发、摘编其他专业人士/或机构撰写制作的相关研究成果,相关研究观点仅代表其本人/该机构的分析判断,不代表私募排排网的观点,私募排排网对其中的信息及其观点不做任何形式的确认或保证。
本页面中所有资料的版权均为作者所有。任何机构和个人以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本页面中的内容前,应取得作者的授权许可。在获授权转载、刊登、引用本页面的全部或部分内容时,应真实、准确、完整地反映引用内容。版权所有,违者必究。
旗下产品
基金销售服务由深圳市前海排排网基金销售有限责任公司提供 基金销售资格:深证局许可字[2016]21号 查看资质证书>
产品展示:181-2206-2906 机构合作:0755-8328-2472 媒体合作:177-2757-8351 路演合作:181-8860-3225 luyan@simuwang.com
联系地址:广东省深圳市福田区新洲南路2017号东方明珠科技大厦6楼
私募排排网提供的所有产品均由第三方机构管理,私募排排网仅对产品及相关业绩数据进行收录和展示,产品业绩数据来源包括但不限于第三方机构通过托管估值机构提供或者自己报送等方式,私募排排网不对产品业绩做任何保证。投资者应仔细阅读产品的相关法律文件,了解产品风险和收益特征。投资者应根据自身资产状况、风险承受能力选择适合自己的产品。私募排排网站提供数据及信息均来源于公开资料或经外部授权信息的收录和整理,私募排排网发布此信息目的在于传播更多信息,与本网站立场无关,相关表述仅供参考,不代表任何确定性判断,亦不构成私募排排网的任何推荐或投资建议。