人工智能chatgpt原理介绍谈谈我了解的ChatGPT 前几天挖了一个坑

前几天挖了一个坑，说有时间也想和朋友们一起聊聊人工智能。当然，介于本人并非人工智能科班出身，于是这段时间也找了些人工智能方面的知识恶补了一下，还好本人在统计方面还有些功底，一些浅显的知识勉强啃了下来。今天就在各位面前班门弄斧一下了，舞得不好请勿拍砖。

一说起人工智能，很多人就会莫名地产生些许恐惧感（包括我本人在内），一旦它能实现某些“智能”行为，就开始无限地展开联想，最直接的画面就是投射到电影《终结者》中人机大战的图景，其缘由还是对当前人工智能获得“智能”的过程缺乏认知，由于这一块讲起来篇幅太大，也和近期热点无关，估计朋友们看着也会睡觉，索性就不讲了，如果有兴趣的朋友可以自行去脑补一些人工智能方面的知识。但结论就是，目前的人工智能并不可怕，就连人类还未能参透“智能”为何物？一个人造之物就莫名地产生“智能”了？打个比方，目前的人工智能就像古人想飞行，学着鸟儿在手上绑两只大翅膀，然后从悬崖上跳下，同时奋力地拍打着翅膀，当然，只要不怕累，拍打得够快也能幸免摔死。人类只在掌握了空气动力学后，才算是真正掌握了飞行本领，造就了如今的大飞机。而目前人工智能连“智能”的本质原理都不清楚，何来创造真正的“智能”呢？哪怕是当下流行的深度神经网络也仅仅是模拟了大脑部分信息流原理，哪怕是大脑真实的结构，神经网络也未能全部模仿到位，更别谈“何为智能”了。这也是我在上个评论中说的，目前人工智能的根基并不牢靠，在其发展过程中三大流派轮流做庄，谁知道哪一天符号派又会再次辉煌？而当前炙手可热的属于连接派，即深度神经网络一类。

一、的训练过程

的训练可以分为三个阶段：训练监督策略模型、训练奖励模型、采用PPO强化学习来优化模型。下面我们就一起来了解这三个阶段的训练是如何执行的。下图是发布的训练步骤。

第一阶段：训练监督策略模型：

GPT3.5本身是很难理解人类语言中的真实含义的，也很难判断生成内容是否是高质量的结果。为了让GPT3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员给出高质量答案，然后用这些人工标注好的数据来微调GPT3.5模型。如果类比一般的模型训练，这个过程相当于初始化参数的步骤。此时的模型在理解问题和给出答案方面要优于GPT－3，但距离人类习惯偏好还有不小的差距。

第二阶段：训练奖励模型（ Model，RM）：

这个阶段的主要任务是通过人工标注训练数据（约33K个数据）来训练回报模型。首先从数据集中随机抽取问题喂给第一阶段生成的模型，模型对每个问题会生成多个不同的回答。此时由人类标注员对这些结果综合考虑并给出排名顺序，质量高的回答给高分，质量低的回答给低分，于是得到一组人工标注训练数据。这一过程类似于教练或老师辅导。

接下来，使用这个排序结果数据来训练奖励模型。RM模型接受一个输入，给出评价回答质量的分数。这样，通过一组标注数据的训练，调节RM模型参数使得高质量回答得打分比低质量回答得打分要高。

第三阶段：采用PPO（，近端策略优）强化学习来优化模型：

这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。首先在数据集中随机抽取问题，使用PPO模型生成回答，然后用上一阶段训练好的RM模型给出质量分数，把回报分数依次传递，由此产生策略梯度（梯度是最小化损失函数过程中的关键指标，可以将损失函数的分布理解为一个凹凸不平的山峦，山谷是损失函数最小的地方，梯度就是通向山谷所有路径中最陡峭的那一条），通过强化学习的方式以更新PPO模型参数。

如此不断重复第二和第三阶段，通过迭代，训练出更高质量的模型。当然，在这过程中奖励模型也是不断更新优化的。

从的训练过程我们可以看到，引入了大量人工标注信息，不但在最初阶段采用人工标注数据进行参数初始化调整，在训练的过程中通过由人工打分数据训练的RM模型对模型参数进一步循环优化。这种大量人机协作的训练过程是与其他大语言模型（LLM）的不同之处，这可能才是能产生如此卓越表现的原因所在。

二、的壁垒有多高？通过对模型训练过程的介绍，朋友们大概了解了一个大语言模型的开发过程。当然，不同模型的训练过程是不一样的，孰优孰劣很难判定，哪怕是风头正盛的也有很多的不足，比如数据更新问题，最新的GPT4也仅知道2021年9月之前的事情，如果用新数据去投喂，可能面临着模型“忘掉”旧知识的风险。

1、高昂的训练成本：

据相关报道，175B级别的训练成本非常高昂，2020年GPT－3的单次训练成本约460万美元，总训练成本达1200万美元。除了训练成本高昂，耗时也十分巨大，据透露的信息，AI LLM每18个月，能力增长一倍。GPT4大概在2022年8月基本完成整个微调，并于2023年3月发布，耗时大约6个月，此期间一直在做安全验证。于是估算模型完成整个训练大概用了12个月。

2、高昂的部署运营成本：

人工智能原理图_人工智能chatgpt原理介绍_“人工”智能

相对部署成本，模型的训练成本可以说是小巫见大巫。这里我们简单测算一下，据相关信息了解到，一次应答成本约5分钱（RMB），以每日10亿次访问量估算，一年的成本180亿（RMB）。试想想，相对1200万美元（折合8200万RMB）的训练成本，一年180亿的成本，试问一般公司谁能承担？怪不得百度文心发布后只敢通过邀请码来试用，否则第一波流量就会让它今年业绩大幅下滑。放眼望去，如果兼顾技术能力，国内还有几家可以一试的？

3、训练技术更加复杂：

了解一些人工智能发展的历史就可以知道，目前流行的各种大语言模型（LLM）都属于深度神经网络模型。自皮茨和麦卡洛克提出神经网络以来，人工智能神经网络流派几经沉浮，多层神经网络训练方法的障碍几乎葬送了整个流派（当时人工智能大佬明斯基从数学上论证多层网络训练几乎无法实现，这一结论给了神经网络巨大打击），直到本世纪初深度学习教父辛顿（后来加入了谷歌大脑计划）才带领着深度神经网络走出了寒冬，最终给世人展现出一个全新的人工智能时代。但是，网络层数越深，训练技术就会越复杂，不当的方法很容易将模型带入局部最优的陷阱中。从下表我们可以一窥究竟。

显然，GPT模型网络层数是不断增加的。当然，随着层数增加，模型效果也会显著提升（见下图从2010到2015年错误率，随着层数增加，其错误率也不短下降，从最初的28.2％下降到3.57%），但是训练技术也会更加困难。

4、需要足够丰富度的高质量训练数据集：

对于一个大语言模型（LLM）并不是随机抽取一些问答数据就可以训练出一个优秀的模型，其对训练数据的丰富度及数据质量的要求也是很高的。从大家试用体验上看，了解的知识面还是相当宽泛的，特别是在一些比较专业的领域也有较好的解答。从paper上也看到数据集具有一定的分类比例分布，并不完全是统计随机的（这一点有过一些统计知识的朋友应该不难理解，样本数据的抽取对于最终结果存在很大的影响）。另外，使用了自建的数据集，其标注员都是专门为工作的，远远超过第三方数据公司的数据质量。如此大规模的数据准备恐怕也是一般公司很难承受的。

三、国内巨头蠢蠢欲动

前两天，百度推出了文心一言，但对比，文心一言无论从语言组织的顺滑程度，还是回答准确度上都无法与相提并论。（大家可以参考下面的插图，此图来源于球友@数有中心，3月18日发文，在此表示感谢）

我相信文心一言会继续前进。但从上面我们了解的的开发周期(18个月）看，从的发布时间2022年11月30日到2023年3月16日百度文心一言发布也才过去了3个半月！在此我不得不为“中国速度”感到震惊，如此去体察发布会的表现也就不足为奇了。

另外，从语料的丰富度看，目前的百度在BAT中应该不占优势，其虽然掌握着搜索入口，但其搜索质量我想大家是有目共睹的，在使用频率和搜索质量都不能让人满意的情况下得到高质量的语料恐怕还是有些困难的。对比下来，阿里和腾讯在语料方面要丰富得多，毕竟阿里持有微博的股份，微博是目前当之无愧的热点发布中心，据目前看到的一些信息，阿里的问答似乎看上去不错（当然，也可能图是P的，现在的网络信息真不敢信）。腾讯就不用说了，其语料质量方面是没有障碍的。这可能也是腾讯混元AI大模型在CLUE（中文语言理解评测集合）分类榜中取得第一并刷新该榜单历史记录的原因之一吧。但目前腾讯十分低调，只是说有这方面的布局。依本人观点，如此回答才叫“本分”，从的训练过程和开发周期看，一个好的产品是需要打磨的（但那天见一球友说腾讯混元4月发布。我立马毛骨悚然，下来到处去查相关信息，结果查无此证，一颗悬着的心才安然落下。在我的预期里，国内最快也应该到今年下半年才会有类产品推出）。当然，无论阿里、腾讯，还是华为，具体咋样，还得拉出来溜溜。

在当前环境下，文心是我国第一个面世的类产品，虽然有很多不足，但我相信文心会越来越好。当然，每一波热浪袭卷而来，从来就不乏嬉戏者，看看咱大A市场的众多如何风起云涌的就知道了。作为一名孤独的投资者，目前只能静静地看戏。

本来想写一些微软，但介于时间有限，而且由此展开来范围太大。目前，与其他应用的结合大幅提高了各个领域的效率，但商业模式的形成还有待观察，也许它带来一次人机互动方式的转变。

以上观点属于本人的一些心得，不一定正确，仅供各位参考，不作投资建议。

ChatGPT中文版

发表回复

ChatGPT中文版

人工智能chatgpt原理介绍 谈谈我了解的ChatGPT 前几天挖了一个坑

发表回复

人工智能chatgpt原理介绍谈谈我了解的ChatGPT 前几天挖了一个坑