人类问问题的方式对于 LLM 而言不是最自然的理解方式,为了让 给出的答案更贴近人类的问题、更符合公序良俗,它在发布前采取了一种叫做“基于人类反馈的强化学习”( by Human ,RLHF)的训练策略。简单来说,就是花钱找人给模型提出各种可能的问题,并对模型反馈的错误答案进行惩罚、对正确的答案进行奖励,从而实现提升 回复质量的目的。

光有海量的、无标注的数据还不够,还要有少量的、高质量的标注数据才行。前者用来训练语言模型,让它学会说人话,后者用来训练对话模型,让它别啥都瞎说,比如:回答中不能含有种族歧视和性别歧视的内容,拒绝回答不当问题和知识范围之外的问题。

3. 我能训个 吗?

简单地回答:极大概率是不能的。起码在现阶段,这不是招几个人、花些钱就能做成的事,能训出 的人可能比做出 4 纳米芯片的人还要少。

这其中的原因是什么?咱先来捋捋 超能力的来源,再对比看看自己手中的家底。

3.1 算力

算力,也就是数据的处理能力,与数据、算法,并称为 AI 三要素。据估计,仅仅训练一次 GPT-3,Open AI 可是花费了 460 万美元。对于 而言,支撑其算力基础设施至少需要上万颗英伟达 A100 的 GPU,一次模型训练成本超过 1200 万美元。

然而,在这些必要非充分条件中,算力是最容易解决的。

3.2 数据

模型要足够深、足够大,才能解决远距离的语义理解能力、才能产生抽象的推理能力,这些高级的基础的能力具有很好的通用性。因此,高级的能力可能只存在于大型模型中,而训练大模型,需要足够的数据量。

全球高质量文本数据的总存量在 4.6 万亿到 17.2 万亿个字符之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上经过筛选的达标数据,例如网页、博客和社交媒体。最近的一项研究数据显示,数据总数大约为 3.2 万亿个字符。 的 模型是在 1.4 万亿个字符上训练的。也就是说,在这个数量级内,我们很有可能耗尽世界上所有有用的语言训练数据。

此外,反观中文网站的数据资源,大致占全世界总资源的 1.3%。中文内容相比英文有四五十倍的差距,人工智能脱离不了人类知识的土壤,这方面的先天条件不是短期内花钱或凭一己之力就能解决的。

3.3 人才

公开出来的少量材料中,披露出了一系列训练技巧,比如:代码训练、指令微调、上下文学习等。更多的细节目前还没有公开,即便公开了也不见得是全部,即便全部公开也未必能重现。因为整个过程链条非常长,有大量的工程技巧在里边。俗话说魔鬼藏在细节里,具体的实现和工程技巧才是重头戏,好比刚学做菜的人,即便有足够的食材,照着菜谱也不可能做出一套满汉全席。

今年 2 月初,谷歌已向人工智能初创公司 投资约 3 亿美元,并获得该公司 10% 股份。该公司 2021 年创立,目前团队规模仅在 40 人左右,初创期的 11 位核心成员都曾经参与过 GPT-2、GPT-3 模型的研发。可见,业界对于人才的重视程度以及人才的奇缺性。

4. 如何用 赚钱?

似乎打破了人们关于 AI 模型的一项固有认知:“通用的不好用,好用的不通用。”

大模型革命的一个关键趋势就是,通用大模型比专用小模型表现地更好。对于定位在垂直细分领域里的初创公司来说,既不能自研出大模型,效果上又失去了竞争力,因此是不是就没有活路了?

我觉得不是, 的能力可以分成 chat 和 GPT 两部分来看,即上层的对话和图片的生成能力、底层的语言和推理能力。

chatgpt有用到知识图谱吗_图谱有哪些类型_图谱信息

在 ToC 类内容消费市场,未来可能会出现大量的、碎片化的 AIGC 应用,比如生成头像、诗文、甚至短视频等,重点是在有趣的细分场景里发挥创造性和想象力。在消费电子市场里,有对话能力的智能音箱、智能家电在去年的出货量有所下滑,借助更强的对话能力,也许还能挽回一些颓势。

在 ToB 类企业服务市场,AI 不再只是替代简单重复性的体力劳动,还将替代简单规律性的脑力劳动,并在逻辑复杂的脑力劳动中辅助员工提升工作效率。简单的脑力劳动,比如营销文案撰写、初级程序员和插画师等。复杂的脑力劳动,可能会围绕具体业务的推理能力,以虚拟工作助手的形式出现。

对于处于 ToB 赛道的科技公司而言,中间层可能会越来越薄,对于行业 的积累会成为越来越重要的竞争门槛。这其中可能会遇到很多挑战,比如:如何在使用强大的通用模型和构建自己的垂直模型之间进行迭代,如何将通用无标注的大规模数据和领域小规模知识相结合,如何将领域事实知识注入到 LLM 中使得 LLM 的输出内容可控。在目前的研究范式下,领域内高质量的标注数据 + 领域推理能力,两者如何形成“飞轮效应”是非常重要的问题。

5. 划重点

说了这么多,总结一下重点,不管你能记住多少,起码下次在电梯里遇到老板或者在饭局上遇到同学时,在聊起 的时候,你能插上几句话。

关于大规模语言模型:训练时要用到万亿级的数据、花费百万美元的算力,才能使它能说人话,并具有一定的“思维链”推理能力。

大模型的超能力:模型要足够深、足够大,才能产生抽象的推理能力,这些高级的基础能力具有很好的通用性。大模型革命的一个关键趋势就是,通用大模型比专用小模型表现地更好,打破了人们一项固有认知:“通用的不好用,好用的不通用。”

应用场景:ToC 类应用要找准细分的内容生成场景,ToB 类应用要围绕推理能力去发挥,让它成为脑力工作者的辅助,替代一部分简单的脑力工作,辅助员工的做创造性工作。

最后,对于想进一步深入了解技术细节的同学,推荐一下延展阅读材料:

官网上关于 的介绍:: for

关于大规模预训练语言模型:《预训练语言模型》

基于语言模型提示学习的推理:论文列表

关于 GPT 技术演进过程:GPT1 到 的技术演进

关于大模型的涌现能力:大模型的突现能力和 引爆的范式转变

关于 : to with human

对话式 AI 需要具备领域知识时,可以参考这本书:《知识中台》

对话式 AI 需要处理视频或语音时,可以参考:《深度学习视频理解》《语音识别服务实战》

作者简介

张杰,中关村科金技术副总裁

天津大学计算机专业博士。荣获第十届吴文俊人工智能技术发明一等奖。著有《知识中台:数字化转型中的认知技术》、《“新一代人工智能创新平台建设及其关键技术丛书”— 知识图谱》两部技术专著。研究领域:知识工程、自然语言处理等技术领域拥有丰富的理论和实践经验。主持或参与国家级课题八项,并发表学术论文十余篇、拥有专利一百余项。主导开发了推荐引擎、知识问答系统、客服机器人、大数据风控平台、行业知识图谱等多项商业化系统,累计产值数亿元。