刘禹良

摘 要:人工智能已成为当今信息时代的核心技术,是一种基于认知计算和人工智能的语言模型,经过了机器学习、神经网络以及等多类技术的积累,使得计算机能够更好地理解和处理人类自然语言。受益于更大的模型尺寸、更先进的预训练方法、更快的计算资源和更多的语言处理任务,在人工智能生成内容领域的表现是革命性的,将对文本乃至多模态的AIGC应用具有重要意义,几乎可以广泛应用并赋能各行各业。但是,还有较大局限,只是基于预存知识和模型回答问题,还不具备真正的理解能力和创造性,尚未达到强人工智能水平。

关键词:人工智能;;历史沿革;应用前景

过去10年来,人工智能技术(AI)在持续提高和飞速发展,并不断冲击着人类的认知,越来越广泛应用于多学科领域和实践活动,为数字经济的发展和产业数字化转型提供了底层支撑,并在自然语言处理、计算机视觉、推荐系统、预测分析等各种应用场景中发挥着至关重要的作用。现今火爆的就是人工智能技术的一个较大飞跃,是一个可以像人一样对话的强大智能系统。本文重点分析其历史沿革、应用现状,及其背后的技术原理、存在局限和未来展望。

人工智能发展历史沿革

人工智能是计算机学科的一个分支,是研究、开发用于模拟延伸和拓展人的智能的理论、方法、技术及应用系统的一门新的技术科学,致力于研究如何创造智能机器,模拟人类的思维和行为,并执行类似于人类的任务,例如:理解语言、识别视觉图像、解决问题、学习等。

(一)人工智能领域

人工智能主要分为四个领域:感知、推理、学习和行为。感知领域的人工智能体现为计算机视觉、语音识别、自然语言处理等方面;推理领域的人工智能体现为逻辑推理、规划、决策等方面;学习领域的人工智能体现为机器学习、深度学习、强化学习等方面,即能够从现有场景、现有知识中不断学习和不断强化,更好应对真实场景中的各种情况;行为领域的人工智能体现为机器人、智能控制、自主驾驶等方面。

最新的人工智能技术主要包括机器学习与模式识别。机器学习研究如何通过计算的手段,通过经验(数据)来改善系统自身的性能。模式识别就是用计算方法分析和处理数据、图像、信号、语音等信息,以自动识别和分类其中的模式和规律的技术。深度学习是机器学习的一个子领域和比较新的研究方向,也是主要依赖的一个技术。它是基于人工神经网络的理论和方法,通过多层次的神经网络模型来学习和表达数据中的高层次抽象特征,以实现自动化的分类、识别、预测和决策等。

在人工智能里面属于自然语言处理类,即主要研究如何使计算机更好地理解和处理人类自然语言。更严格地说,它是自然语言处理、机器学习和计算机视觉相互交叉的领域。这些领域互相关联、相互促进、相互支持,共同推动了人工智能技术的发展和应用。

(二)人工智能技术的发展历程

人工智能的发展是从1956年达特茅斯会议上提出人工智能研究开始的,到2006年, 提出DBN(Deep ,深度信念网络)引领深度学习的崛起,截至今日,人工智能的发展已有60多年的历史。过去10年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知,产生了一系列的AI产品。

2012年,在图像识别挑战赛中,一种神经网络模型()首次展现了明显超越传统方法的识别能力。2016年,在应用人工智能系统模拟的围棋挑战赛中战胜了世界冠军。2017年,谷歌的 等人提出了转换器模型深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。2018年,谷歌提出了大规模双向预训练语言模型,参数首次超过了3亿(约有3.4个参数);提出了生成式预训练转换器模型——GPT( Pre- ,预训练生成转化器),大大地推动了自然语言处理领域的发展。2019年,人工智能系统击败了世界顶级的星际争霸2人类选手,有力地证明了人工智能能在复杂任务领域扮演更加重要的角色。2020年,模型参数约1750亿的 GPT-3问世,在众多自然语言处理任务中表现出超过人类平均水平的能力。2021年1月,谷歌大脑发布了 模型,以高达1.6万亿的参数量成为史上首个万亿级语言模型。2022年2月,人工智能生成内容技术被《MIT 》评选为2022年全球突破性技术之一;11月, 推出 ,迅速出圈火遍全球,仅用时不到3个月就实现了月活跃用户过亿,成为史上用户增长速度最快的消费级应用程序。

(三)生成式人工智能技术浪潮

近几年,自动生成一幅画、生成一段对话等生成式人工智能技术(AIGC)逐渐发展成为各个行业的创新驱动力。目前,AIGC的发展历经了三大阶段。20世纪50年代至90年代中期为早期萌芽阶段,当时受限于技术水平,AIGC仅限于小范围的实验。20世纪90年代至21世纪10年代中期为沉淀积累阶段,AIGC从实验性向实用性转变,但是受限于算法瓶颈,并不能够直接用于内容生成。21世纪10年代中期至今是快速发展阶段,由于深度学习算法不断迭代,人工智能生成内容开始百花齐放,包括生成人脸、生成各种各样的图片,以及跟人类对话等。是生成式人工智能技术的佼佼者。随着人工智能技术的不断提高,作为一种先进的语言模型,受益于更大的模型尺寸、更先进的预训练方法、更快的计算资源和更多的语言处理任务,可以广泛应用并赋能各行各业。

的应用现状

一经问世就在社会上引起了空前轰动,大到央视、主要搜索引擎、重点论坛,小到公众号、微信朋友圈等,均在热议。事实上,在现实工作生活中已有一些成熟而广泛的应用。

(一)已能覆盖较多能力域

目前,已有一些利用的典型案例。例如,通过谷歌L3入职面试,获得年薪为18万美元的offer;碾压阿里二面面试官,并拿到offer;参加美国医生执照的三项考试,考试成绩可以达到或接近及格通过水平;在法律领域的表现更加优秀,研究发现它可以取得美国多州律师考试的及格分数;毫末智行准备将应用于自动驾驶;上线微软搜索引擎Bing,微软市值一夜飙涨5450亿;89%的美国大学生用写作业,甚至拿下论文最高分;以色列总统使用撰写的部分演讲稿“骗过”现场2万听众等。这说明对于消费者来说有趣而又实用。

事实上,可以扮演医生、翻译员、程序员、心理咨询师、历史学家、专业导师、作家、诗人等生活中各种各样的角色。例如,问武汉为什么叫武汉,它可以从武昌到汉阳、汉口再到每个字的来源进行解释。让它给武汉写一首诗,它的回答是,“长江第一城,工业之都,资源丰富;科技先进,人杰地灵,文化显赫;前程远大,未来灿烂,光辉不灭;华中之地,明珠长江间,美景令人惊叹;繁荣昌盛,富强之城,前途无限;武汉永驻,中国的骄傲,繁华静谧!”。而且,可以根据用户定制化的要求,得到更为精确的答案。例如,在广告宣传和文案制订方面,只需要告知销售目标、针对受众、宣传口号、媒体渠道、相关活动等关键性信息,它就能自动生成一份像模像样的广告文案。具体请求越清楚,得到的回答就会越精准。比如,可以问它,“请设计一个针对18~30岁的年轻人的一种新型能量饮料的广告活动”。在问完一个问题之后,如果觉得它回答得不够具体,还可以接着再问。比如,如果觉得它给出的建议或做法是对的,可以追问下一步具体应该怎么做。然后就可以继续给出更深更进一步的详细建议或计划。由于强大的过滤能力,在一定程度上可以过滤掉大量无用信息,直接把最合适的答案推送出来,从而使搜索引擎变得更加强大。目前已经被嵌入的里面,每一次搜索结果出来的时候,它同时会根据搜索内容给出一些建议。

(二)表现出的先进性和风格特性

的先进性主要表现为五个方面,即承认不知道、连续对话能力、捕捉用户意图、敢于质疑、提升准确性。它对用户非常友好,易于操作,回答风格具有八个特性。可靠性,通常在倾向性不明显的问题上,它能给出客观正确的回答;能够对回答进行解释;对于不确定的回答,明确告知用户。灵活性,对于同一个问题,每次都能给出不同的回答,不会千篇一律,跟人类回答问题时的随机发挥很相似。可控性,对于定制化的需求,可以通过简单的提示语来实现。例如,可以通过指定字数、指定特定的风格等要求,来生成符合要求的内容。这种定制化的功能可以帮助用户更好地控制模型的输出。快速性,基本上对于任何需求,它都可以在极短时间内生成大量的文本输出,提高工作效率。多样性,该模型是在海量的各种文本语料上训练出来的,这意味着它可以对许多不同主题的广泛提问和查询作出回应,这使得有潜力成为不同行业人员的一个有用工具。记忆性,它具备较强的记忆力,可以准确回忆对话过程涉及的内容。适应性,能进行逻辑推理,总结对话的内容,发现对话的错误,从而给出符合上下文内容的合理答案。屏蔽性,它对于危险信息,例如一些针对具体人物的评论,一些政治敏感的话题等具有十分强大的规避能力。此外,还很可能具有一定程度的情感属性。如果用户不停地否定的查找内容,可能会崩溃,表现出一些负面情绪,会像有脾气的人一样直接拒绝回答。以前的大规模语言模型式人工智能技术,虽然在一些任务上表现得很好,但是它没有办法做到像人类一样思考,尚不具备类似人类心智的能力。但现在的不一样了,实验证明它已经能够通过大量的人类心智问题考验,而且它的心智相当于一个9岁的小孩。

(三)对话武汉如何发展数字经济

通过一个典型案例可以进一步了解的应用现状。就武汉如何发展数字经济向提了5个问题。一是,在数字经济领域的应用场景。它的回答是:可以作为金融服务领域的客户支持机器人、电商推荐系统,帮助用户完成数字资产交易,预测虚拟货币价格走势,成为数字钱包的语音操作系统……最后还补充一下,常见应用场景不限于此,未来还会进一步拓展。二是武汉市数字经济目前的发展态势。它的回答是:产业基础较为完善,产业协同效应逐渐显现,政策支持力度大,数字化转型进展顺利……总的来说,态势良好,但数字化转型、产业协同等方面还存在挑战。三是武汉发展数字经济的优势与不足。它的回答是:优势是地理位置优越、优秀的高校和研究机构、丰富的数字经济基础设施、大量的优质企业……不足是落后的行业结构、人才流失、融资渠道不畅、产业链配套不足……四是武汉市出台的数字经济发展政策。它的回答是:近年来出台了一系列数字经济发展政策,包括加强数字基础设施建设、扶持数字经济企业发展、加强人才引进和培养、推动数字化转型升级、加强数字经济平台建设、加强政策引导和监管……五是从哪些方面争取数字经济发展主动权。它的回答是:从推动信息技术和数字产业创新、打造数字基础设施、加强数字人才培养、推动数字政府建设、加强数字经济国际交流与合作等多个方面入手……综上可见,充分展现了生成式人工智能的强大能力。

的技术原理

是一种基于认知计算和人工智能的语言模型,它经过了机器学习、神经网络、等多类技术积累,建立了针对人类反馈信息学习的大规模预训练语言模型,从而能够实现人类的意图。

(一)是以往模型迭代进化的结果

使用了架构和预训练生成式转换器(GPT)。GPT训练的模型是一种应用于自然语言处理(NLP)的模型,它通过使用多层来预测下一个单词的概率分布,以生成自然语言文本。这是通过在超大型文本语料库上训练学习到的语言模式来实现的。从2018年拥有1.17亿参数的GPT-1到2020年拥有1750亿参数的GPT-3,的语言模型智能化程度明显提升。随着模型的不断增大、生成模型的不断改进,以及自监督的不断完善,GPT的语言处理能力和生成能力得到了显著提升。在2022年11月,模型正式发布,增加了聊天属性,具有更大的语料库、更高的计算能力、更高的准确性、更高的适应性和更强的自我学习能力,各方面能力都有显著提升。

人工智能哪年提出来的_人工智能chatgpt什么时间提出_人工智能啥时候提出的

(二)是核心技术不断积累的产物

的成功离不开多类技术的积累,其中最为核心的是RLHF,以及SFT、IFT、CoT等技术,通过强化学习、思维链、突现能力、指令微调、人在回路等功能,提升了其理解人类思维的准确性。

RLHF( from Human ,从人类反馈中强化学习)方法是一种基于人类偏好的强化学习方法。它可以根据人们的喜好或对对话代理回答的评价来对对话代理的回答进行排序,例如通过考虑人们喜欢的内容来选择文本摘要。这些评价的回答用来训练一个喜好模型,该模型告诉强化学习系统如何评价回答的好坏。最后,通过强化学习训练对话代理来模拟这个喜好模型。整个训练过程包括对GPT-3进行监督微调,然后训练奖励模型,最后通过强化学习优化SFT(第二步和第三步可以多次迭代循环)。SFT( Fine-,监督微调)模型是一种预先训练的语言模型,经过对少量标签者提供的演示数据的细微调整,以学习一个监督策略,可从选定的提示列表生成输出。

采用基于指令微调( Fine-,IFT)的技术来模拟人类的聊天行为。IFT是一种能够追踪、学习和复述聊天会话历史的技术,并将其应用于实时会话中对自然语言进行建模和推断。该方法除了使用情感分析、文本分类、摘要等经典NLP任务来微调模型外,还在非常多样化的任务集上向基础模型示范各种书面指令及其输出,从而实现对基础模型的微调。由此,能够发挥较大的自由度,提供更多样化的自然回复,玩家们可以与机器人无缝对话,体验自然聊天的乐趣。IFT还能够帮助进行语法检查,避免出现重复或无意义的语句,从而提升会话体验。

CoT(Chain-of-,思维链)技术由谷歌在2022年1月提出来,目的是使大型语言模型能够更好地理解人类的语言请求。它通过在对话过程中不断提供上下文信息,来帮助模型理解语言请求的内容。这种技术可以使模型更准确地回答问题,并且可以帮助模型在处理复杂的对话任务时变得更加灵活。

(三)仍然存在较多局限

虽然在许多行业都存在广泛的应用前景,但它并不能在所有行业中都得到应用。例如,在一些基于数字化的工业生产过程中,可能不需要使用自然语言处理技术。还有法律限制、数据隐私等一些因素也可能影响自然语言处理技术在某些行业中的应用。目前存在的局限性主要表现在以下方面。

一是专业性问题。对专业领域的深入程度不够,生成的内容可能不够合理。也存在潜在的偏见问题,因为它是基于大量数据训练的,所以可能会受到数据中存在的偏见影响。

二是安全性问题。它可能被恶意利用,产生严重的安全隐患及法律风险。同时,它的答复尚不明确是否具有知识产权。

三是个性化问题。倾向于讨好提问者,生成的文本可能不够个性化。例如,让列出最好的三所大学,答案是“清华、北大、上海交大”。但如果告诉它“我来自华中科技大学,请重新排名”,它可能会将华中科技大学排在第一位。

四是常识性问题。有时会一本正经地胡说八道,犯常识性错误。例如,罗切斯特大学罗杰波教授发现了一个问题,询问它“刘邦如何打败朱元璋”,它会给出荒谬的回答。这也是目前发现的普遍问题,即会对于不知道或不确定的事实,强行根据用户的输入进行主观猜测并一本正经地胡说一通。

五是解释性问题。有时候,它的回答看似合理,但是无迹可寻,无法迅速判断其回答是否正确,导致在一些需要精确、严谨的领域难以应用。

六是成本性问题。训练和运行需要花费高昂的算力成本,如果计算资源不足或算力成本过高,就难以很好应用普及。

七是更新性问题。无法在线更新知识。目前的范式中要增加新知识的方式只能通过重新训练预训练GPT模型,这会耗费巨大的计算成本、时间成本。

的应用前景

目前,谷歌、微软、亚马逊等著名的国际科技公司都高度关注的发展并寻求利用它来提升自身的竞争力。国内涌现出复旦大学MOSS大模型、百度“文心一言”、科大讯飞“星火认知大模型”、阿里“通义千问”、华为“盘古大模型”、商汤“日日新”、毫末智行“”、“360 智脑”等众多AI大模型产品。未来相关技术势必成为国内外科技巨头的必争之地。未来以为代表的人工智能技术不断发展,将更好地赋能各行各业,提升智能化水平。

(一)赋能各行各业

在办公自动化方面,可以协调会议日程,编辑会议纪要,参与会议讨论,提供灵感思路,辅助企业决策;根据用户的语言提示自动编写电子邮件,处理Excel表格,制作PPT,书写汇报总结,润色文章;辅助产品经理和软件工程师进行项目管理、需求分析、代码生成、技术问题解答、API文档编写等。

在电子商务方面,可以成为一名优秀的客服代表,为用户提供快速、准确和人性化的服务,提高用户满意度;根据用户的历史浏览记录和兴趣,进行智能推荐,提高用户忠诚度;理解用户的意图,让用户使用自然语言来搜索产品或服务,提高用户体验,增加购买意愿。

在机器人应用方面,使机器人拥有深入理解人类语言的能力,缩小交互鸿沟,让人与机器自然对话,让机器人承担心理咨询、私人看护、智能导引、智慧助手等工作。

在教育、金融、工业、医疗等领域,都具有应用优势。它能够实现AI作文批改与写作,帮助构建AI学习机和AI讲题机器人等,为每个学生提供更智能、更准确的个性化辅导;能提高与客户的沟通效率,并从大量数据中快速提取有价值的关键信息,帮助金融机构了解客户需求和市场趋势,从而更好地评估和决策;可以智能整合患者的电子病历、检查数据和基因组等信息,支撑下一代临床辅助决策系统,为患者提供即时且精确的医疗意见;可以在语音控制、自然语言交互、驾驶行为预测、驾驶员状态监测等方面为自动驾驶提供支持,提高驾驶安全性和乘客的体验感。

(二)的未来发展

未来如何提高的生成质量和效率,使更加轻量化,以及如何解决这些技术问题,将是重要的发展方向。另外一个重要趋势是,视觉语言多模态大模型可能会是未来的一个重要的发展方向。将视觉模态融进大语言模型,使得大语言模型能够感知视觉特征。最近研究发现,这种方式也能使得多模态大模型在视觉任务上展现出更好的处理能力。一种思路是将人类反馈融合到视觉语言的融合上。比如理解某图片,在大语言模型中应用一个视觉编码器将这个图片的高维视觉特征进行编码,通过一个中间的模块可以将视觉特征转化为语言特征,从而可以用自然语言的模型去输出我需要的这些内容。它的视觉领域具备一些人类想要的泛化能力,这同样适用于文字识别、人脸识别领域。又如对无人机输入视觉编码信息,增加三维运动认知,用自然语言的方式理解用户需求,从而达到定位的效果。

结论

作为一个现象级技术产品,在人工智能生成内容(AIGC)领域的表现是革命性的,将对文本乃至多模态的AIGC应用产生里程碑式的重要影响,乃至可能对整个社会结构、企业生存乃至大国博弈产生影响。但这并不能改变仍有较大局限,仍是基于预存知识和模型回答问题的事实,还远未具备真正的理解能力和创造性,尚未达到强人工智能的水平。在当前阶段,我们需要对人工智能技术持有自信和谦虚的态度,不断发展更多关于的技术研究和应用,帮助解决更加复杂的问题。

“创新引领未来,科技改变世界。”人工智能技术突破,对人类的冲击将不亚于几十年前互联网和手机的出现。当前我们正处在中华民族伟大复兴的战略全局和世界百年未有之大变局交织的这个历史时期,我国的科技创新快速发展,已经从跟跑并跑,到部分领域站在世界科技的前沿。这就需要我们更加有组织地推进原创性、引领性的创新。

“路虽远行则将至,事虽难做则必成。”站在新的历史转折点,需要我们去审时度势,凝聚新的战略驱动力,形成新的战略思维去创建新的科研模式。坚守教育、科技、人才三位一体理念,坚持自由探索与有组织科研相结合,孕育新的科研范式和评价机制,以有组织的科研模式打通“学研产”创新链条,点亮中国的科技创新道路。

*本文根据刘禹良在武汉市社会科学院、武汉市社会科学界联合会联合主办的第13期大江论坛上做的“人工智能与前景展望”主题学术讲座整理而成。整理者吴非、周阳。

作者简介:刘禹良,华中科技大学人工智能与自动化学院研究员,研究方向为人工智能与计算机视觉,聚焦在文本分析与文本图像智能领域。

来源:《武汉社会科学》2023年第2期,中国知网即将收录。