这类工具也被称为大型语言模型(LLM),其中名声最响的当属 GPT-3 的一个衍生版本——。由于 完全免费而且使用方便,去年 11 月推出后便引发热潮。其他类型的生成式 AI 还能产生图片或声音。

“我真的印象深刻,”就职于美国宾夕法尼亚大学的 说,“它让我们这些研究人员效率更高了。”很多科研人员说他们现在经常用大型语言模型,不仅用它来改论文,还能用来编程,检查代码,头脑风暴等。冰岛大学的计算机科学家 说:“我现在每天都用大型语言模型。”他最早用的是 GPT-3,后来开始用 帮他写演讲稿,出考试题和学生作业,还能把学生作文变成学术论文。他说:“很多人都把 作为数字秘书或数字助理。”

大型语言模型既能充当搜索引擎,也能作为编程助理,甚至可以和其他公司的对话机器人就某件产品杀价。开发 的公司 位于美国加州旧金山,已宣布将推出每个月 20 美元的订阅服务,承诺反应速度会更快,而且能优先使用新功能( 的试用版将依然免费)。科技巨头微软()已经投资了,1 月又宣布了约 100 亿美元的新一轮投资。大型语言模型今后肯定会整合到文字和数据处理软件中。生成式 AI 在未来的普及似乎已成定局,当前的工具还只是这项技术的初始阶段。

但是,大型语言模型也引发了大量担忧,比如它们很容易“胡说八道”,而且人们会说 AI 生成的内容是他们自己创作的。《自然》采访了研究人员如何看待 等对话机器人的潜在用途,尤其是科研用途,他们在激动之余也表示了忧虑。科罗拉多大学医学院的 说:“如果你相信这项技术有潜力带来变革,那么我认为你最好紧张一点。”科研人员认为,很多方面都将取决于未来的监管指南对 AI 对话机器人的使用限制。

流畅度高、事实性差

一些研究人员认为,大型语言模型很适合用来提高写论文或写基金的效率,只要有人类把关就行。瑞典萨尔格林斯卡医院的神经生物学家 öm 与人合作发布了一篇关于 GPT-3 的实验报告[2],他说:“科研人员再也不用坐在那里给经费申请书写很长很长的引言了,他们现在只要让系统来写就行了。”

伦敦软件咨询公司 的研究工程师 Tom 表示,他每天都用大型语言模型写代码。他说,“它就像一个进阶版的 Stack 。”Stack 是一个程序员互问互答的热门论坛。

但是,研究人员强调,大型语言模型给出的回答从根本上说是不可靠的,有时候还是错的。 öm 说:“我们在利用这些系统生成知识的时候要很当心。”

这种不可靠已经深入大型语言模型的构建方式。 和它的竞争对手都是通过学习庞大在线文本数据库中的语言统计模式来运作的,这些文本中不乏谣言、偏见和已经过时的信息。当大型语言模型接到提示(即 ,比如 和 使用精心组织的语言提出重写论文部分章节的要求)后,它们会一字一句地吐出看上去符合语言习惯的任何回复,只要能让对话继续下去。

结果就是大型语言模型很容易给出错误或误导人的信息,尤其是那些训练数据很有限的技术性话题。还有一点是大型语言模型无法给出准确的信息来源。如果你让它写论文,它会把参考文献给你编出来。“这个工具在事实核查或提供可靠参考文献方面是不能被信任的。”《自然-机器智能》( )在 1 月发表的一篇关于 的社论中写道。

在这些注意事项下,如果研究人员有足够专业知识发现问题或能很容易验证答案对错,比如他们能判断某个解释或对代码的建议是否正确,那么 和其他大型语言模型就能成为真正意义上的助手。

不过,这些工具可能会误导一些初级用户。比如在 2022 年 12 月,Stack 临时禁用了 ,因为管理者发现一些热心用户上传了大量由大型语言模型生成的回答,这些答案看起来很像回事,但错误率很高。这可能会是搜索引擎的一个噩梦。

缺陷能解决吗?

有些搜索引擎工具能解决大型语言模型在来源引用上的不足,例如面向科研人员的 能先根据提问搜索相关参考文献,再对搜索引擎找到的各个网站或文献进行概括归纳,生成看上去全带参考来源的内容(但是大型语言模型对不同文献的归纳仍有可能不准确)。

开发大型语言模型的公司也注意到了这些问题。去年 9 月,谷歌()子公司 发表了一篇关于其“对话智能体” 的论文[4]。首席执行官、联合创始人Demis 后来告诉《时代周刊》(TIME),的私测版会在今年发布;根据《时代周刊》的报道,谷歌想进一步攻克包括来源引用在内的各种能力。其他竞争对手,如 ,则表示他们已经解决了的一些问题(、、都拒绝就此文接受采访)。

一些科研人员表示,目前来看, 在技术性话题上还没有足够且专业的训练数据,所以用处并不大。当哈佛大学的生物统计学博士生 Carr 将 用于他的工作时,他对 的表现毫不惊艳,他说,“我认为很难达到我需要的专业水平。”(但 Carr 也表示,当他让 为某个科研问题给出 20 种解决办法时, 回复了一堆废话和一个有用的回答,这个他之前从没听过的统计学术语替他打开了一个新的文献领域。)

一些科技公司以及开始用专业的科研文献训练对话机器人了,当然这些机器人也各有各的问题。去年 11 月,拥有 的科技巨头 Meta 发布了名为 的大型语言模型, 用学术摘要进行训练,有望在生成学术内容和回答科研问题方面具备一技之长。但是,其测试版在被用户拿来生成不准确和种族歧视的内容后即被下架(但代码依旧公开)。Meta 的首席 AI 科学家杨立昆(Yann LeCun)在面对批评时发推特表示,“今后再也不要想用它来随意生成点好玩的东西了,这下高兴了吧?”(Meta 并未回复本文通过《自然》媒体办公室采访杨立昆的请求。)

安全与责任

遇到的是一个伦理学家已经提出了好几年的安全问题:如果不对输出内容进行把控,大型语言模型就能被用来生成仇恨言论和垃圾信息,以及训练数据中可能存在种族歧视、性别歧视等其他有害联想。

是美国密歇根大学一个科技与公共政策项目的负责人,她说,除了直接生成有害内容外,人们还担心 AI 对话机器人会从训练数据中习得一些历史性偏见或形成对世界的特定看法,比如特定文化的优越性。她说,由于开发大型大型语言模型的公司大多来自或置身于这些文化中,他们可能没什么动力去纠正这些根深蒂固的系统性偏见。

在决定公开发布 时,曾试图回避很多这些问题。 让 的信息库截至到 2021 年为止,不让它浏览互联网,还通过安装过滤器防止 对敏感或恶意的提示做出回应。不过,做到这一点需要人类管理员对庞杂的有害文本进行人工标记。有新闻报道称这些工人的工资很低,有些人还有伤病。关于社交媒体公司在雇佣人员训练自动机器人标记有害内容时存在劳动力压榨的类似问题也曾被提出过。

采取的这些防护措施,效果不尽如人意。去年 12 月,美国加州大学伯克利分校的计算神经科学家 发推文表示他让 开发一个 程序,该程序将根据某个人的来源国决定这个人是否应该受到折磨。 先回复了请用户输入国家的代码,然后如果国家是朝鲜、叙利亚、伊朗和苏丹,则这个人就应该受到折磨。( 后来了关闭了这类问题。)

可以用chatgpt润色英文论文吗_英文论文润色软件推荐_英文论文润色是学术不端吗

去年,一个学术团队发布了另一个名叫 BLOOM 的大型语言模型。该团队试着用更少的精选多语言文本库来训练这个机器人。该团队还把它的训练数据完全公开(与 的做法不同)。研究人员呼吁大型科技公司参照这种做法,但目前不清楚这些公司是否愿意。

还有一些研究人员认为学术界应该完全拒绝支持商用化的大型语言模型。除了偏见、安全顾虑和劳动剥削等问题,这些计算密集型算法还需要大量精力来训练,引发人们对它们生态足迹的关注。进一步的担忧还包括把思考过程交给自动化聊天机器,研究人员可能会丧失表达个人想法的能力。荷兰拉德堡德大学的计算认知科学家 Iris van Rooij 在一篇呼吁学术界抵制这类诱惑的博客文章中写道,我们作为学术人员,为何要迫不及待地使用和推广这类产品呢?”

另一个不甚明确的问题是一些大型语言模型的法律状态,这些大型语言模型是用网上摘录内容训练的,有些内容的权限处于灰色地带。版权法和许可法目前只针对像素、文本和软件的直接复制,但不限于对它们风格上的模仿。当这些由 AI 生成的模仿内容是通过输入原版内容来训练的,问题也随之而来。一些 AI 绘画程序开发者,包括 和 ,正受到艺术家和摄影机构的起诉。 和微软(还有其子公司技术网站 )也因为其 AI 编程助手 的开发面临软件侵权官司。英国纽卡斯尔大学的互联网法律专家 表示,这些抗议或能迫使相应法律做出改变。

强制诚信使用

因此,一些研究人员相信,给这些工具设立边界可能十分必要。 认为,当前关于歧视和偏见的法律(以及对 AI 恶意用途实施有计划的监管)有助于维护大型语言模型使用的诚信、透明、公正。她说,“已经有很多法律了,现在只是执行或是稍微调整的问题。”

与此同时,人们也在倡导大型语言模型的使用需要更透明的披露。学术出版机构(包括《自然》的出版商)已经表示,科研人员应当在论文中披露大型语言模型的使用(相关阅读: 威胁科研透明,《自然》等期刊提出新要求);老师们也希望学生能进行类似披露。《科学》()则更进一步,要求所有论文中都不得使用 或其他任何 AI 工具生成的文本[5]。

这里有一个关键的技术问题:AI 生成的内容是否能被发现。许多科研人员正在进行这方面的研究,核心思路是让大型语言模型自己去“揪” AI 生成的文本。

2022 年 12 月,美国普林斯顿大学的计算机科学研究生 Tian 推出了。这是一个 AI 检测工具,能从两个角度分析文本。一种是“困惑度”(),这个指标检测大型语言模型对某个文本的熟悉度。Tian 的工具使用的是更早版本——GPT-2;如果它发现大部分词句都是可预测的,那么文本很有可能是 AI 生成的。这个工具还能检测文本的变化度,这个指标也称为“突发性”():AI 生成的文本比人类创作的文本在语调、起承转合和困惑度上更单调。

许多其他产品也在设法识别 AI 生成的内容。 本身已推出了 GPT-2 的检测器,并在 1 月发布了另一个检测工具。对科研人员来说,反剽窃软件开发公司 正在开发的一个工具显得格外重要,因为 的产品已经被全世界的中小学、大学、学术出版机构大量采用。该公司表示,自从 GPT-3 在 2020 年问世以来,他们一直在研究 AI 检测软件,预计将于今年上半年发布。

不过,这些工具中还没有哪个敢自称绝不出错,尤其是在 AI 生成的文本经过人工编辑的情况下。这些检测工具也会误将人类写的文章当成是 AI 生成的,美国得克萨斯大学奥斯汀分校的计算科学家、 的客座研究员 Scott 说道。 表示,在测试中,其最新工具将人类写的文本误判为 AI 生成文本的错误率为 9%,而且只能正确辨认出 26%的 AI 生成文本。 说,在单纯靠检测工具就指责学生偷偷使用了 AI 之前,我们可能还需要进一步证据。

另一种方法是给 AI 内容加水印。去年 11 月, 宣布他和 正在研究给 生成的内容加水印的方法。该方法还未对外发布,但美国马里兰大学计算科学家 Tom 的团队在 1 月 24 日发布的一篇预印本论文[6]中提出了一个加水印的办法。具体做法是在大型语言模型生成结果的某个时刻利用随机数字生成器,生成大型语言模型在指令下从中可选的一连串替代词汇。这样就能在最终文本中留下所选词汇的线索,这在统计学上很容易辨认,但读者却很难发现。编辑可以把这些线索抹掉,但 认 为,这种编辑需要把超过一半的词汇都换掉。

指出,加水印的一个好处是不太会产生假阳性的结果。如果有水印,文本很可能就是 AI 生成的。当然,他说,这也不是绝对的。“如果你足够有决心,就肯定有办法破解任何加水印的策略。”检测工具和加水印只是让 AI 用于欺骗手段更难了,但没法绝对禁止。

与此同时,大型语言模型的开发者正在构建更大型的数据集,打造更智能的聊天机器人( 拟在今年推出 GPT-4),包括专门面向学术或医疗领域的机器人。2022 年12 月底,谷歌和 发布了一篇预印本论文,提前预告了名为 Med-PaLM 的临床专业大型语言模型[7]。这个工具可以回答一些开放式的医学问题,水平与普通人类医师相当,但仍有缺陷和不可靠的问题。

美国加州斯克利普斯研究所主任 Eric Topol 表示,他希望将来整合了大型语言模型功能的 AI 能将全身扫描与学术文献中的内容进行交叉验证,帮助诊断癌症,甚至理解癌症。但他强调,这一切都需要专业人士的监督。

生成式 AI 背后的计算机科学发展迅速,基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来,也决定了人类的未来。“要说 2023 年初,一切已尘埃落定,是不现实,”Topol 说,“现在才刚刚开始。”

参考文献:

1. , M. & , C. S. at (2023).

2. GPT, öm, A. & , S. at HAL (2022).

3. Mach. . 5, 1 (2023).

4. , A. et al. at (2022).

5. Thorp, H. H. , 313 (2023).

6. , J. et al. at (2023).

7. , K. et al. at (2022).