2023年3月,《J Med Res》(IF=7.4)在线发表了一项关于的文章。研究者利用生成了一篇完整的神经外科论文,在用词、句子表述、论文结构方面都与真正的医学论文非常相似,包含1992个词和17篇参考文献,整个文章创建过程大约花了1个小时。不过,参考文献还是有很多问题。
全文链接:
研究方法
引导生成一篇医学论文
研究者选择PLOS 作为这篇文章的目标期刊。
研究者通过提出以下问题启动了该过程:
“ RCT in field of that is for aim and scope of PLOS and would have high of .”
注:请建议一个神经外科领域的RCT,该RCT要符合PLOS 的投稿范围,并且被接收的可能性很高。
回复如下,给出一个标题:
One trial (RCT) in the field of that may be for the aim and scope of PLOS and has a high of is:
Title: “ of deep brain for – : a trial”
接着,研究者要求逐一撰写文章的每个部分,包括摘要、引言、方法、结果和讨论,并要求有合适的参考文献引用。此外,研究者还要求 基于结果生成表格以及一张图。还不具备图形设计能力,因此它提供了一个数据表,研究者无需对数据进行任何更改,在Excel中生成图即可。
在交流中,研究者不断改进问题和提示,以提高输出质量,整篇文章的生成过程不超过1小时。
研究者整个过程中发送的问题和提示如下:
1. RCT in field of that is for aim and scope of PLOS and would have high of .(建议一个神经外科领域的RCT,该RCT要符合PLOS 的投稿范围,并且被接收的可能性很高)
2. Now give me to open on PLOS .(根据 PLOS 期刊上的开放获取文章格式撰写摘要)
3. Now I want you to make whole step by step. One after . Give me only . Use by of PLOS . Give me list at the end.(请逐步撰写整篇论文,一个部分完成后再继续下一个部分。现在先撰写引言部分,按照PLOS 的要求引用参考文献,在文章最后要列出参考文献)
4. I want you to be more . Use .(内容要更详细,使用学术语言)
5. Now give me and .(现在撰写材料和方法部分)
6. Now give me data.(现在撰写详细的结果,包括患者数据)
7. Now I need . the with . Make in-text ( in ) and give list at the end. Start of from “9”.(现在撰写讨论部分。将结果与既往已发表的文章进行比较。在文本中引用参考文献,并在文章最后列出参考文献。引用从“9”开始编号)
8. I need the to be – at least twice. our study with . Add more . Start of from “9”.(讨论部分的内容要更多一些,至少是现在的两倍。将这篇研究与之前的类似研究进行比较。引用更多参考文献,从“9”开始编号)
9. Give me all nine .(列出9篇参考文献的信息)
10. PLOS want to “ ”. It be Why was this study done?(PLOS 要求提供“ ”,简要说明为什么要进行这项研究)
11. Give me two on: What did the do and find?(再给出两个要点:研究人员做了什么,以及发现了什么)
12. I give you of an and you to go with it?(发给你一篇文章的结果部分,你能给出与之相似的表格吗?)
13. Can you some ? Can you for ?(你能创建一些图表吗?您能提供用于创建图表的数据吗?)
尽管与交流的作者是一名神经外科医生,但在文章创作过程中并没有提出专业相关的建议。仅给出了一般性提示,例如“make this (让该部分更长)”或“ a on (提供有关统计的一段话)”。
专家审查
文章生成后,研究者会审查准确性和连贯性,并与该领域的现有文章做对比,同时邀请一名精神科专家和一名统计学家进行审查。
让AI评审AI生成的内容
研究者又让来审查这篇自己生成的文章。给出的提示如下:
1. Can you a of a as if you were a ? I want you to , of the . Then I want you to , what be . .(你能像审稿人一样对一篇论文进行评审吗?希望你能说明该论文的优点和缺点,然后给出建议应该改进哪些地方,并给出例子)
2. I want you to , of the .(请指出文章的优点和缺点)
3. I want you to , what be in . Study can not be , what be added or .(请建议论文中有哪些地方应该改进。研究设计不能改,建议应该增加或澄清哪些信息)
研究结果
生成了一篇神经外科论文,包含摘要、引言、材料和方法、结果、讨论,也有图表和图。一共有1992个单词,17篇参考文献。引文格式与PLOS 的要求相符。文章撰写过程大约需要一个小时。
图. 论文摘要
对全文感兴趣的,可以查阅补充材料:#app1
神经外科专家对文章的评价
总体来说,生成的文章,看起来真实性很高,但也发现了一些问题和明显的错误。最明显的不足是该文章比类似文章要短,并且引用的参考文献数量更少。 在理解信息片段之间的上下文联系方面,比早期的自然语言处理 (NLP) 模型有了显著改进。第二个明显的问题是缺乏注册信息以及伦理审批号。
还有一个局限性是,当前版本的未使用 2021 年 9 月之后的数据进行过训练,因此无法提供该日期之后的信息(例如,引用最新的文献)。
在审查引文和参考文献列表时,研究者发现了重大错误。9篇参考文献在相关性和格式方面是正确的,但另外8篇文献有明显错误,包括文献不存在、DOI号错误、内容不相关等问题。
统计专家的意见
研究方法中统计分析的描述相当简短,但表述很清晰,而且符合标准表述的大部分要求。样本量进行过估算,所提出的统计检验也都与研究目的、变量类型相符(即计数资料用卡方检验,连续变量用t检验)。统计结果在文本和表格中均清晰简洁地呈现。然而,表2数据和文章正文不一致,未包含置信区间,显示的均值与正文描述的均值也不同。
AI评审的意见
AI 生成的评审意见给出了相当准确的评论,指出了文章的优点和缺点,并建议了可以完善的地方,有些意见具有普适性,例如单中心研究设计和随访时间较短,评审意见中没有出现实质性错误。
检测工具能否识别出来
一个AI检测工具指出这篇文章是生成的概率为72%,即“很有可能是AI生成的”。的AI识别工具认为“可能是AI生成的”。
总结与讨论
尽管当前的AI语言模型能够生成复杂且看似完美的论文,但读者在仔细检查后仍会发现语义不准确和错误,特别是参考文献有很大问题。
随着AI功能的不断完善,为AI用于学术写作和研究制定准则将变得越来越重要,包括如何验证内容的准确性和真实性,检测和防止欺诈和不当行为。然而,也要认识到在学术写作和研究中使用AI语言模型的潜在好处,例如提高文档创建、分析结果和语言编辑的效率和准确性。
参考文献:J Med Res. 2023;25:
发表回复