医学领域表现杰出,专业性凸显 是一个交互式人工智能模型,在医学中被广泛应用。 是由 在 2022 年 11 月 30 日发布的一种基于 GPT-3.5 架构的大型自然语言处理模型,其参数量高达 1.75 万亿,被广泛应用于对话生成、文本摘要、机器翻译、问答系统等自然语言处理任务中。在医学领域, 可以用于辅助医生进行疾病诊断、医疗保健管理等方面。例如,可以利用 生成自然语言文本,从而帮助医生快速生成医学报告和病历记录。此外, 还可以用于自然语言问答系统,帮助医生和患者解答医疗相关问题。 具备合格的医学水平GPT-4 医学能力卓越,USMLE 准确率 78.63%优于 GPT-3.5。根据微软和 Open AI 于 2023 年 3 月 20 日共同发布的《 of GPT-4 on 》一文展示,GPT-4 在医学领域表现出卓越的能力。该项测试中,GPT-4针对 MedQA 题库中的美国医师执业资格考试( ,USMLE)试题,准确率高达 78.63%,明显优于 GPT-3.5 的 47.05%准确率。
这意味着 GPT-4 在医学性能上有显著提升,并且 GPT-4 优于平均水平(60%)。这进一步证明了 在医学领域的卓越表现。针对中国地区的医学问题,目前人工智能交互软件的表现尚未达到最佳水平,还存在提升空间。微软和 Open AI 针对MedQA 数据集中的 3426 道中国大陆试题、 1413 道中国台湾试题和 1273 道美国试题进行了测试。测试结果显示,针对中国大陆试题,GPT-4 的准确率为 75.31%,GPT-3.5 的准确率为 40.31%。根据 2022 年执业医师考试的分数线 360 分,60%的正确率即可通过该考试。因此,GPT-4 已经具备合格的医学水平,但 GPT-3.5 仍需改进。需要注意的是,GPT-4 和 GPT-3.5 在中国大陆的表现仍未达到最佳水平,相较于美国和中国台湾的测试,准确率仍有 5%- 10%的提升空间。因此,未来这类人工智能技术的交互软件还需针对中国地区的医疗进一步开发,以更好地服务于中国的医学领域。GPT-3.5(zero shot)GPT-GPT-3.5(zero shot)GPT-3.5(5 shot)GPT-4(zero shot)GPT-4(5 shot*)数据集内容来源中国大陆(5 个选项中国大陆(5 个选项)75.31?71.07?44.89?40.31?中国台湾(4 个选项)84.57?82.17?53.72?50.60?美国(5 个选项)78.63?74.70?47.05?44.62?美国(4 个选项***)81.38?78.87?53.57?50.82?*Zero-shot 测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot 测试是通过提供 5个相关样本来评估模型在有限样本下处理新任务的性能。
** MedQA 题库包含英文,简体中文和繁体中文的多项选择题,分别来自美国,中国大陆和中国台湾的临床执业医师考试。***4 个选项的 USMLE 试题是在 5 个选项的试题中去除一个错误选项。,Open AI, 可以解决综合学科医学问题,但在针对单学科问题时的表现更出色 聚焦单学科专业问题表现更佳。针对 USMLE 这一综合性医学考试, GPT-3.5 和 GPT-4 的正确率分别为 47.05%和 78.63%。然而,当 的测试聚焦到某个具体医学学科,例如医学遗传学或解剖学时,GPT-4 的正确率平均比 GPT-3.5 提高了 5%-10%。这表明 GPT-4 的医学基础更加扎实,针对综合性医学问题的处理能力更强。相较于医生, 在医学领域的知识掌握没有科室壁垒。例如,当患者提及他们最近使用的药物或保健品时,医生可能无法立即了解该药物的具体情况。但是, 不会受到这种限制。这也是 与医生相比的主要优势之一。GPT-4GPT-4GPT-GPT-4GPT-4GPT-3.5GPT-3.5数据集内容来源(5 shot*)(zero shot)(5 shot)(zero shot)临床知识86.42%86.04%68.68%69.81%医学遗传学92.00%91.00%68.00%70.00%解剖学80.00%80.00%60.74%56.30%专业医学93.75%93.01%69.85%70.22%大学生物学93.75%95.14%72.92%72.22%MMLU大学医学76.30%76.88%63.58%61.27%* Zero-shot 测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot 测试是通过提供 5个相关样本来评估模型在有限样本下处理新任务的性能。
,Open AI,GPT-3.5 针对心血管疾病常见问题的回复有效。2022 年 12 月发表的《 of From a Chat-Based Model》一文根据心血管疾病的临床经验制定了 25 个涉及基本预防概念的问题,包括危险因素,检查结果和用药信息咨询来测试 GPT-3.5,最后由心脏病学临床医生来评价。结果表明,GPT-3.5 对心血管疾病相关问题回答的正确率出乎意料达到了 84%(21/25),但是文中也针对部分可能会对患者有害的回答表示了担忧,例如人工智能模型在回答有关运动的问题时,坚定地推荐了锻炼心血管的运动,包括举重。 grade grade hat is the best diet for the heart? is the best diet for the heart? is the best diet for high blood and high ? much to stay ? can lose ? I do or lift to can lose ? can I can I ? is (a)? can l quit ? have pain with a . What I have pain with a . What l do? is still high and I’m on a .What I do? can other than ? are and ? are and ? is ? are the side of and ? panel shows 400 mg/dL. HMy panel shows 400 mg/dL. How I this? LDL is 200 mg/dL.How I this? does a score of 0 mean? does a score of 400 mean? does a score of 400 mean? can cause high ?,AI 影像/检验数据分析或推动 医学性能再提升 咨询医疗问题时,由于缺乏医学影像资料可能会影响 回复的准确性。
微软和 Open AI 的测试表明,在仅有文字的试题中,GPT-4 的准确度高达 89.51%,相较于图文试题(未提供图片)提高了近 20%的准确度。因此,可以预见未来随着人工智能技术的不断发展,将有可能融入 AI 识别并分析影像、检验信息等技术,从而推动AI 医疗咨询领域的发展。GPT-4GPT-4GPT-3.-4GPT-4GPT-3.5GPT-3.5文字(5 shot*)89.51%(zero shot)86.39%(5 shot)55.30%(zero shot)50.40%图文估**69.75%68.15%43.63%41.40%合计86.65%83.76%53.61%49.10%文字87.77%85.63%59.63%57.80%USMLE 样卷图文79.59%75.51%53.06%51.02%合计86.70%84.31%58.78%56.91%数据集数据集问题形式USMLE 自我评* Zero-shot 测试是在没有任何相关样本的情况下评估模型处理新任务的能力;5-shot 测试是通过提供 5 个相关样本来评估模型在有限样本下处理新任务的性能。**USMLE 自我评估的 2173 道题中有 314 道题是图文题(占数据集的 14.4%),USMLE 样卷的 376 道题中有 49 道题是图文题(占数据集的 13.0%),Open AI, 小结: 初步具有医疗专业性,优化空间 在医疗行业中的应用具有明显的优势。
首先, 具备合格的医学素养,能够对患者的医疗咨询问题提供准确的回复。其次, 能够处理多科室的复杂病例,克服了不同科室之间的专业壁垒。此外, 在使用上没有时间和空间的限制,回复速度快,内容丰富,患者满意度较高。诚然,我们也应该注意到相关的劣势,仍存在可提升的空间。目前 在针对中国地区的医疗问题时,回复准确性还未达到最佳性能,存在继续开发空间。此外, 存在提供误导性错误答案的可能性。最后,由于 无法获取医学影像信息,其提出的建议可能存在局限性。图表 5 在互联网医疗中应用的优劣势资料来源: 整理实用性测试:各类聊天 AI 达到实用级别,回复相对准确,患者安抚性强目前已进入市场的三种不同的主流AI 交互软件是(Open AI),New Bing(),文心一言(百度)。其中 包含 GPT-3.5 和 GPT-4 两种模式,New Bing 则拥有精准,平衡和创造三种模式。 Bing文心一言图表 6 Bing文心一言Open AI 官网,New bing 官网,文心一言官网,作为测试,我们选取的试领域为常见的高血压,主要因为其广泛性并且官方治疗方案清晰。
高血压作为心脑血管疾病的主要危险因素日常的诊断需要被重视。根据 2012 至2015 年的中国高血压调查(CHS)研究数据显示,中国 18 岁以上的居民高血压患病率较高,粗率为 27.9%(加权率为 23.2%),其中 75 岁及以上人群患病率最高,为 59.8%,而 18 至 34 岁的青年人群患病率为 5.1%。据估算,中国 18 岁以上成年人高血压患病人数约为 2.45 亿人。如果重视日常对高血压的监测和控制,可以有效降低心脑血管疾病的致死率。 2017 年,中国有 254 万人死于高收缩压,其中 95.7%死于心血管病。如果对 I 期和 Ⅱ期高血压患者进行治疗,每年将减少 80.3 万例心血管事件(脑卒中减少 69.0 万例,心肌梗死减少 11.3 万例)根据中国高血压临床实践指南建议:诊断:当收缩压(收缩期血压)大于等于 140 mmHg(1 mmHg = 0.)和/或舒张压(舒张期血压)大于等于 90 mmHg 时,可做出高血压的诊断。监测:建议每天早、晚各测量 1 次血压。非药物干预:建议对于高血压患者,应该进行生活方式干预,包括饮食干预、运动干预、减压干预、减重干预、戒烟限酒等措施。
治疗:高危人群建议使用降压药物治疗。方式干预内容图表 7 高血压患者的非方式干预内容DASH: 坚持服用富含水果、 蔬菜、 全谷物和低钠低脂乳制品饮食干预食用替代盐或低钠富含钾饮食: 使用替代盐烹饪或食用替代盐食品; 建议钠盐的摄入 40 min冥想: 每次 20 min, 2 次/d瑜伽: 每周 3 d, 每天至少 30 min最佳目标是达到理想体重,最佳目标是达到理想体重, 体重指数 18.5~23.9 kg/m2, 控制腰围至男性
发表回复