引用本文: 冯文华, 任朝楠, 罗平, 彭希琪, 梁睿, 彭磊, 张少华. ChatGPT 辅助儿科诊疗与医患沟通的初步探索. 华西医学, 2024, 39(8): 1273-1276. doi: 10.7507/1002-0179.202311251 复制
基于大语言模型(large language model, LLM)的生成式人工智能(artificial intelligence, AI)正在变革社会运作,尤其是在自然语言处理领域[1]。ChatGPT(Chat Generative Pre-trained Transformer)作为 LLM 的代表,其能生成流畅、语法正确的文本,已从概念产品发展为消费级应用[2]。在医疗领域,LLM 通过结合人类反馈的增强学习,展现了在临床决策支持方面的巨大潜力[3]。然而,尽管 LLM 在其他领域已取得了显著成就,其在医疗领域的应用仍处于起步阶段,尤其是在疾病诊断和治疗方面的具体贡献还有待探索。儿科疾病诊治复杂,儿童因认知和表达能力尚未成熟,难以准确描述症状,且常因恐惧或焦虑而对治疗产生抵触,影响诊断和治疗[4-5]。因此,儿科医生除了需要有丰富的医学知识,还需要具备与患儿及其家长沟通的能力[6]。本研究评估了 ChatGPT 用于儿科泌尿系统疾病诊疗与医患沟通的能力,旨在为未来 ChatGPT 辅助儿科医生进行儿科诊疗与医患沟通提供一定的参考依据。
1 对象与方法
1.1 研究对象
本研究选取了 ChatGPT 3.5 和 4.0 版本截至 2023 年 4 月的知识数据库。
1.2 研究方法
1.2.1 儿科诊疗与医患沟通相关问题的设计
① 诊疗相关问题:由 2 位资深的儿科泌尿系统疾病临床医师,参考欧洲泌尿外科协会儿科泌尿外科指南[7],整理并设计了 30 个针对儿科泌尿系统感染性疾病的临床问题,涉及诊断(包括检查)、治疗和预防等方面。所有问题的设计均经过高年资专业医师的严格审核与认定,以确保其合理性和临床相关性。
② 医患沟通相关问题:由 2 位资深临床心理科医师结合儿科医师的临床经历设计了 10 个儿科临床工作中可能遇到的医患沟通问题。这些问题涵盖了不同的临床场景,并由上述医师提供了相应的解决方案作为参考。
1.2.2 使用 ChatGPT 回答儿科诊疗与医患沟通相关问题
2023 年 10 月,作者之一(彭希琪)在美国加州大学戴维斯分校使用 ChatGPT 回答问题,即将前述的 40 个问题(30 个诊疗相关问题和 10 个医患沟通相关问题)分别提交给 ChatGPT 3.5 和 4.0 版本进行问答。为减少模型答案的偏差,本研究未采用“Custom Instructions”进行医学知识个体化设定。每个问题均通过“New Chat”功能进行独立提问,并重复 3 次以获取稳定结果。
1.2.3 对 ChatGPT 的答案进行评价
① 对诊疗相关问题答案的评价标准:由 4 位经验丰富的儿科泌尿系统疾病医师,以欧洲泌尿外科协会儿科泌尿外科指南[7]为参考依据,分别对 ChatGPT 3.5 和 4.0 版本的诊疗相关问题答案进行评分,评估过程采用盲法,即评估医师对所评估的答案出自何种模型不知情。评估采用 0~5 分的评分标准,0 分代表“完全不符合”,5 分代表“完全符合”,3 分及以上的得分被认为是合格分数,每个问题答案的得分取 4 位评估者的平均分值作为最终结果。
② 对医患沟通相关问题答案的评价标准:由 2 位资深的临床心理科医师根据心理学常用量表[8-9]的评分规则设计了评价 ChatGPT 医患沟通相关问题答案的标准(表1)。评价标准分为 5 个维度:同理心和理解、沟通技巧、心理疏导技巧、压力应对技巧和资源、儿童发展和福利。每个部分包含 3~4 个问题,各计 5~10 分,总分为 100 分,得分大于 80 分被认为医患沟通能提供有效的心理支持建议。所有评价标准均通过了另外 2 位心理科医师的质量评估。由 2 位临床心理科医师根据表1 分别对 ChatGPT 3.5 和 4.0 版本的医患沟通相关问题答案独立评分。评估过程采取盲法,即评估医师对所评估的答案出自何种模型不知情。每个问题答案的得分取 2 位评估者的平均分值作为最终结果。

1.3 统计学方法
采用 SPSS 25.0 软件进行统计学分析。由于评估结果分值不符合正态分布,采用中位数(下四分位数,上四分位数)表示,ChatGPT 3.5 与 4.0 版本的评估结果比较使用 Wilcoxon 符号秩检验。双侧检验水准 α=0.05。
2 结果
2.1 ChatGPT 回答儿科诊疗相关问题的情况
对 ChatGPT 3.5 和 4.0 诊疗相关问题答案的评价结果显示,30 个问题答案得分均≥3 分。ChatGPT 3.5 的诊疗相关问题答案总分为 126.25 分;ChatGPT 4.0 的总分为 134.25。ChatGPT 3.5 的单个问题答案得分中位数(下四分位数,上四分位数)为 4.25(4.19,4.50)分,ChatGPT 4.0 的单个问题答案得分为 4.50(4.25,4.75)分,ChatGPT 3.5 与 4.0 单个问题答案得分的中位数差及 95%置信区间为 0.25(0.00,0.50)分,差异有统计学意义(P=0.024)。ChatGPT 3.5 和 ChatGPT 4.0 的诊疗相关问题答案中得分最高的均为 4.75 分;ChatGPT 3.5 的诊疗相关问题答案中得分最低的为 3 分;ChatGPT 4.0 得分最低的为 4 分。ChatGPT 得分最高分与最低分的儿科诊疗相关的具体问题见表2。

2.2 ChatGPT 回答医患沟通相关问题的情况
对 ChatGPT 3.5 和 4.0 的医患沟通相关问题答案的评价结果显示,10 个问题答案的得分均>80 分。ChatGPT 3.5 的单个问题答案得分中位数(下四分位数,上四分位数)为 93.25(92.13,94.38)分,ChatGPT 4.0 的单个问题答案得分为 94.00(93.63,94.38)分,ChatGPT 3.5 与 4.0 单个问题答案得分的中位数差及 95%置信区间为 0.75(−0.64,2.14)分,差异无统计学意义(P=0.727)。
3 讨论
本研究结果显示,ChatGPT 在辅助儿科诊疗方面具有一定的价值,特别是 ChatGPT 4.0 版本,在专业临床知识方面的准确性和可行性相较于 3.5 版本有所提升。这可能归因于 4.0 版本的模型优化和数据集更大,表明 AI 技术在医学领域,尤其是辅助疾病诊断和治疗中的潜在应用前景。然而,值得注意的是,尽管 ChatGPT 的答案质量总体上达到了合格标准,但仍不能完全替代医生的专业判断。深入分析 ChatGPT 得分最高分与最低分的儿科诊疗相关的具体问题,不难看出,对于预防、单一症状和疾病诊疗问题的处理上,ChatGPT 可以提供相对科学且符合临床思维的答案,但是对于涉及复杂病情诊断及治疗的问题,其给出的答案可能存在一定偏差,无足够可信度,有待进一步训练和纠正。因此,在实际应用中,ChatGPT 应被视为医生的辅助工具,而非完全依赖于 ChatGPT。此外,对于儿科医患沟通,ChatGPT 提供的答案能为患方提供较好的心理支持。这表明 ChatGPT 不仅能够辅助儿科医生进行诊疗,还能辅助其进行医患沟通,能够帮助医生为儿童及其家长提供心理支持。这一发现对于儿科医生来说具有重要意义,ChatGPT 或可帮助医生应对传统方法难以沟通的儿童及其家长。
总之,以 ChatGPT 为代表的 LLM 在临床决策支持中的应用展示了其潜在价值。LLM 的核心优势是其处理和生成大量信息的能力,这在处理复杂的医疗数据和提供基于证据的医疗建议方面尤为关键[10]。ChatGPT 的表现揭示了 LLM 在理解临床语境、处理专业医疗查询及生成准确医学建议方面的潜力。这种技术可以辅助医生快速获得相关信息,提高诊断的准确性和治疗规划的效率[11]。然而,需要指出的是,尽管 LLM 在信息处理方面的能力令人印象深刻,但在医疗决策中的应用仍存在挑战。首先,LLM 可能缺乏对医学知识深层次的理解和临床经验,这可能导致其在处理复杂或罕见病例时的局限性[12];其次,LLM 生成的建议可能缺乏个体化,不能完全考虑到患者的特定状况和需求[12]。因此,医生的专业判断在使用 LLM 进行医疗决策时仍不可或缺[13-14]。未来,随着 LLM 技术的持续发展和优化,结合更先进的自然语言处理技术和更丰富的医学知识库,其在精准医疗和个体化治疗规划中的应用前景将更加广阔[15-16]。同时,医疗界还需要探索如何有效整合 LLM 技术和医生的专业经验,以实现最佳的医疗决策支持[17-18]。此外,研究者和开发者需着重考虑医疗伦理和数据隐私保护,确保 LLM 在医疗决策中的应用既安全又符合伦理标准[18-19]。
本研究的主要局限性是样本量较小和评估方法存在一定的主观性。此外,由于 AI 模型的知识库更新较为滞后,尚存在时效性问题。未来研究应考虑扩大样本量,并探索更客观的评估方法。同时,随着 AI 技术的不断发展和优化,未来的研究还应关注 AI 模型处理最新医疗信息和指南的能力[17]。
综上所述,本研究初步表明 ChatGPT 在辅助儿科诊疗与医患沟通方面具有一定的价值。它不仅在提供临床专业知识方面表现出潜力,而且在儿科医患沟通中也显示了价值。尽管存在局限性,但 AI 技术在医疗领域尤其是儿科医疗中的应用前景仍然值得期待[19-20]。未来,随着 AI 技术的进一步发展和优化,其在提供全面且富有同理心的儿科护理方面的潜力有望得到进一步挖掘。然而,需要强调的是,ChatGPT 提供的医学建议并不能完全取代医生的专业判断和个人关怀,医生在使用 ChatGPT 辅助诊疗与医患沟通时仍需要保持自身的独立思考能力和批判性思维能力。
利益冲突:所有作者声明不存在利益冲突。
基于大语言模型(large language model, LLM)的生成式人工智能(artificial intelligence, AI)正在变革社会运作,尤其是在自然语言处理领域[1]。ChatGPT(Chat Generative Pre-trained Transformer)作为 LLM 的代表,其能生成流畅、语法正确的文本,已从概念产品发展为消费级应用[2]。在医疗领域,LLM 通过结合人类反馈的增强学习,展现了在临床决策支持方面的巨大潜力[3]。然而,尽管 LLM 在其他领域已取得了显著成就,其在医疗领域的应用仍处于起步阶段,尤其是在疾病诊断和治疗方面的具体贡献还有待探索。儿科疾病诊治复杂,儿童因认知和表达能力尚未成熟,难以准确描述症状,且常因恐惧或焦虑而对治疗产生抵触,影响诊断和治疗[4-5]。因此,儿科医生除了需要有丰富的医学知识,还需要具备与患儿及其家长沟通的能力[6]。本研究评估了 ChatGPT 用于儿科泌尿系统疾病诊疗与医患沟通的能力,旨在为未来 ChatGPT 辅助儿科医生进行儿科诊疗与医患沟通提供一定的参考依据。
1 对象与方法
1.1 研究对象
本研究选取了 ChatGPT 3.5 和 4.0 版本截至 2023 年 4 月的知识数据库。
1.2 研究方法
1.2.1 儿科诊疗与医患沟通相关问题的设计
① 诊疗相关问题:由 2 位资深的儿科泌尿系统疾病临床医师,参考欧洲泌尿外科协会儿科泌尿外科指南[7],整理并设计了 30 个针对儿科泌尿系统感染性疾病的临床问题,涉及诊断(包括检查)、治疗和预防等方面。所有问题的设计均经过高年资专业医师的严格审核与认定,以确保其合理性和临床相关性。
② 医患沟通相关问题:由 2 位资深临床心理科医师结合儿科医师的临床经历设计了 10 个儿科临床工作中可能遇到的医患沟通问题。这些问题涵盖了不同的临床场景,并由上述医师提供了相应的解决方案作为参考。
1.2.2 使用 ChatGPT 回答儿科诊疗与医患沟通相关问题
2023 年 10 月,作者之一(彭希琪)在美国加州大学戴维斯分校使用 ChatGPT 回答问题,即将前述的 40 个问题(30 个诊疗相关问题和 10 个医患沟通相关问题)分别提交给 ChatGPT 3.5 和 4.0 版本进行问答。为减少模型答案的偏差,本研究未采用“Custom Instructions”进行医学知识个体化设定。每个问题均通过“New Chat”功能进行独立提问,并重复 3 次以获取稳定结果。
1.2.3 对 ChatGPT 的答案进行评价
① 对诊疗相关问题答案的评价标准:由 4 位经验丰富的儿科泌尿系统疾病医师,以欧洲泌尿外科协会儿科泌尿外科指南[7]为参考依据,分别对 ChatGPT 3.5 和 4.0 版本的诊疗相关问题答案进行评分,评估过程采用盲法,即评估医师对所评估的答案出自何种模型不知情。评估采用 0~5 分的评分标准,0 分代表“完全不符合”,5 分代表“完全符合”,3 分及以上的得分被认为是合格分数,每个问题答案的得分取 4 位评估者的平均分值作为最终结果。
② 对医患沟通相关问题答案的评价标准:由 2 位资深的临床心理科医师根据心理学常用量表[8-9]的评分规则设计了评价 ChatGPT 医患沟通相关问题答案的标准(表1)。评价标准分为 5 个维度:同理心和理解、沟通技巧、心理疏导技巧、压力应对技巧和资源、儿童发展和福利。每个部分包含 3~4 个问题,各计 5~10 分,总分为 100 分,得分大于 80 分被认为医患沟通能提供有效的心理支持建议。所有评价标准均通过了另外 2 位心理科医师的质量评估。由 2 位临床心理科医师根据表1 分别对 ChatGPT 3.5 和 4.0 版本的医患沟通相关问题答案独立评分。评估过程采取盲法,即评估医师对所评估的答案出自何种模型不知情。每个问题答案的得分取 2 位评估者的平均分值作为最终结果。

1.3 统计学方法
采用 SPSS 25.0 软件进行统计学分析。由于评估结果分值不符合正态分布,采用中位数(下四分位数,上四分位数)表示,ChatGPT 3.5 与 4.0 版本的评估结果比较使用 Wilcoxon 符号秩检验。双侧检验水准 α=0.05。
2 结果
2.1 ChatGPT 回答儿科诊疗相关问题的情况
对 ChatGPT 3.5 和 4.0 诊疗相关问题答案的评价结果显示,30 个问题答案得分均≥3 分。ChatGPT 3.5 的诊疗相关问题答案总分为 126.25 分;ChatGPT 4.0 的总分为 134.25。ChatGPT 3.5 的单个问题答案得分中位数(下四分位数,上四分位数)为 4.25(4.19,4.50)分,ChatGPT 4.0 的单个问题答案得分为 4.50(4.25,4.75)分,ChatGPT 3.5 与 4.0 单个问题答案得分的中位数差及 95%置信区间为 0.25(0.00,0.50)分,差异有统计学意义(P=0.024)。ChatGPT 3.5 和 ChatGPT 4.0 的诊疗相关问题答案中得分最高的均为 4.75 分;ChatGPT 3.5 的诊疗相关问题答案中得分最低的为 3 分;ChatGPT 4.0 得分最低的为 4 分。ChatGPT 得分最高分与最低分的儿科诊疗相关的具体问题见表2。

2.2 ChatGPT 回答医患沟通相关问题的情况
对 ChatGPT 3.5 和 4.0 的医患沟通相关问题答案的评价结果显示,10 个问题答案的得分均>80 分。ChatGPT 3.5 的单个问题答案得分中位数(下四分位数,上四分位数)为 93.25(92.13,94.38)分,ChatGPT 4.0 的单个问题答案得分为 94.00(93.63,94.38)分,ChatGPT 3.5 与 4.0 单个问题答案得分的中位数差及 95%置信区间为 0.75(−0.64,2.14)分,差异无统计学意义(P=0.727)。
3 讨论
本研究结果显示,ChatGPT 在辅助儿科诊疗方面具有一定的价值,特别是 ChatGPT 4.0 版本,在专业临床知识方面的准确性和可行性相较于 3.5 版本有所提升。这可能归因于 4.0 版本的模型优化和数据集更大,表明 AI 技术在医学领域,尤其是辅助疾病诊断和治疗中的潜在应用前景。然而,值得注意的是,尽管 ChatGPT 的答案质量总体上达到了合格标准,但仍不能完全替代医生的专业判断。深入分析 ChatGPT 得分最高分与最低分的儿科诊疗相关的具体问题,不难看出,对于预防、单一症状和疾病诊疗问题的处理上,ChatGPT 可以提供相对科学且符合临床思维的答案,但是对于涉及复杂病情诊断及治疗的问题,其给出的答案可能存在一定偏差,无足够可信度,有待进一步训练和纠正。因此,在实际应用中,ChatGPT 应被视为医生的辅助工具,而非完全依赖于 ChatGPT。此外,对于儿科医患沟通,ChatGPT 提供的答案能为患方提供较好的心理支持。这表明 ChatGPT 不仅能够辅助儿科医生进行诊疗,还能辅助其进行医患沟通,能够帮助医生为儿童及其家长提供心理支持。这一发现对于儿科医生来说具有重要意义,ChatGPT 或可帮助医生应对传统方法难以沟通的儿童及其家长。
总之,以 ChatGPT 为代表的 LLM 在临床决策支持中的应用展示了其潜在价值。LLM 的核心优势是其处理和生成大量信息的能力,这在处理复杂的医疗数据和提供基于证据的医疗建议方面尤为关键[10]。ChatGPT 的表现揭示了 LLM 在理解临床语境、处理专业医疗查询及生成准确医学建议方面的潜力。这种技术可以辅助医生快速获得相关信息,提高诊断的准确性和治疗规划的效率[11]。然而,需要指出的是,尽管 LLM 在信息处理方面的能力令人印象深刻,但在医疗决策中的应用仍存在挑战。首先,LLM 可能缺乏对医学知识深层次的理解和临床经验,这可能导致其在处理复杂或罕见病例时的局限性[12];其次,LLM 生成的建议可能缺乏个体化,不能完全考虑到患者的特定状况和需求[12]。因此,医生的专业判断在使用 LLM 进行医疗决策时仍不可或缺[13-14]。未来,随着 LLM 技术的持续发展和优化,结合更先进的自然语言处理技术和更丰富的医学知识库,其在精准医疗和个体化治疗规划中的应用前景将更加广阔[15-16]。同时,医疗界还需要探索如何有效整合 LLM 技术和医生的专业经验,以实现最佳的医疗决策支持[17-18]。此外,研究者和开发者需着重考虑医疗伦理和数据隐私保护,确保 LLM 在医疗决策中的应用既安全又符合伦理标准[18-19]。
本研究的主要局限性是样本量较小和评估方法存在一定的主观性。此外,由于 AI 模型的知识库更新较为滞后,尚存在时效性问题。未来研究应考虑扩大样本量,并探索更客观的评估方法。同时,随着 AI 技术的不断发展和优化,未来的研究还应关注 AI 模型处理最新医疗信息和指南的能力[17]。
综上所述,本研究初步表明 ChatGPT 在辅助儿科诊疗与医患沟通方面具有一定的价值。它不仅在提供临床专业知识方面表现出潜力,而且在儿科医患沟通中也显示了价值。尽管存在局限性,但 AI 技术在医疗领域尤其是儿科医疗中的应用前景仍然值得期待[19-20]。未来,随着 AI 技术的进一步发展和优化,其在提供全面且富有同理心的儿科护理方面的潜力有望得到进一步挖掘。然而,需要强调的是,ChatGPT 提供的医学建议并不能完全取代医生的专业判断和个人关怀,医生在使用 ChatGPT 辅助诊疗与医患沟通时仍需要保持自身的独立思考能力和批判性思维能力。
利益冲突:所有作者声明不存在利益冲突。