肺癌术后肺部并发症(postoperative pulmonary complications,PPCs)风险预测模型能帮助医护人员识别患者PPCs概率,为临床医护人员快速决策提供依据。本文旨在评估和总结肺癌PPCs风险预测模型的研究现状,从模型类型、构建方法、模型性能、临床应用等方面分析其优势、不足与挑战,为今后模型开发、优化研究及临床应用提供参考借鉴。目前肺癌PPCs风险预测模型对PPCs的发生有一定的预测效能,但其在研究设计、临床应用及透明化报告等方面存在一定的不足。建议今后开展大样本、前瞻性和多中心研究,构建多组学预测模型,实现精准预测,促进临床转化应用与推广。
肺癌是全球最常见的恶性肿瘤,也是癌症患者死亡的主要原因,占全球癌症死亡人数的18.7%[1]。手术是非小细胞肺癌(Non-small cell lung cancer,NSCLC)Ⅰ~Ⅱ期及可切除Ⅲ期的首选治疗方法[2],但由于术中肺组织切除、术中损伤、麻醉、手术时间等原因,使肺癌术后肺部并发症(postoperative pulmonary complications,PPCs)发生率高达40%,导致患者肺功能下降[3-4]、重症监护病房(intensive care unit,ICU)入住率增加、住院时间延长、30 d再入院率增加和总生存率及长期生活质量降低[4-5]。因此,早期识别并筛选出肺癌PPCs高危患者,制定针对性预防干预措施是降低PPCs发生率的关键。而风险预测模型是以疾病的多风险因素为基础,按因素影响程度大小赋值,来预测某些可能存在的特定疾病以及病症(诊断模型)或未来将发生特定事件(预后模型)的概率或风险的一种评估方法[6],其在疾病诊断、预测不良结局(如死亡、并发症等)以及疾病严重程度分级等方面,能帮助医护人员识别患者疾病/事件风险发生概率,筛查出高危患者,进行快速临床决策、制定并实施针对性预防干预措施,以改善患者结局[7]。本文旨在评估和总结现有肺癌PPCs风险预测模型的研究现状,包括模型类型、构建方法、模型性能、临床应用等方面分析其优势、不足与挑战,提出优化与改进策略及未来的研究方向,为今后模型开发及临床运用提供参考借鉴。
1 肺癌术后肺部并发症的诊断标准
PPCs是肺癌术后最常见的并发症之一[8],但PPCs的定义暂不统一,尚缺乏统一的诊断金标准[9]。根据美国胸外科医师学会/欧洲胸外科医师学会(STS/ESTS)标准,PPCs包括肺不张、肺炎、急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)、机械通气>48 h、气胸且持续漏气>7 d、任何原因导致的再插管、气管切开、脓胸、乳糜胸及支气管胸膜漏[10]。欧洲围手术期临床结局(European Perioperative Clinical Outcome,EPCO)的标准则是符合以下任意一项即可诊断,包括肺部感染、呼吸衰竭、胸腔积液、肺不张、气胸、支气管痉挛及吸入性肺炎[11];围手术期医学标准化终点系统评价和共识(a systematic review and consensus definitions for standardized end-points in perioperative medicine,StEP)则推荐符合以下任意一项即可诊断:① 影像学提示肺不张;② 根据美国疾病控制中心标准诊断的肺炎;③ 柏林共识定义的ARDS;④ 有明确检查及病史的吸入性肺炎[12]。Clavien-Dindo分级系统则是基于术后并发症的严重程度以及是否需要治疗进行分级,在目前已发表的多数文献中,研究者多将PPCs分为Ⅰ~Ⅴ级,常以Ⅱ级为分界线,Ⅱ级并发症最常见[13-15],该系统的定义适用于多数术后并发症[16]。由此可见,由于PPCs定义不统一,将影响因变量测量的准确性,从而影响了模型预测和验证效果。因此,需制定统一的PPCs诊断标准以利于精准预测。
2 肺癌术后肺部并发症风险预测模型常见类型
肺癌PPCs风险预测模型多采用患者病史、病理学、术前实验室检查、肺功能检查、术中相关因素等作为自变量进行建模,建模方法主要包括传统建模方法(如logistic回归模型、列线图),POSSUM评分系统(Physiological and Operative Severity Score for the Umeration of Mortality and Morbidity,POSSUM)、机器学习(如随机森林、神经网络、决策树等)[17-18]。
2.1 传统建模方法
2.1.1 Logistic回归模型
Song等[19]纳入了2012—2019年间行胸腔镜手术的1 585例老年肺癌患者,通过LASSO筛选变量,构建了以性别、吸烟、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)病史、手术时间、白细胞计数、术中胶体输注和术中注射激素7个独立危险因素的logistic回归模型,在另两家医院进行了外部验证。该模型内部及外部验证敏感度和特异度分别为0.633、0.613及0.412、0.831,AUC为0.70和0.71,算法的X-截距和Y-截距都接近于0,提示拟合度较好。虽然该研究进行了多中心外部验证,但存在以下局限:因是回顾性收集数据,可能存在偏倚;未纳入淋巴细胞、组织学类型、病理分期、肺功能指标、基因分型等重要危险因素;纳入了2012—2019年期间的患者,时间跨度大,随着医疗水平和环境快速发展,不一定能反映目前的医疗环境。因此,该模型仍有待进一步优化。
2.1.2 列线图模型
Zhao等[20] 对2021—2022年854例接受肺叶切除术的老年肺癌患者构建列线图模型,logistic回归分析显示年龄、COPD、手术方法、手术时间、第一秒用力呼气容积(forced expiratory volume in one second,FEV1)和肺一氧化碳弥散量(diffusing capacity of the lungs for carbon monoxide,DLCO)是PPCs的独立预测因子,再通过列线图预测PPCs概率危险因素的重要性排序,结果表明,肺癌合并COPD的老年人(≥70岁),FEV1%和DLCO%预测值<80%,手术时间≥120 min是PPCs的重要危险因素;并使用其他中心数据进行外部验证,用10倍交叉验证模型的泛化性,AUC为0.839,敏感度为0.949,特异度为0.450;模型开发及外部验证AUC值分别为0.844、0.796,均体现出列线图的高分辨力;还结合了校准曲线和 Hosmer-Lemeshow检验来评估列线图的准确性,外部验证及预测性能的多重比较均表现出良好效果;此外,该模型还转化成了网页版计算器,通过输入相应指标,可预测PPCs风险。但该研究为回顾性研究,未纳入麻醉、治疗数据、实验室检查、影像学资料、基因分型等因素,且只针对老年患者,一定程度上影响了模型的外推性。
肺炎是最常见的肺癌PPCs类型之一[21]。Jin等[22]纳入了2019—2020年1 252例肺癌手术患者,用LASSO回归筛选变量,根据术后肺炎的独立危险因素和临床重要因素构建了肺癌术后肺炎列线图模型,结果显示,糖尿病、术前化疗、开胸手术、美国麻醉医师协会(American Society of Anaesthesiologists,ASA)分级、手术持续时间等5个因素与术后肺炎相关。此外,虽在多因素分析中,吸烟无统计学意义,但吸烟是术后肺炎的重要危险因素,且其LASSO回归系数更大,研究者将吸烟纳入了列线图模型。模型训练集与验证集校正的C指数分别为0.710、0.709,拟合优度检验均>0.05。同时,校准曲线在预测结果和实际情况分别表现出良好的一致性。该研究用LASSO回归筛选变量,有效地避免了过拟合,使模型更精细[23],还从多角度评估模型特征并选择最优模型,有助于推广和应用。但该研究为单中心回顾性研究,未纳入术后肺炎的某些重要因素,如术后疼痛、雾化吸入等,未进行外部验证,其适用性和预测性能还需进一步验证。
2.2 POSSUM评分系统
Copeland等[24]于1991年构建了POSSUM评分系统,包含12项术前指标及6项术中指标,每项指标赋值1、2、4、8分,通过计算评分来预测术后并发症发生率和死亡率。但Whiteley等[25]发现,应用原始POSSUM方程,总体死亡率被高估了2倍。因此,部分研究者根据疾病特点对该系统进行优化,形成了改良POSSUM评分系统[26-27]。许川等[28]通过多元回归分析后对指标赋值,构建了基于改良POSSUM评分系统预测模型,该模型的特异性为0.978,敏感度为0.896,预测效果较好,模型临界值为0.135时,提示患者大概率会发生PPCs,提醒医务人员需做好应对工作。但该研究为单中心研究,样本量较小,未纳入DLCO、呼吸峰值流速(peak expiratory flow,PEF)、影像学检查、基因分型及白细胞计数等重要指标,未进行外部验证,未提及是否应用于临床,模型的性能、预测价值及结果外推性仍有待验证。
杨福耀[29]将改良POSSUM评分与Clavien-Dindo分级联合应用,将年龄、体重指数(body mass index,BMI)、第一秒用力呼气容积占用力肺活量预计值百分比(forced expiratory volume in one second/forced vital capacity,FEV1/FVC)、吸烟指数、手术时间、手术方式等6个PPCs的独立因素纳入改良POSSUM评分系统,结果表明,AUC>0.5,证明改良POSSUM评分系统联合Clavien-Dindo分级应用的可行性,并预测PPCs的发生率,Ⅰ级(非严重并发症)发生率为43.1%,Ⅱ~Ⅴ级(严重并发症)发生率为56.9%。该研究结合两种并发症定义,有效避免POSSUM评分系统只能预测PPCs的发生率,而不能预测其严重程度的问题。但该研究只针对≥70岁患者,队列样本量差异较大,可能会影响人群推广性及预测结果;且仅用AUC来分析其性能,未分析精确度、特异度等指标,未解释外部验证数据,模型预测效能还有待进一步探讨。
2.3 机器学习模型
机器学习具有一套强大的算法,包括决策树、随机森林(random forest,RF)、K近邻算法(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、神经网络(neural network,NN)等方法,可对数据进行描述、学习、分析和预测等[30-31]。常多种方法联合使用,找出最优模型。
2.3.1 决策树模型
王新等[32]回顾性分析了2017—2020年352例胸腔镜手术肺癌患者的临床资料,分别建立决策树模型及logistic回归模型。结果显示,年龄、糖尿病、COPD是两种模型筛出的相同危险因素,两者AUC相近。其中,决策树AUC、灵敏度、特异度分别为0.868、0.796及0.785,提示模型预测效果较好。决策树模型预测有COPD的肺癌患者PPCs发生率约为35%,而同时患有COPD及糖尿病的肺癌患者PPCs风险增至78.6%。决策树模型可有效展示各变量之间的交互作用[33],而logistic回归模型可展示各危险因素之间的相对危险程度,但该研究未纳入重要的实验室和肺功能指标,不能全面预测PPCs的风险;决策树易出现过拟合现象,该研究的样本量较少可能导致结果偏差[34]。因此,模型预测效能还有待进一步探讨。
2.3.2 多种机械学习模型联合预测
Jin等[35]分析了2007—2015年非小细胞肺癌伴主支气管浸润及完全性阻塞性肺炎/肺不张的26 833例患者资料,采用RF、KNN、XGBoost、SVM等6种机器学习模型来预测该类患者5年生存率。结果显示,AUC分别为0.814和0.853,XGBoost模型在两组人群中均最佳。该研究在预测模型的基础上建立了网络应用程序,用户输入自身临床特征,即可预测生存概率和生存状态。虽然该研究针对术后生存率,而非PPCs,但可借鉴其研究思路来预测PPCs,并进行临床转化。但该研究仍有一定的局限:未纳入具有重要诊断价值的部分肿瘤标志物和血液指标;缺乏详细的治疗方案信息,如免疫治疗和靶向治疗等;数据库为10年前,为回顾性分析,存在一定偏倚,不一定适用于目前的医疗环境。因此,有必要开展前瞻性研究及外部验证明确是否适用现阶段临床发展。
Zhou等[18]回顾性分析BioStudies医学数据库中905名接受胸腔镜手术的患者资料,利用决策树、RF、KNN、卷积神经网络(convolutional neural network,CNN)等16种算法构建预测模型并进行内部验证。结果显示,PPCs的主要预测因素有单肺通气时间、吸烟史、手术时间、ASA评分和血糖。其中,修剪贝叶斯神经网络(pruning Bayesian neural network,PBNN)对PPCs预测方面优于其他算法,其AUC、准确性、精确度、特异度分别为0.869、0.820、0.627及0.914。虽然该研究对PPCs预测效果较好,但存在以下问题:一是未分析PPCs发生率;二是未公开数据代码,影响其可重复性;三是回顾性研究且未收集实验室检查指标、影像学检查、基因分型及治疗情况,未说明缺失值及其处理方法,可能导致模型预测偏倚和发生过拟合现象。因此,模型预测效能还有待进一步探讨。
综上所述,目前常见的PPCs风险预测模型的纳入变量差异性较大,有较多研究实验室指标和肺功能指标纳入不全,未纳入影像组学、基因组学等变量,一定程度上可能影响预测效能。
3 影像组学预测模型
影像组学通过分析肺部影像数据,如基础形态、微妙的纹理特征及复杂的高维特征[36],可能在预测肺癌PPCs方面有一定的潜力,但目前暂无影像组学结合机器学习方法开展肺癌PPCs预测模型的研究。
Tane等[37]纳入了2013—2018年471例术前接受肺活量测定和计算机断层扫描并接受胸腔镜肺叶切除术的肺癌患者,构建了肺气肿聚类分析的D值预测PPCs风险预测模型。D值是评估肺部结构质量的指标之一,也是低衰减区(percentage of low attenuation area,LAA%)分布在对数-对数图上绘制时遵循近似的直线,被认为是一个幂律,这种分布的斜率,可随着肺气肿的进展趋于平缓[37]。该模型的AUC值为0.72,PPCs发生率为12.9%,并发现D值与肺癌PPCs的关系明显强于其他危险因素,说明代表肺泡结构复杂程度的D值是PPCs的有力预测指标,但该检查并不属于常规检查,临床实施难度较大;且研究未纳入重要肺功能指标DLCO,无法确定两者哪个预测效果更好;纳入数据时间跨度较大,易因手术技术及条件等因素产生偏倚,影响预测效果;且该研究为单中心研究,样本量较小,需进一步开展多中心大样本研究。
Li等[38]回顾性分析了2019—2021年进行手术并在24 h内行胸部X线检查的243例患者资料。使用肺水肿放射学评估评分(Radiographic Assessment of Lung Edema score,RALE)和胸部X线评分系统(被命名为Brixia评分)来预测急性低氧血症性呼吸衰竭,分别评价两者的预测效果。RALE评分根据每张胸部X线片被划分为4个象限,实变评分代表每个象限内肺泡混浊程度(0:无,1:<25%,2:25%~49%,3:50%~75%,4:>75%);此外,密度评分表示整体混浊密度(1=朦胧,2=中等,3=密集)。RALE评分范围从0(无浸润)到48(每个象限超过75%的肺实变)。Brixia评分将胸部X线片的AP或PA切面分为6个区域,根据肺部异常的特征和程度进行评分:0~3分,总分为18分。该研究采用倾向性评分匹配,结果显示,匹配后RALE评分预测效果更好,其AUC、准确度、精确度及特异度分别为0.710、0.811、0.632及0.912。该研究有以下优点:(1)通过两种胸部X线片评分系统对比,使用倾向性评分匹配方法,防止数据偏差和混杂变量的影响,减少了两组之间协变量的不平衡[39],使两者更有比较意义;(2)该研究使用模型报告清单进行研究设计和文章书写[40],保证了研究的透明度和质量。但该研究未进行前瞻性验证,未说明样本量的估算方法,样本量较小,可能导致结果偏差,后期仍需探讨该模型的临床适用性。
各模型优缺点见表1。

4 肺癌术后肺部并发症风险预测模型研究趋势及启示
4.1 模型数据集需标准化,需开展大样本、多中心、多组学肺癌术后肺部并发症预测模型构建研究
开发标准化、有代表性的数据集,对后期预测模型精准有效服务目标人群至关重要[41]。目前肺癌PPCs预测模型研究多使用单中心的患者数据,均为回顾性研究,暂无前瞻性研究。回顾性研究虽可方便快捷地提取临床资料,但存在临床数据缺失值较多和不能保证数据同质性等问题,从而影响模型的预测效果。前瞻性研究可有效避免以上问题,能真实反映临床环境,保证数据完整、真实、可靠及同质化。
此外,PPCs定义不同也会导致变量差异,有必要统一PPCs的诊断标准,并对PPCs的严重程度进行分层。如Zhao等[20]使用EPCO的PPCs诊断标准,结合Clavien-Dindo分级系统,有利于医护人员把控PPCs针对性预防强度,对减少PPCs的发生至关重要。纳入变量类型、分析数据等差异也会严重影响研究结果,不同研究纳入的危险因素不同,每个危险因素在PPCs发挥的作用也不明确。目前大部分PPCs预测模型的研究忽略了影像组学变量,暂无研究使用基因组学、蛋白组学、代谢组学等变量,很少有研究考虑患者治疗方法、生活方式改变等变量对PPCs的影响。此外,不同研究多建立了自己的数据集,可能会造成数据、时间、经费等资源的浪费。
建议今后开展前瞻性、多中心、大样本研究,增加影像组学、基因组学、蛋白组学、代谢组学等指标,参照美国国家癌症数据库(National Cancer Database,NCDB)等,形成全国多中心、标准化、可视化、信息化及实用化的围手术期肺癌专属数据库[42],实现数据共通、共建、共享。此外,还可探索如何将大型专病数据库、医院数据系统、国家临床中心数据库等数据库的无缝隙连接,自动提取、分析数据。建议通过循证、专家咨询或专家会议等方法,充分纳入潜在的危险因素变量,或在以上大数据的基础上,开展多组学预测模型研究,以确保数据全面、可靠、科学,实现精准预测。而面临的挑战是如何保证数据一致性、安全性、科学性和实时性,怎么提高模型的可解释性和透明度等。
4.2 肺癌术后肺部并发症风险预测模型需与人工智能及临床应用相结合
肺癌PPCs风险预测模型的建模方法多采用传统logistic回归模型、列线图等。随着大数据、机器学习和人工智能的发展,这些技术已成为疾病风险预测模型领域的研究热点,但其在肺癌PPCs风险预测中仍处于初始阶段。未来可结合上述技术构建模型,并比较其性能,以确定PPCs最优模型;也可使用多种模型,进行优势互补,以达到预测最佳效果。
目前,实际应用于临床的PPCs风险预测模型较少。主要的原因有:(1)大多数研究仅进行了内部验证,开展外部验证研究较少,影响了研究质量和模型外推性[43],从而影响了临床实用价值[22, 35, 37, 44]。(2)各预测模型所纳入变量差异性较大,有的较为复杂。且部分研究未开发方便实用的应用程序或预测系统,未与医院HIS系统连接,不能自动识别。医务人员工作繁忙,如果预测模型复杂或需要手动输入相关参数,势必会增加医务人员负担,使预测模型难以在临床使用,成为研究与实践的鸿沟。由于基于智能计算、机器学习及可在线访问的风险预测模型将成为大趋势,线上程序在未来有更广阔的开发空间。未来可将模型进一步优化并简洁化,转化开发医院HIS系统的自动识别并自动输出结果的预测系统,以便快速、科学高效、提前预警风险人群,从而实现预测模型的临床转化及应用。上述系统将帮助医务人员快速决策,及时制定针对性预防干预措施,减轻患者痛苦,促进康复,减少临床工作量,提高医护人员临床工作质量。
4.3 规范并优化风险预测模型构建及验证过程,报告需透明化
尽管国际上已发布风险预测模型研究规范性报告声明(Transparent Reporting of a multivariable model for Individual Prognosis Or Diagnosis,TRIPOD)[7, 40]和风险预测模型研究偏倚风险评估工具[6, 45],但目前仅2个研究[20, 38]使用TRIPOD清单进行报告。大多数研究的模型构建及验证过程仍存在一定问题:报告欠透明化,使读者不明确模型构建及验证过程和方法学,如较少研究估计样本量,而充分的样本量能保证预测变量与结局之间关联的稳健性[46-47];多数研究未曾提及缺失值处理;部分研究模型性能检测指标评估不完整,仅报告了模型的AUC值,未报告准确度、敏感度、特异度等指标,增加了模型预测效果的不确定性,可能会导致读者无法判断模型效能[29, 37];仅少数研究进行外部验证,影响了研究质量和模型的实用价值[22, 35, 37, 44]。此外,还应描述目标人群接受干预治疗的具体细节,包括基线或出院随访时接受的任何治疗及干预措施等[35, 37],因为这些干预措施也可能会改变结局,从而影响预测模型的准确性。
因此,建议今后的研究参考预测模型报告清单[7],特别是最新发表的TRIPOD+AI清单[7]或风险预测模型研究偏倚风险评估工具[6, 45]来规范并优化风险预测模型的构建与验证过程,开展严谨的科研设计,提高模型的可解释性和透明度,以确保模型的可重复性、严谨性及稳健性。
5 小结
综上所述,目前肺癌PPCs风险预测模型对PPCs的发生有一定的预测效能,机器学习和人工智能是近年研究的发展趋势。但其研究设计、模型评价、模型验证、临床应用及透明化报告等方面存在一定的不足。由于本文为叙述性综述,未评价各研究质量,仅总结了研究存在的不足,可能存在一定的局限性。建议今后开展系统评价,进行定量合成,评价目前模型的预测效能及研究质量。此外,建议今后建立标准化的数据集,开展前瞻性、多中心、大样本研究,构建并优化多组学预测模型,以确保数据全面、可靠、科学,实现精准预测;重视模型预测性能的评价和外部验证,提高模型的预测效能、稳定性和可推广性;开发自动识别肺癌PPCs高风险患者的预警系统,实现预测模型的临床转化及应用;应用TRIPOD+AI清单进行透明化研究报告,并采取有效措施促进预测模型的临床推广与应用,帮助医护人员快速精准决策,制定并实施针对性预防干预措施,改善患者结局,提高医疗护理质量。
利益冲突:无。
作者贡献:邓婷、宋佳美、谌绍林确立选题、设计研究及终审文章;李金、吴晓燕、吴俐姗收集、分析、总结资料;邓婷、宋佳美撰写文章初稿;李金、吴晓燕、吴俐姗及谌绍林提出修改意见,解答专家意见并审阅文章。
肺癌是全球最常见的恶性肿瘤,也是癌症患者死亡的主要原因,占全球癌症死亡人数的18.7%[1]。手术是非小细胞肺癌(Non-small cell lung cancer,NSCLC)Ⅰ~Ⅱ期及可切除Ⅲ期的首选治疗方法[2],但由于术中肺组织切除、术中损伤、麻醉、手术时间等原因,使肺癌术后肺部并发症(postoperative pulmonary complications,PPCs)发生率高达40%,导致患者肺功能下降[3-4]、重症监护病房(intensive care unit,ICU)入住率增加、住院时间延长、30 d再入院率增加和总生存率及长期生活质量降低[4-5]。因此,早期识别并筛选出肺癌PPCs高危患者,制定针对性预防干预措施是降低PPCs发生率的关键。而风险预测模型是以疾病的多风险因素为基础,按因素影响程度大小赋值,来预测某些可能存在的特定疾病以及病症(诊断模型)或未来将发生特定事件(预后模型)的概率或风险的一种评估方法[6],其在疾病诊断、预测不良结局(如死亡、并发症等)以及疾病严重程度分级等方面,能帮助医护人员识别患者疾病/事件风险发生概率,筛查出高危患者,进行快速临床决策、制定并实施针对性预防干预措施,以改善患者结局[7]。本文旨在评估和总结现有肺癌PPCs风险预测模型的研究现状,包括模型类型、构建方法、模型性能、临床应用等方面分析其优势、不足与挑战,提出优化与改进策略及未来的研究方向,为今后模型开发及临床运用提供参考借鉴。
1 肺癌术后肺部并发症的诊断标准
PPCs是肺癌术后最常见的并发症之一[8],但PPCs的定义暂不统一,尚缺乏统一的诊断金标准[9]。根据美国胸外科医师学会/欧洲胸外科医师学会(STS/ESTS)标准,PPCs包括肺不张、肺炎、急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)、机械通气>48 h、气胸且持续漏气>7 d、任何原因导致的再插管、气管切开、脓胸、乳糜胸及支气管胸膜漏[10]。欧洲围手术期临床结局(European Perioperative Clinical Outcome,EPCO)的标准则是符合以下任意一项即可诊断,包括肺部感染、呼吸衰竭、胸腔积液、肺不张、气胸、支气管痉挛及吸入性肺炎[11];围手术期医学标准化终点系统评价和共识(a systematic review and consensus definitions for standardized end-points in perioperative medicine,StEP)则推荐符合以下任意一项即可诊断:① 影像学提示肺不张;② 根据美国疾病控制中心标准诊断的肺炎;③ 柏林共识定义的ARDS;④ 有明确检查及病史的吸入性肺炎[12]。Clavien-Dindo分级系统则是基于术后并发症的严重程度以及是否需要治疗进行分级,在目前已发表的多数文献中,研究者多将PPCs分为Ⅰ~Ⅴ级,常以Ⅱ级为分界线,Ⅱ级并发症最常见[13-15],该系统的定义适用于多数术后并发症[16]。由此可见,由于PPCs定义不统一,将影响因变量测量的准确性,从而影响了模型预测和验证效果。因此,需制定统一的PPCs诊断标准以利于精准预测。
2 肺癌术后肺部并发症风险预测模型常见类型
肺癌PPCs风险预测模型多采用患者病史、病理学、术前实验室检查、肺功能检查、术中相关因素等作为自变量进行建模,建模方法主要包括传统建模方法(如logistic回归模型、列线图),POSSUM评分系统(Physiological and Operative Severity Score for the Umeration of Mortality and Morbidity,POSSUM)、机器学习(如随机森林、神经网络、决策树等)[17-18]。
2.1 传统建模方法
2.1.1 Logistic回归模型
Song等[19]纳入了2012—2019年间行胸腔镜手术的1 585例老年肺癌患者,通过LASSO筛选变量,构建了以性别、吸烟、慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)病史、手术时间、白细胞计数、术中胶体输注和术中注射激素7个独立危险因素的logistic回归模型,在另两家医院进行了外部验证。该模型内部及外部验证敏感度和特异度分别为0.633、0.613及0.412、0.831,AUC为0.70和0.71,算法的X-截距和Y-截距都接近于0,提示拟合度较好。虽然该研究进行了多中心外部验证,但存在以下局限:因是回顾性收集数据,可能存在偏倚;未纳入淋巴细胞、组织学类型、病理分期、肺功能指标、基因分型等重要危险因素;纳入了2012—2019年期间的患者,时间跨度大,随着医疗水平和环境快速发展,不一定能反映目前的医疗环境。因此,该模型仍有待进一步优化。
2.1.2 列线图模型
Zhao等[20] 对2021—2022年854例接受肺叶切除术的老年肺癌患者构建列线图模型,logistic回归分析显示年龄、COPD、手术方法、手术时间、第一秒用力呼气容积(forced expiratory volume in one second,FEV1)和肺一氧化碳弥散量(diffusing capacity of the lungs for carbon monoxide,DLCO)是PPCs的独立预测因子,再通过列线图预测PPCs概率危险因素的重要性排序,结果表明,肺癌合并COPD的老年人(≥70岁),FEV1%和DLCO%预测值<80%,手术时间≥120 min是PPCs的重要危险因素;并使用其他中心数据进行外部验证,用10倍交叉验证模型的泛化性,AUC为0.839,敏感度为0.949,特异度为0.450;模型开发及外部验证AUC值分别为0.844、0.796,均体现出列线图的高分辨力;还结合了校准曲线和 Hosmer-Lemeshow检验来评估列线图的准确性,外部验证及预测性能的多重比较均表现出良好效果;此外,该模型还转化成了网页版计算器,通过输入相应指标,可预测PPCs风险。但该研究为回顾性研究,未纳入麻醉、治疗数据、实验室检查、影像学资料、基因分型等因素,且只针对老年患者,一定程度上影响了模型的外推性。
肺炎是最常见的肺癌PPCs类型之一[21]。Jin等[22]纳入了2019—2020年1 252例肺癌手术患者,用LASSO回归筛选变量,根据术后肺炎的独立危险因素和临床重要因素构建了肺癌术后肺炎列线图模型,结果显示,糖尿病、术前化疗、开胸手术、美国麻醉医师协会(American Society of Anaesthesiologists,ASA)分级、手术持续时间等5个因素与术后肺炎相关。此外,虽在多因素分析中,吸烟无统计学意义,但吸烟是术后肺炎的重要危险因素,且其LASSO回归系数更大,研究者将吸烟纳入了列线图模型。模型训练集与验证集校正的C指数分别为0.710、0.709,拟合优度检验均>0.05。同时,校准曲线在预测结果和实际情况分别表现出良好的一致性。该研究用LASSO回归筛选变量,有效地避免了过拟合,使模型更精细[23],还从多角度评估模型特征并选择最优模型,有助于推广和应用。但该研究为单中心回顾性研究,未纳入术后肺炎的某些重要因素,如术后疼痛、雾化吸入等,未进行外部验证,其适用性和预测性能还需进一步验证。
2.2 POSSUM评分系统
Copeland等[24]于1991年构建了POSSUM评分系统,包含12项术前指标及6项术中指标,每项指标赋值1、2、4、8分,通过计算评分来预测术后并发症发生率和死亡率。但Whiteley等[25]发现,应用原始POSSUM方程,总体死亡率被高估了2倍。因此,部分研究者根据疾病特点对该系统进行优化,形成了改良POSSUM评分系统[26-27]。许川等[28]通过多元回归分析后对指标赋值,构建了基于改良POSSUM评分系统预测模型,该模型的特异性为0.978,敏感度为0.896,预测效果较好,模型临界值为0.135时,提示患者大概率会发生PPCs,提醒医务人员需做好应对工作。但该研究为单中心研究,样本量较小,未纳入DLCO、呼吸峰值流速(peak expiratory flow,PEF)、影像学检查、基因分型及白细胞计数等重要指标,未进行外部验证,未提及是否应用于临床,模型的性能、预测价值及结果外推性仍有待验证。
杨福耀[29]将改良POSSUM评分与Clavien-Dindo分级联合应用,将年龄、体重指数(body mass index,BMI)、第一秒用力呼气容积占用力肺活量预计值百分比(forced expiratory volume in one second/forced vital capacity,FEV1/FVC)、吸烟指数、手术时间、手术方式等6个PPCs的独立因素纳入改良POSSUM评分系统,结果表明,AUC>0.5,证明改良POSSUM评分系统联合Clavien-Dindo分级应用的可行性,并预测PPCs的发生率,Ⅰ级(非严重并发症)发生率为43.1%,Ⅱ~Ⅴ级(严重并发症)发生率为56.9%。该研究结合两种并发症定义,有效避免POSSUM评分系统只能预测PPCs的发生率,而不能预测其严重程度的问题。但该研究只针对≥70岁患者,队列样本量差异较大,可能会影响人群推广性及预测结果;且仅用AUC来分析其性能,未分析精确度、特异度等指标,未解释外部验证数据,模型预测效能还有待进一步探讨。
2.3 机器学习模型
机器学习具有一套强大的算法,包括决策树、随机森林(random forest,RF)、K近邻算法(K-nearest neighbor,KNN)、支持向量机(support vector machine,SVM)、神经网络(neural network,NN)等方法,可对数据进行描述、学习、分析和预测等[30-31]。常多种方法联合使用,找出最优模型。
2.3.1 决策树模型
王新等[32]回顾性分析了2017—2020年352例胸腔镜手术肺癌患者的临床资料,分别建立决策树模型及logistic回归模型。结果显示,年龄、糖尿病、COPD是两种模型筛出的相同危险因素,两者AUC相近。其中,决策树AUC、灵敏度、特异度分别为0.868、0.796及0.785,提示模型预测效果较好。决策树模型预测有COPD的肺癌患者PPCs发生率约为35%,而同时患有COPD及糖尿病的肺癌患者PPCs风险增至78.6%。决策树模型可有效展示各变量之间的交互作用[33],而logistic回归模型可展示各危险因素之间的相对危险程度,但该研究未纳入重要的实验室和肺功能指标,不能全面预测PPCs的风险;决策树易出现过拟合现象,该研究的样本量较少可能导致结果偏差[34]。因此,模型预测效能还有待进一步探讨。
2.3.2 多种机械学习模型联合预测
Jin等[35]分析了2007—2015年非小细胞肺癌伴主支气管浸润及完全性阻塞性肺炎/肺不张的26 833例患者资料,采用RF、KNN、XGBoost、SVM等6种机器学习模型来预测该类患者5年生存率。结果显示,AUC分别为0.814和0.853,XGBoost模型在两组人群中均最佳。该研究在预测模型的基础上建立了网络应用程序,用户输入自身临床特征,即可预测生存概率和生存状态。虽然该研究针对术后生存率,而非PPCs,但可借鉴其研究思路来预测PPCs,并进行临床转化。但该研究仍有一定的局限:未纳入具有重要诊断价值的部分肿瘤标志物和血液指标;缺乏详细的治疗方案信息,如免疫治疗和靶向治疗等;数据库为10年前,为回顾性分析,存在一定偏倚,不一定适用于目前的医疗环境。因此,有必要开展前瞻性研究及外部验证明确是否适用现阶段临床发展。
Zhou等[18]回顾性分析BioStudies医学数据库中905名接受胸腔镜手术的患者资料,利用决策树、RF、KNN、卷积神经网络(convolutional neural network,CNN)等16种算法构建预测模型并进行内部验证。结果显示,PPCs的主要预测因素有单肺通气时间、吸烟史、手术时间、ASA评分和血糖。其中,修剪贝叶斯神经网络(pruning Bayesian neural network,PBNN)对PPCs预测方面优于其他算法,其AUC、准确性、精确度、特异度分别为0.869、0.820、0.627及0.914。虽然该研究对PPCs预测效果较好,但存在以下问题:一是未分析PPCs发生率;二是未公开数据代码,影响其可重复性;三是回顾性研究且未收集实验室检查指标、影像学检查、基因分型及治疗情况,未说明缺失值及其处理方法,可能导致模型预测偏倚和发生过拟合现象。因此,模型预测效能还有待进一步探讨。
综上所述,目前常见的PPCs风险预测模型的纳入变量差异性较大,有较多研究实验室指标和肺功能指标纳入不全,未纳入影像组学、基因组学等变量,一定程度上可能影响预测效能。
3 影像组学预测模型
影像组学通过分析肺部影像数据,如基础形态、微妙的纹理特征及复杂的高维特征[36],可能在预测肺癌PPCs方面有一定的潜力,但目前暂无影像组学结合机器学习方法开展肺癌PPCs预测模型的研究。
Tane等[37]纳入了2013—2018年471例术前接受肺活量测定和计算机断层扫描并接受胸腔镜肺叶切除术的肺癌患者,构建了肺气肿聚类分析的D值预测PPCs风险预测模型。D值是评估肺部结构质量的指标之一,也是低衰减区(percentage of low attenuation area,LAA%)分布在对数-对数图上绘制时遵循近似的直线,被认为是一个幂律,这种分布的斜率,可随着肺气肿的进展趋于平缓[37]。该模型的AUC值为0.72,PPCs发生率为12.9%,并发现D值与肺癌PPCs的关系明显强于其他危险因素,说明代表肺泡结构复杂程度的D值是PPCs的有力预测指标,但该检查并不属于常规检查,临床实施难度较大;且研究未纳入重要肺功能指标DLCO,无法确定两者哪个预测效果更好;纳入数据时间跨度较大,易因手术技术及条件等因素产生偏倚,影响预测效果;且该研究为单中心研究,样本量较小,需进一步开展多中心大样本研究。
Li等[38]回顾性分析了2019—2021年进行手术并在24 h内行胸部X线检查的243例患者资料。使用肺水肿放射学评估评分(Radiographic Assessment of Lung Edema score,RALE)和胸部X线评分系统(被命名为Brixia评分)来预测急性低氧血症性呼吸衰竭,分别评价两者的预测效果。RALE评分根据每张胸部X线片被划分为4个象限,实变评分代表每个象限内肺泡混浊程度(0:无,1:<25%,2:25%~49%,3:50%~75%,4:>75%);此外,密度评分表示整体混浊密度(1=朦胧,2=中等,3=密集)。RALE评分范围从0(无浸润)到48(每个象限超过75%的肺实变)。Brixia评分将胸部X线片的AP或PA切面分为6个区域,根据肺部异常的特征和程度进行评分:0~3分,总分为18分。该研究采用倾向性评分匹配,结果显示,匹配后RALE评分预测效果更好,其AUC、准确度、精确度及特异度分别为0.710、0.811、0.632及0.912。该研究有以下优点:(1)通过两种胸部X线片评分系统对比,使用倾向性评分匹配方法,防止数据偏差和混杂变量的影响,减少了两组之间协变量的不平衡[39],使两者更有比较意义;(2)该研究使用模型报告清单进行研究设计和文章书写[40],保证了研究的透明度和质量。但该研究未进行前瞻性验证,未说明样本量的估算方法,样本量较小,可能导致结果偏差,后期仍需探讨该模型的临床适用性。
各模型优缺点见表1。

4 肺癌术后肺部并发症风险预测模型研究趋势及启示
4.1 模型数据集需标准化,需开展大样本、多中心、多组学肺癌术后肺部并发症预测模型构建研究
开发标准化、有代表性的数据集,对后期预测模型精准有效服务目标人群至关重要[41]。目前肺癌PPCs预测模型研究多使用单中心的患者数据,均为回顾性研究,暂无前瞻性研究。回顾性研究虽可方便快捷地提取临床资料,但存在临床数据缺失值较多和不能保证数据同质性等问题,从而影响模型的预测效果。前瞻性研究可有效避免以上问题,能真实反映临床环境,保证数据完整、真实、可靠及同质化。
此外,PPCs定义不同也会导致变量差异,有必要统一PPCs的诊断标准,并对PPCs的严重程度进行分层。如Zhao等[20]使用EPCO的PPCs诊断标准,结合Clavien-Dindo分级系统,有利于医护人员把控PPCs针对性预防强度,对减少PPCs的发生至关重要。纳入变量类型、分析数据等差异也会严重影响研究结果,不同研究纳入的危险因素不同,每个危险因素在PPCs发挥的作用也不明确。目前大部分PPCs预测模型的研究忽略了影像组学变量,暂无研究使用基因组学、蛋白组学、代谢组学等变量,很少有研究考虑患者治疗方法、生活方式改变等变量对PPCs的影响。此外,不同研究多建立了自己的数据集,可能会造成数据、时间、经费等资源的浪费。
建议今后开展前瞻性、多中心、大样本研究,增加影像组学、基因组学、蛋白组学、代谢组学等指标,参照美国国家癌症数据库(National Cancer Database,NCDB)等,形成全国多中心、标准化、可视化、信息化及实用化的围手术期肺癌专属数据库[42],实现数据共通、共建、共享。此外,还可探索如何将大型专病数据库、医院数据系统、国家临床中心数据库等数据库的无缝隙连接,自动提取、分析数据。建议通过循证、专家咨询或专家会议等方法,充分纳入潜在的危险因素变量,或在以上大数据的基础上,开展多组学预测模型研究,以确保数据全面、可靠、科学,实现精准预测。而面临的挑战是如何保证数据一致性、安全性、科学性和实时性,怎么提高模型的可解释性和透明度等。
4.2 肺癌术后肺部并发症风险预测模型需与人工智能及临床应用相结合
肺癌PPCs风险预测模型的建模方法多采用传统logistic回归模型、列线图等。随着大数据、机器学习和人工智能的发展,这些技术已成为疾病风险预测模型领域的研究热点,但其在肺癌PPCs风险预测中仍处于初始阶段。未来可结合上述技术构建模型,并比较其性能,以确定PPCs最优模型;也可使用多种模型,进行优势互补,以达到预测最佳效果。
目前,实际应用于临床的PPCs风险预测模型较少。主要的原因有:(1)大多数研究仅进行了内部验证,开展外部验证研究较少,影响了研究质量和模型外推性[43],从而影响了临床实用价值[22, 35, 37, 44]。(2)各预测模型所纳入变量差异性较大,有的较为复杂。且部分研究未开发方便实用的应用程序或预测系统,未与医院HIS系统连接,不能自动识别。医务人员工作繁忙,如果预测模型复杂或需要手动输入相关参数,势必会增加医务人员负担,使预测模型难以在临床使用,成为研究与实践的鸿沟。由于基于智能计算、机器学习及可在线访问的风险预测模型将成为大趋势,线上程序在未来有更广阔的开发空间。未来可将模型进一步优化并简洁化,转化开发医院HIS系统的自动识别并自动输出结果的预测系统,以便快速、科学高效、提前预警风险人群,从而实现预测模型的临床转化及应用。上述系统将帮助医务人员快速决策,及时制定针对性预防干预措施,减轻患者痛苦,促进康复,减少临床工作量,提高医护人员临床工作质量。
4.3 规范并优化风险预测模型构建及验证过程,报告需透明化
尽管国际上已发布风险预测模型研究规范性报告声明(Transparent Reporting of a multivariable model for Individual Prognosis Or Diagnosis,TRIPOD)[7, 40]和风险预测模型研究偏倚风险评估工具[6, 45],但目前仅2个研究[20, 38]使用TRIPOD清单进行报告。大多数研究的模型构建及验证过程仍存在一定问题:报告欠透明化,使读者不明确模型构建及验证过程和方法学,如较少研究估计样本量,而充分的样本量能保证预测变量与结局之间关联的稳健性[46-47];多数研究未曾提及缺失值处理;部分研究模型性能检测指标评估不完整,仅报告了模型的AUC值,未报告准确度、敏感度、特异度等指标,增加了模型预测效果的不确定性,可能会导致读者无法判断模型效能[29, 37];仅少数研究进行外部验证,影响了研究质量和模型的实用价值[22, 35, 37, 44]。此外,还应描述目标人群接受干预治疗的具体细节,包括基线或出院随访时接受的任何治疗及干预措施等[35, 37],因为这些干预措施也可能会改变结局,从而影响预测模型的准确性。
因此,建议今后的研究参考预测模型报告清单[7],特别是最新发表的TRIPOD+AI清单[7]或风险预测模型研究偏倚风险评估工具[6, 45]来规范并优化风险预测模型的构建与验证过程,开展严谨的科研设计,提高模型的可解释性和透明度,以确保模型的可重复性、严谨性及稳健性。
5 小结
综上所述,目前肺癌PPCs风险预测模型对PPCs的发生有一定的预测效能,机器学习和人工智能是近年研究的发展趋势。但其研究设计、模型评价、模型验证、临床应用及透明化报告等方面存在一定的不足。由于本文为叙述性综述,未评价各研究质量,仅总结了研究存在的不足,可能存在一定的局限性。建议今后开展系统评价,进行定量合成,评价目前模型的预测效能及研究质量。此外,建议今后建立标准化的数据集,开展前瞻性、多中心、大样本研究,构建并优化多组学预测模型,以确保数据全面、可靠、科学,实现精准预测;重视模型预测性能的评价和外部验证,提高模型的预测效能、稳定性和可推广性;开发自动识别肺癌PPCs高风险患者的预警系统,实现预测模型的临床转化及应用;应用TRIPOD+AI清单进行透明化研究报告,并采取有效措施促进预测模型的临床推广与应用,帮助医护人员快速精准决策,制定并实施针对性预防干预措施,改善患者结局,提高医疗护理质量。
利益冲突:无。
作者贡献:邓婷、宋佳美、谌绍林确立选题、设计研究及终审文章;李金、吴晓燕、吴俐姗收集、分析、总结资料;邓婷、宋佳美撰写文章初稿;李金、吴晓燕、吴俐姗及谌绍林提出修改意见,解答专家意见并审阅文章。