食管癌是起源于食管上皮组织的一种临床最常见的消化系统恶性肿瘤之一,其恶性程度高,早期诊断率较低,患者5年生存率仅有20%[1-2]。我国为食管癌高发国家,约占世界总发病率的53.7%,其死亡率高居全球第5位[3]。2019年版食管癌诊疗指南[4]提出,早期行根治术是食管癌患者最有效的治疗方式,但由于食管浆膜层覆盖少、肌纤维多呈纵向分布、血液呈阶段性供应等特殊的解剖及生理特点,术后切口愈合能力较差,患者常合并术后吻合口瘘(anastomostic leakage,AL)。得益于微创化手术及围术期精细化管理,术后吻合口瘘发生率虽有所下降,但据研究报道[5-6],食管癌根治术后吻合口瘘发生率仍达4.9%~19.6%。吻合口瘘的发生不仅会延长患者住院时间、增加经济负担,还会提高食管癌患者围术期死亡率,并对患者长期生存、生活质量产生不利影响[7]。因此,早期识别并个体化预测食管癌根治术患者吻合口瘘发生风险,对降低术后吻合口瘘发生率,提早预防并对其提供有针对性的防控干预措施具有重要意义。临床风险预测模型可通过定量评估多因素水平与疾病发生之间的关系,预测某种疾病或将要发生某种结局的概率[8]。近年来国内外学者开发了多种预测食管癌根治术后吻合口瘘发生的风险模型,但各个模型之间结果差异较大,且研究质量不一,模型的性能及其适用性尚需进一步探究。本研究对食管癌根治术后吻合口瘘发生的风险预测模型进行系统评价,旨在为临床医护人员选择或合适的风险评估工具提供借鉴及依据。
1 资料与方法
1.1 文献纳入和排除标准
纳入标准:(1)研究对象为接受食管癌根治术患者,年龄≥18岁。(2)研究内容为构建食管癌根治术后吻合口瘘风险预测模型且需详细说明建模方式;(3)研究设计包括病例对照研究、队列研究和横断面研究;(4)研究语种为中英文。排除标准:(1)数据不全或无效、全文无法获取;(2)未对模型构建过程或方法进行说明;(3)构建模型的预测因子≤2个;(4)重复发表文献;(5)未构建预测模型或模型数据缺失的文献;(6)吻合口瘘为多个结局指标之一;(7)综述、动物实验、会议论文等。
1.2 文献检索策略
检索中国知网、万方、维普、CBM、PubMed、EMbase、Web of Science、The Cochrane Library等数据库,检索时间为建库至2023年4月。检索采用主题词与自由词相结合的方式,并辅以参考文献回溯。以“食管癌、食道癌、食管肿瘤、食道肿瘤、吻合口瘘、胃食管吻合、颈内吻合、胸内吻合、预测模型、风险预测模型、模型、预测因子、风险评估、风险评分、危险分层”为中文检索词;以“esophageal neoplasms、esophageal cancer、carcinoma of esophagus、esophageal carcinoma、esophagus cancer、anastomotic fistula、anastomotic leak、anastomotic leakage、prediction model、prediction tool、risk prediction model、risk assessment、risk score、risk calculation、risk stratification model、stratification model、prognostic model、nomogram”为英文检索词。以PubMed为例,具体检索策略见图1。

*:PubMed(
1.3 文献筛选与数据提取
将检索到的数据导入Endnote X9进行查重。由2名研究者独立浏览题目及摘要,排除主题明显不符的文献,再进一步阅读全文确定合格文献。如遇分歧难以抉择时,与第3方讨论解决。参考并借鉴预测模型构建研究数据提取和质量评价清单[9](Check list for Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modeling Studies,CHARMS),自制标准化数据提取清单并借助Excel软件辅助数据提取。提取内容包括:年份、国家及地区、研究对象、研究类型、设计类型、样本量、候选变量处理及筛选方法、缺失数据处理及方法、建模及验模方法、模型呈现形式等。
1.4 文献质量评价方法
由2名具有循证医学知识的研究者依据预测模型偏倚风险评估工具(Prediction Model Risk Of Bias Assessment Tool,PROBAST)对纳入文献的偏倚风险及适用性进行评价。PROBAST共涵盖4个领域,包括20个问题,分别从研究对象、预测因子、结果和分析对文献进行偏倚评估。每个问题使用“是/可能是”、“不是/可能不是”和“无信息”来回答[10]。在同一领域中,若所有回答均为“是/可能是”,则该领域为低偏倚风险;若任意一项回答为“不是/可能不是”,则该领域为高偏倚风险;若原始文献缺少相关信息或无法判断时,则判定该领域为偏倚风险不清楚。若所有领域均判断为低偏倚风险,代表研究总体偏倚风险低;若任意一个领域判定为高偏倚风险,则代表研究总体偏倚风险高;若任意一个领域判定为偏倚风险不清楚,则总体研究偏倚风险不清楚。适用性评价包含研究对象、预测因子和结果3个领域,采用“低适用性风险”、“高适用性风险”和“不清楚”来评估。若所有领域均判定为低适用性风险,则研究总体适用性好;若任意一个领域判定为高适用性风险,则研究总体适用性差。
1.5 统计学分析
使用RevMan 5.3软件对纳入预测模型中存在共性的预测因子进行Meta分析,异质性检验通过Q检验及I2检验判断。若异质性检验P>0.1且I2<50%,说明各研究之间的不同质性在统计学上没有差异,Meta分析模型选用固定效应模型;反之则选用随机效应模型。采用敏感性分析对异质性较高的预测因子进行探查。依照各预测模型中提供的各预测因子的OR值作为效应统计量,置信区间为95%CI。
2 结果
2.1 文献筛选结果
共检索到623篇文献,严格依照纳入和排除标准筛选后最终纳入18篇文献[11-28],文献筛选流程图见图2。纳入文献中,中文文献11篇[11-19,22,28],英文文献7篇[20-21,23-27],有16篇文献在近5年内发表。13篇文献[11-22,28]研究设计类型为病例对照研究,4篇文献[23-26]为回顾性队列研究,1篇文献[27]为前瞻性队列研究。吻合口瘘发生率为3.97%~23.93%。纳入文献基本特征见表1。

2.2 模型的建立情况
纳入研究的18篇文献均为风险预测模型的开发研究,各研究样本总量为102~4228例,纳入预测因子个数为3~22个,结果事件数与协变量个数比(the number of events per variable,EPV)为5~20。在变量处理方面,15项研究[11-14,16-20,22-23,25-28]将连续性变量处理为分类变量,仅1项研究[28]指出了转换为分类变量的切点值,其余研究均未报告转换为分类变量的依据。在缺失数据方面,1项研究[21]报告了具体缺失的样本含量并采用直接删除法处理;1项研究[18]提及采用算法计算的方式对缺失数据进行补充,6项研究[13,16-17,20-21,27]提及采用直接删除法处理缺失数据,但未报告缺失的具体样本量。在预测变量筛选上,4项研究[13,20,22,28]采用逐步回归的方式,包括逐步选择法、向前有条件法和向前逐步法;11项研究[11-12,14-19,21,24,26]基于单因素及多因素分析进行变量筛选;1项研究[23]运用最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)筛选变量。纳入的研究采用了多种建模手段,15项研究[11-21,23-24,26,28]采用Logistic回归(logistic regression,LR),1项研究[22]采用Logistic回归和人工神经网络(artificial neural network,ANN),2项研究[25,27]采用机器学习(machine learning,ML)方式建模,具体包括决策树(decision tree,DT)、人工神经网络、随机森林(random forest,RF)、K近邻(k-nearest neighbor,k-NN)、支持向量机(support vector machine,SVT)、朴素贝叶斯算法(Naïve Bayes)、AdaBoost、SuperLearner。模型中纳入的预测因子主要分为5类,具体为:(1)患者基本情况:年龄、性别、体重指数(body mass index,BMI)、糖尿病史、高血压史、吸烟史、腹部手术史、胸部手术史、美国麻醉医师协会体格状态分级;(2)检查及检验指标:C反应蛋白水平、白细胞水平、白蛋白水平、第 1 秒用力呼气容积占预测值百分比(forced expiratory volume in one second/predicated value,FEV1%)、胃网膜血管分支钙化、主动脉钙化、腹腔干钙化;(3)手术相关情况:手术时间、吻合口位置、吻合方式、重建途径;(4)肿瘤情况:肿瘤位置、肿瘤分期;(5)术后并发症情况:术后肺部感染、术后低氧血症、胸腔积液、是否合并呼吸系统、心血管系统、泌尿系统等。各模型中出现次数最多的预测因子依次为低蛋白血症、糖尿病史、年龄、肺部感染、C反应蛋白水平等。模型建立情况及预测性能见表2。

2.3 模型的预测性能
模型预测性能从区分度和校准度两方面进行评价。区分度评价指标主要采用受试者工作特征曲线下面积(area under the curve,AUC)或一致性指数(C-index)表示;校准度评价指标通过Hosmer-Lemeshow拟合优度检验(H-L检验)和绘制校准图进行全面评价。18项研究均进行了模型的性能评价,8项研究[11,14,19,21,24-27]仅对区分度指标进行了报道,而未报道校准度指标。2项研究[23,27]中模型的区分度分别为0.69、0.68,其余研究建立的模型区分度均>0.7,表示模型具有良好的预测性能。10项研究[12-13,15-18,20,22-23,28]报道了校准度,其中6项研究[12,15,17-18,20,23]通过绘制校准图进行评价,4项研究[13,16,22,28]报告了H-L拟合优度检验结果。3项研究[15,20,23]报道了临床决策曲线。在模型验证方面,6项研究[12,15,17,20,23-24]采用Bootstrap自助抽样法进行模型内部验证,1项研究[18]对模型进行外部验证,其余研究未对建立模型验证方法进行报道;见表2。
2.4 模型呈现方式
16项研究报告了模型的呈现方式,11项研究[11-12,14-15,17-20,23-24,27]采用列线图呈现,4项研究[16,21-22,26]以各因子β系数构建模型方程呈现,1项研究[28]采用累计评分分组的形式,2项研究[13,25]仅报道了预测因子名称,而无危险因素赋分或模型方程构建的信息。具体的模型呈现见表3。

2.5 风险偏倚评估
使用PROBAST文献质量评估工具对本次研究纳入的18项研究进行偏倚风险及适用性评价;见表4。在研究对象领域,12项研究[11-13,15-22,28]偏倚风险为高风险,主要原因是研究对象来源于非巢式的病例-对照研究;1项研究[14]偏倚风险为不清楚,其主要原因为未清晰阐述排除标准相关的信息。在预测因子领域,13项研究[12-13,15-17,19,21-22,24-28]风险偏倚不清楚,主要原因为对未报道研究是否是在不清楚结果数据的情况下评估预测因子;2项研究[11,14]为高偏倚风险,原因为模型中纳入的部分预测因子无统计学意义。在结局领域,13项研究[12-16,18-20,22-24,26,28]偏倚风险为不清楚,主要原因为研究未报告预测因子评估和结果确定的时间间隔是否合理。在统计分析领域,17项研究[11-26,28]为高风险偏倚,1项研究[27]偏倚风险不清楚,其主要原因有:(1)结果事件数与协变量个数比,即EPV均<20;(2)对连续性变量处理为分类变量依据不明或不恰当处理;(3)部分研究未进行内部验证;(4)模型呈现不完整或仅报告校准的统计数据或仅使用 H-L检验。在适用性评价领域,18项研究[11-28]在各个领域和总体评价均为低风险。

2.6 Meta分析结果
进一步对各模型中的共性预测因子进行Meta分析,结果显示:年龄、高血压史、糖尿病史、C反应蛋白、术前化疗史、低蛋白血症、外周血管病、肺部感染、胃网膜血管分支钙化是食管癌根治术后吻合口瘘发生的有效预测因子(P<0.05)。对异质性较大的预测因子进行敏感性分析,合并后的统计结果未见明显变化,提示Meta分析结果较为稳定;见表5。

3 讨论
3.1 食管癌根治术后吻合口瘘风险预测模型整体性能较好但偏倚风险较高
本次研究通过系统检索食管癌根治术后吻合口瘘风险预测模型建立的相关研究,经过严格筛选后共纳入18篇文献。最早建立的一个模型为2012年,近5年内相关风险预测模型模型逐渐增多,提示近年来食管癌根治术后吻合口瘘的发生已受到临床医护人员的重视,未来研究可在改善并完善建模方式的基础上进一步探究。纳入的18个模型受试者工作曲线AUC为0.68~0.954,其中15个模型的AUC>0.7,10个模型的AUC>0.8,提示模型鉴别能力较高,对食管癌根治术后吻合口瘘的发生具有良好的预测性能。但纳入的所有研究在总体偏倚风险评价结果为高风险,且仅有1项研究进行了外部验证,一定程度上会影响模型预测结果的外推性,使得医护人员在临床应用时难以抉择判断。统计分析领域出现高偏倚风险的情况最多,根据PROBAST评估工具[10],开发预测模型的研究,每个自变量的事件数应≥20,且应参照研究设计类型,系统全面衡量纳入研究的样本量。PROBAST工具推荐设计研究类型为前瞻性队列研究、随机对照研究、巢式病例对照或病例队列研究;对连续性变量进行分类处理前,应先检验连续性变量是否与结局变量间存在线性拟合[29];对于预测因子的筛选应尽可能避免使用单因素分析结果,当预测因子较少时,可先全部纳入,再采取逐步回归方式进行多因素logistic回归分析,以规避因自变量间的共线性问题而造成部分预测因子的丢失;当预测因子较多时,单因素分析应仅用于初筛变量,并适当调整检验水准,结合专业实务谨慎纳入或排除无统计学意义的变量[30];若存在缺失数据,应选择恰当的缺失数据处理方法,如多重插补法,并在文中详细报道,不推荐直接排除缺失数据进行处理[31]。后续研究可针对上述问题并参考PROBAST评价工具[10]或遵循个体预后或诊断多变量预测模型透明报告(TRIPOD)[32]进行开发、验证和报告相关风险预测模型研究成果。
3.2 食管癌根治术后吻合口瘘的有效预测因子
本次研究对存在共同预测因子进行Meta分析,结果显示患者自身因素:年龄、高血压史、糖尿病史、外周血管病、胃网膜血管分支钙化;术前及术后治疗因素:术前化疗史、术后肺部感染;其他因素:C反应蛋白、低白蛋白血症是食管癌根治术后吻合口瘘发生的有效预测因子。年龄越大,机体功能逐渐退化,患者全身血管病变发生率明显增高[33],术后易影响吻合口瘘周围血液供应,从而增加吻合口瘘发生风险。但也有研究[34]指出年龄与吻合口瘘发生没有统计学意义,二者之间的关系仍需进一步探究。糖尿病患者因机体长期处于代谢紊乱状态,高血糖可借助一系列生化代谢途径,如内皮功能障碍、氧化应激等加速动脉粥样硬化,导致组织细胞愈合能力下降,抗感染能力减弱,这在一定程度上会影响术后吻合口的愈合[35-36]。合并高血压史、外周血管病、胃网膜血管分支钙化患者吻合口瘘发生几率较高,其原因可能是血管阻力增加、微循环障碍影响吻合口局部血流灌注[37],术后易导致吻合端愈合不良从而造成瘘口,这与Borggreve等[38]、Li等[39]研究结果一致。术前新辅助治疗即术前放化疗可有效消灭患者亚临床转移灶、降低临床分期,延长患者生命时间,但术前放化疗在抑制癌症细胞生长的同时,也会损伤机体正常细胞及组织的生长修复能力,大量炎症因子释放,易引起吻合口周围组织水肿及血运障碍[40],从而发生吻合口瘘。此外,患者营养状况也与吻合口瘘发生密切相关。多数纳入模型将白蛋白作为评估患者营养状况的评价指标,当患者发生低蛋白血症时,一方面由于机体营养物质供应不充分,吻合口部位肉芽组织生长缓慢,切口不易愈合,在受到唾液或消化液的刺激下,易导致切口炎症反应,加重愈合困难[41];另一方面,低蛋白血症易引起血浆胶体渗透压降低,吻合口组织间隙易充血水肿,不利于切口愈合。C反应蛋白常提示机体出现感染征象,当患者出现肺部感染甚至呼吸衰竭时,肺部氧合功能大大受限,代偿能力减弱,易造成机体出现低氧血症,尤其是手术部位缺血缺氧,影响组织愈合,此外出现肺部感染后机体一系列代偿反应如剧烈咳嗽、咳痰等牵拉影响[42],在一定程度上会加大吻合口部位的张力从而导致瘘的发生。基于此,未来的食管癌术后吻合口瘘预测模型构建可重点筛选以上预测因子,以求进一步探讨相关预测因子与吻合口瘘发生的内在联系。
3.3 未来研究的方向或启示
随着大数据与人工智能时代的逐步来临,计算机网络算法与临床医学联系日益紧密,临床研究者在构建模型中常面临一些海量且复杂的研究数据,机器学习因其强大的运算功能及较高的预测精度在临床逐渐受到青睐。本次研究纳入文献中,隋泽森[22]、Robert[27]、Zhao[25]采用传统logistic回归和机器学习算法分别构建预测模型,前2个研究结果均提示采用机器算法建立的模型具有更佳的预测性能,但不同模型间的AUC差距较小,这提示未来研究人员除选择传统logistic回归方法外,也可考虑采用机器学习算法对模型性能进行探究。需要指出的是,各种建模方法本身并无优劣之分,同一种建模方法在不同研究领域和数据集中可能展现出不同的预测性能,因此,进一步优化机器学习算法,在建模过程中可进行多种建模方式的比较,以求寻找最优预测性能模型则可能是未来研究需关注的方向。
本研究存在一定局限性:(1)仅纳入中英文文献,未检索灰色数据库,可能存在文献漏筛风险;(2)大部分模型虽已进行内部验证,但多为单中心研究且缺乏外部验证,一定程度上会影响模型预测结果的外推性;(3)虽纳入的大部分模型具备良好的预测性能,但由于在模型开发的统计分析过程中存在较高风险,临床医护人员在应用前应谨慎、合理选择,若有必要,可进一步对模型进行稳定性验证。
综上所述,本研究结果显示,食管癌根治术后吻合口瘘风险预测模型性能较好,适用性偏倚较低,有利于医护人员对术后吻合口瘘患者进行筛选,但整体风险偏倚较高,这提示医护人员可结合自身专业实际,对模型加以验证及应用,未来相关风险预测模型应严格遵循PROBAST工具病结合临床实际,完善研究设计,改进方法学质量,并积极展开内部、外部验证,为临床实践提供普适性高、实用性强、科学合理的预测工具,尽可能预防或避免术后吻合口瘘的发生。
利益冲突:无。
作者贡献:李滔负责论文设计、撰写及修订;蒋运兰负责论文审校与质量控制;康静、宋爽负责文献搜集及数据整理;杜秋凤、易晓冬负责统计学处理及结果解释。
食管癌是起源于食管上皮组织的一种临床最常见的消化系统恶性肿瘤之一,其恶性程度高,早期诊断率较低,患者5年生存率仅有20%[1-2]。我国为食管癌高发国家,约占世界总发病率的53.7%,其死亡率高居全球第5位[3]。2019年版食管癌诊疗指南[4]提出,早期行根治术是食管癌患者最有效的治疗方式,但由于食管浆膜层覆盖少、肌纤维多呈纵向分布、血液呈阶段性供应等特殊的解剖及生理特点,术后切口愈合能力较差,患者常合并术后吻合口瘘(anastomostic leakage,AL)。得益于微创化手术及围术期精细化管理,术后吻合口瘘发生率虽有所下降,但据研究报道[5-6],食管癌根治术后吻合口瘘发生率仍达4.9%~19.6%。吻合口瘘的发生不仅会延长患者住院时间、增加经济负担,还会提高食管癌患者围术期死亡率,并对患者长期生存、生活质量产生不利影响[7]。因此,早期识别并个体化预测食管癌根治术患者吻合口瘘发生风险,对降低术后吻合口瘘发生率,提早预防并对其提供有针对性的防控干预措施具有重要意义。临床风险预测模型可通过定量评估多因素水平与疾病发生之间的关系,预测某种疾病或将要发生某种结局的概率[8]。近年来国内外学者开发了多种预测食管癌根治术后吻合口瘘发生的风险模型,但各个模型之间结果差异较大,且研究质量不一,模型的性能及其适用性尚需进一步探究。本研究对食管癌根治术后吻合口瘘发生的风险预测模型进行系统评价,旨在为临床医护人员选择或合适的风险评估工具提供借鉴及依据。
1 资料与方法
1.1 文献纳入和排除标准
纳入标准:(1)研究对象为接受食管癌根治术患者,年龄≥18岁。(2)研究内容为构建食管癌根治术后吻合口瘘风险预测模型且需详细说明建模方式;(3)研究设计包括病例对照研究、队列研究和横断面研究;(4)研究语种为中英文。排除标准:(1)数据不全或无效、全文无法获取;(2)未对模型构建过程或方法进行说明;(3)构建模型的预测因子≤2个;(4)重复发表文献;(5)未构建预测模型或模型数据缺失的文献;(6)吻合口瘘为多个结局指标之一;(7)综述、动物实验、会议论文等。
1.2 文献检索策略
检索中国知网、万方、维普、CBM、PubMed、EMbase、Web of Science、The Cochrane Library等数据库,检索时间为建库至2023年4月。检索采用主题词与自由词相结合的方式,并辅以参考文献回溯。以“食管癌、食道癌、食管肿瘤、食道肿瘤、吻合口瘘、胃食管吻合、颈内吻合、胸内吻合、预测模型、风险预测模型、模型、预测因子、风险评估、风险评分、危险分层”为中文检索词;以“esophageal neoplasms、esophageal cancer、carcinoma of esophagus、esophageal carcinoma、esophagus cancer、anastomotic fistula、anastomotic leak、anastomotic leakage、prediction model、prediction tool、risk prediction model、risk assessment、risk score、risk calculation、risk stratification model、stratification model、prognostic model、nomogram”为英文检索词。以PubMed为例,具体检索策略见图1。

*:PubMed(
1.3 文献筛选与数据提取
将检索到的数据导入Endnote X9进行查重。由2名研究者独立浏览题目及摘要,排除主题明显不符的文献,再进一步阅读全文确定合格文献。如遇分歧难以抉择时,与第3方讨论解决。参考并借鉴预测模型构建研究数据提取和质量评价清单[9](Check list for Critical Appraisal and Data Extraction for Systematic Reviews of Prediction Modeling Studies,CHARMS),自制标准化数据提取清单并借助Excel软件辅助数据提取。提取内容包括:年份、国家及地区、研究对象、研究类型、设计类型、样本量、候选变量处理及筛选方法、缺失数据处理及方法、建模及验模方法、模型呈现形式等。
1.4 文献质量评价方法
由2名具有循证医学知识的研究者依据预测模型偏倚风险评估工具(Prediction Model Risk Of Bias Assessment Tool,PROBAST)对纳入文献的偏倚风险及适用性进行评价。PROBAST共涵盖4个领域,包括20个问题,分别从研究对象、预测因子、结果和分析对文献进行偏倚评估。每个问题使用“是/可能是”、“不是/可能不是”和“无信息”来回答[10]。在同一领域中,若所有回答均为“是/可能是”,则该领域为低偏倚风险;若任意一项回答为“不是/可能不是”,则该领域为高偏倚风险;若原始文献缺少相关信息或无法判断时,则判定该领域为偏倚风险不清楚。若所有领域均判断为低偏倚风险,代表研究总体偏倚风险低;若任意一个领域判定为高偏倚风险,则代表研究总体偏倚风险高;若任意一个领域判定为偏倚风险不清楚,则总体研究偏倚风险不清楚。适用性评价包含研究对象、预测因子和结果3个领域,采用“低适用性风险”、“高适用性风险”和“不清楚”来评估。若所有领域均判定为低适用性风险,则研究总体适用性好;若任意一个领域判定为高适用性风险,则研究总体适用性差。
1.5 统计学分析
使用RevMan 5.3软件对纳入预测模型中存在共性的预测因子进行Meta分析,异质性检验通过Q检验及I2检验判断。若异质性检验P>0.1且I2<50%,说明各研究之间的不同质性在统计学上没有差异,Meta分析模型选用固定效应模型;反之则选用随机效应模型。采用敏感性分析对异质性较高的预测因子进行探查。依照各预测模型中提供的各预测因子的OR值作为效应统计量,置信区间为95%CI。
2 结果
2.1 文献筛选结果
共检索到623篇文献,严格依照纳入和排除标准筛选后最终纳入18篇文献[11-28],文献筛选流程图见图2。纳入文献中,中文文献11篇[11-19,22,28],英文文献7篇[20-21,23-27],有16篇文献在近5年内发表。13篇文献[11-22,28]研究设计类型为病例对照研究,4篇文献[23-26]为回顾性队列研究,1篇文献[27]为前瞻性队列研究。吻合口瘘发生率为3.97%~23.93%。纳入文献基本特征见表1。

2.2 模型的建立情况
纳入研究的18篇文献均为风险预测模型的开发研究,各研究样本总量为102~4228例,纳入预测因子个数为3~22个,结果事件数与协变量个数比(the number of events per variable,EPV)为5~20。在变量处理方面,15项研究[11-14,16-20,22-23,25-28]将连续性变量处理为分类变量,仅1项研究[28]指出了转换为分类变量的切点值,其余研究均未报告转换为分类变量的依据。在缺失数据方面,1项研究[21]报告了具体缺失的样本含量并采用直接删除法处理;1项研究[18]提及采用算法计算的方式对缺失数据进行补充,6项研究[13,16-17,20-21,27]提及采用直接删除法处理缺失数据,但未报告缺失的具体样本量。在预测变量筛选上,4项研究[13,20,22,28]采用逐步回归的方式,包括逐步选择法、向前有条件法和向前逐步法;11项研究[11-12,14-19,21,24,26]基于单因素及多因素分析进行变量筛选;1项研究[23]运用最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)筛选变量。纳入的研究采用了多种建模手段,15项研究[11-21,23-24,26,28]采用Logistic回归(logistic regression,LR),1项研究[22]采用Logistic回归和人工神经网络(artificial neural network,ANN),2项研究[25,27]采用机器学习(machine learning,ML)方式建模,具体包括决策树(decision tree,DT)、人工神经网络、随机森林(random forest,RF)、K近邻(k-nearest neighbor,k-NN)、支持向量机(support vector machine,SVT)、朴素贝叶斯算法(Naïve Bayes)、AdaBoost、SuperLearner。模型中纳入的预测因子主要分为5类,具体为:(1)患者基本情况:年龄、性别、体重指数(body mass index,BMI)、糖尿病史、高血压史、吸烟史、腹部手术史、胸部手术史、美国麻醉医师协会体格状态分级;(2)检查及检验指标:C反应蛋白水平、白细胞水平、白蛋白水平、第 1 秒用力呼气容积占预测值百分比(forced expiratory volume in one second/predicated value,FEV1%)、胃网膜血管分支钙化、主动脉钙化、腹腔干钙化;(3)手术相关情况:手术时间、吻合口位置、吻合方式、重建途径;(4)肿瘤情况:肿瘤位置、肿瘤分期;(5)术后并发症情况:术后肺部感染、术后低氧血症、胸腔积液、是否合并呼吸系统、心血管系统、泌尿系统等。各模型中出现次数最多的预测因子依次为低蛋白血症、糖尿病史、年龄、肺部感染、C反应蛋白水平等。模型建立情况及预测性能见表2。

2.3 模型的预测性能
模型预测性能从区分度和校准度两方面进行评价。区分度评价指标主要采用受试者工作特征曲线下面积(area under the curve,AUC)或一致性指数(C-index)表示;校准度评价指标通过Hosmer-Lemeshow拟合优度检验(H-L检验)和绘制校准图进行全面评价。18项研究均进行了模型的性能评价,8项研究[11,14,19,21,24-27]仅对区分度指标进行了报道,而未报道校准度指标。2项研究[23,27]中模型的区分度分别为0.69、0.68,其余研究建立的模型区分度均>0.7,表示模型具有良好的预测性能。10项研究[12-13,15-18,20,22-23,28]报道了校准度,其中6项研究[12,15,17-18,20,23]通过绘制校准图进行评价,4项研究[13,16,22,28]报告了H-L拟合优度检验结果。3项研究[15,20,23]报道了临床决策曲线。在模型验证方面,6项研究[12,15,17,20,23-24]采用Bootstrap自助抽样法进行模型内部验证,1项研究[18]对模型进行外部验证,其余研究未对建立模型验证方法进行报道;见表2。
2.4 模型呈现方式
16项研究报告了模型的呈现方式,11项研究[11-12,14-15,17-20,23-24,27]采用列线图呈现,4项研究[16,21-22,26]以各因子β系数构建模型方程呈现,1项研究[28]采用累计评分分组的形式,2项研究[13,25]仅报道了预测因子名称,而无危险因素赋分或模型方程构建的信息。具体的模型呈现见表3。

2.5 风险偏倚评估
使用PROBAST文献质量评估工具对本次研究纳入的18项研究进行偏倚风险及适用性评价;见表4。在研究对象领域,12项研究[11-13,15-22,28]偏倚风险为高风险,主要原因是研究对象来源于非巢式的病例-对照研究;1项研究[14]偏倚风险为不清楚,其主要原因为未清晰阐述排除标准相关的信息。在预测因子领域,13项研究[12-13,15-17,19,21-22,24-28]风险偏倚不清楚,主要原因为对未报道研究是否是在不清楚结果数据的情况下评估预测因子;2项研究[11,14]为高偏倚风险,原因为模型中纳入的部分预测因子无统计学意义。在结局领域,13项研究[12-16,18-20,22-24,26,28]偏倚风险为不清楚,主要原因为研究未报告预测因子评估和结果确定的时间间隔是否合理。在统计分析领域,17项研究[11-26,28]为高风险偏倚,1项研究[27]偏倚风险不清楚,其主要原因有:(1)结果事件数与协变量个数比,即EPV均<20;(2)对连续性变量处理为分类变量依据不明或不恰当处理;(3)部分研究未进行内部验证;(4)模型呈现不完整或仅报告校准的统计数据或仅使用 H-L检验。在适用性评价领域,18项研究[11-28]在各个领域和总体评价均为低风险。

2.6 Meta分析结果
进一步对各模型中的共性预测因子进行Meta分析,结果显示:年龄、高血压史、糖尿病史、C反应蛋白、术前化疗史、低蛋白血症、外周血管病、肺部感染、胃网膜血管分支钙化是食管癌根治术后吻合口瘘发生的有效预测因子(P<0.05)。对异质性较大的预测因子进行敏感性分析,合并后的统计结果未见明显变化,提示Meta分析结果较为稳定;见表5。

3 讨论
3.1 食管癌根治术后吻合口瘘风险预测模型整体性能较好但偏倚风险较高
本次研究通过系统检索食管癌根治术后吻合口瘘风险预测模型建立的相关研究,经过严格筛选后共纳入18篇文献。最早建立的一个模型为2012年,近5年内相关风险预测模型模型逐渐增多,提示近年来食管癌根治术后吻合口瘘的发生已受到临床医护人员的重视,未来研究可在改善并完善建模方式的基础上进一步探究。纳入的18个模型受试者工作曲线AUC为0.68~0.954,其中15个模型的AUC>0.7,10个模型的AUC>0.8,提示模型鉴别能力较高,对食管癌根治术后吻合口瘘的发生具有良好的预测性能。但纳入的所有研究在总体偏倚风险评价结果为高风险,且仅有1项研究进行了外部验证,一定程度上会影响模型预测结果的外推性,使得医护人员在临床应用时难以抉择判断。统计分析领域出现高偏倚风险的情况最多,根据PROBAST评估工具[10],开发预测模型的研究,每个自变量的事件数应≥20,且应参照研究设计类型,系统全面衡量纳入研究的样本量。PROBAST工具推荐设计研究类型为前瞻性队列研究、随机对照研究、巢式病例对照或病例队列研究;对连续性变量进行分类处理前,应先检验连续性变量是否与结局变量间存在线性拟合[29];对于预测因子的筛选应尽可能避免使用单因素分析结果,当预测因子较少时,可先全部纳入,再采取逐步回归方式进行多因素logistic回归分析,以规避因自变量间的共线性问题而造成部分预测因子的丢失;当预测因子较多时,单因素分析应仅用于初筛变量,并适当调整检验水准,结合专业实务谨慎纳入或排除无统计学意义的变量[30];若存在缺失数据,应选择恰当的缺失数据处理方法,如多重插补法,并在文中详细报道,不推荐直接排除缺失数据进行处理[31]。后续研究可针对上述问题并参考PROBAST评价工具[10]或遵循个体预后或诊断多变量预测模型透明报告(TRIPOD)[32]进行开发、验证和报告相关风险预测模型研究成果。
3.2 食管癌根治术后吻合口瘘的有效预测因子
本次研究对存在共同预测因子进行Meta分析,结果显示患者自身因素:年龄、高血压史、糖尿病史、外周血管病、胃网膜血管分支钙化;术前及术后治疗因素:术前化疗史、术后肺部感染;其他因素:C反应蛋白、低白蛋白血症是食管癌根治术后吻合口瘘发生的有效预测因子。年龄越大,机体功能逐渐退化,患者全身血管病变发生率明显增高[33],术后易影响吻合口瘘周围血液供应,从而增加吻合口瘘发生风险。但也有研究[34]指出年龄与吻合口瘘发生没有统计学意义,二者之间的关系仍需进一步探究。糖尿病患者因机体长期处于代谢紊乱状态,高血糖可借助一系列生化代谢途径,如内皮功能障碍、氧化应激等加速动脉粥样硬化,导致组织细胞愈合能力下降,抗感染能力减弱,这在一定程度上会影响术后吻合口的愈合[35-36]。合并高血压史、外周血管病、胃网膜血管分支钙化患者吻合口瘘发生几率较高,其原因可能是血管阻力增加、微循环障碍影响吻合口局部血流灌注[37],术后易导致吻合端愈合不良从而造成瘘口,这与Borggreve等[38]、Li等[39]研究结果一致。术前新辅助治疗即术前放化疗可有效消灭患者亚临床转移灶、降低临床分期,延长患者生命时间,但术前放化疗在抑制癌症细胞生长的同时,也会损伤机体正常细胞及组织的生长修复能力,大量炎症因子释放,易引起吻合口周围组织水肿及血运障碍[40],从而发生吻合口瘘。此外,患者营养状况也与吻合口瘘发生密切相关。多数纳入模型将白蛋白作为评估患者营养状况的评价指标,当患者发生低蛋白血症时,一方面由于机体营养物质供应不充分,吻合口部位肉芽组织生长缓慢,切口不易愈合,在受到唾液或消化液的刺激下,易导致切口炎症反应,加重愈合困难[41];另一方面,低蛋白血症易引起血浆胶体渗透压降低,吻合口组织间隙易充血水肿,不利于切口愈合。C反应蛋白常提示机体出现感染征象,当患者出现肺部感染甚至呼吸衰竭时,肺部氧合功能大大受限,代偿能力减弱,易造成机体出现低氧血症,尤其是手术部位缺血缺氧,影响组织愈合,此外出现肺部感染后机体一系列代偿反应如剧烈咳嗽、咳痰等牵拉影响[42],在一定程度上会加大吻合口部位的张力从而导致瘘的发生。基于此,未来的食管癌术后吻合口瘘预测模型构建可重点筛选以上预测因子,以求进一步探讨相关预测因子与吻合口瘘发生的内在联系。
3.3 未来研究的方向或启示
随着大数据与人工智能时代的逐步来临,计算机网络算法与临床医学联系日益紧密,临床研究者在构建模型中常面临一些海量且复杂的研究数据,机器学习因其强大的运算功能及较高的预测精度在临床逐渐受到青睐。本次研究纳入文献中,隋泽森[22]、Robert[27]、Zhao[25]采用传统logistic回归和机器学习算法分别构建预测模型,前2个研究结果均提示采用机器算法建立的模型具有更佳的预测性能,但不同模型间的AUC差距较小,这提示未来研究人员除选择传统logistic回归方法外,也可考虑采用机器学习算法对模型性能进行探究。需要指出的是,各种建模方法本身并无优劣之分,同一种建模方法在不同研究领域和数据集中可能展现出不同的预测性能,因此,进一步优化机器学习算法,在建模过程中可进行多种建模方式的比较,以求寻找最优预测性能模型则可能是未来研究需关注的方向。
本研究存在一定局限性:(1)仅纳入中英文文献,未检索灰色数据库,可能存在文献漏筛风险;(2)大部分模型虽已进行内部验证,但多为单中心研究且缺乏外部验证,一定程度上会影响模型预测结果的外推性;(3)虽纳入的大部分模型具备良好的预测性能,但由于在模型开发的统计分析过程中存在较高风险,临床医护人员在应用前应谨慎、合理选择,若有必要,可进一步对模型进行稳定性验证。
综上所述,本研究结果显示,食管癌根治术后吻合口瘘风险预测模型性能较好,适用性偏倚较低,有利于医护人员对术后吻合口瘘患者进行筛选,但整体风险偏倚较高,这提示医护人员可结合自身专业实际,对模型加以验证及应用,未来相关风险预测模型应严格遵循PROBAST工具病结合临床实际,完善研究设计,改进方法学质量,并积极展开内部、外部验证,为临床实践提供普适性高、实用性强、科学合理的预测工具,尽可能预防或避免术后吻合口瘘的发生。
利益冲突:无。
作者贡献:李滔负责论文设计、撰写及修订;蒋运兰负责论文审校与质量控制;康静、宋爽负责文献搜集及数据整理;杜秋凤、易晓冬负责统计学处理及结果解释。