引用本文: 姚振阁, 周佳薇, 陆梦依, 尤东方, 赵杨. 基于德尔菲法构建真实世界证据评价体系. 中国循证医学杂志, 2024, 24(10): 1156-1161. doi: 10.7507/1672-2531.202402025 复制
2023年2月,国家药品监督管理局药品审评中心发布《药物真实世界研究设计与方案框架指导原则(试行)》[1]用于通过真实世界研究获得药物评价的临床证据。近年来,真实世界研究在临床治疗方案选择方面表现出了巨大的潜力,并且随着技术和政策的不断改进和完善,真实世界数据(real-world data,RWD)的收集和分析变得更加容易。随机对照试验(randomised clinical trial,RCT)常常作为药物疗效和安全性评价的“金标准”,而真实世界证据(real-world evidence,RWE)能够作为临床试验提供的临床疗效之外的补充证据[2]。相对于传统RCT,RWE具有独特的优势。例如,对于疗效的异质性研究,RCT通常因亚组样本量较小而提供的证据不足,RWD借助其大样本的优势,可增强治疗效应的外推性[3]。此外,RWE可用于填补RCT未能解决的临床问题中的几个空白,如药物上市后更长的随访期发现的额外治疗效果和风险,并揭示传统RCT中未能满足的医疗需求等[4,5]。因此,RWE也越来越多地用于辅助临床决策(clinical decision-making,CDM)[6,7],包括药物或器械的使用和批准等。然而,使用RWD进行研究时,通常存在着一些问题,包括缺少随机化、偏倚混杂等[8]。
目前尚未形成符合真实世界研究特点的科学、可行、公认的证据评价体系,用于真实世界研究的证据等级评估。临床证据等级划分经历了漫长的发展,不同的组织机构制定了多种证据评估体系[9],例如用于独立评估RCT质量的Jadad量表[10]以及公认的GRADE证据等级体系[11]。相对于RCT,适用于真实世界研究的评价体系还在探索阶段,缺少成熟的经验和做法。现如今,用于评估真实世界证据质量的工具主要包括3种形式:量表式、清单式和条目式,但是大多数因适用性不强而不常使用[12]。因此,我们对现有的方法学质量评价工具进行了回顾,综合现有评估工具的条目,决定借鉴ROBINS-I(risk of bias in non-randomised studies of interventions)工具[13]及RECORD(reporting of studies conducted using observational routinely-collected health data)清单和GRACE(good research for comparative effectiveness)清单[14],形成初步的真实世界证据评估条目,然后通过德尔菲法进行专家征询,定义和选取评价指标,最终构建真实世界证据评价体系,用于评价真实世界证据研究的有效性。本研究旨在为RWE的数据质量、人群选择、研究设计、统计分析、结果报告和证据评价提供参考,为获得高质量的RWE提供依据和参考。
1 资料来源与方法
1.1 遴选征询专家
德尔菲法是通过匿名的方式向相关领域的高水平专家进行多轮咨询以征求意见和建议,一般认为专家数量控制在10~15人较合适[15],经过2轮或3轮专家咨询,专家整体意见可趋于一致。基于德尔菲法的全面性与合理性基本原则,遴选临床试验、循证医学、临床流行病学及流行病与卫生统计学等相关方面的专家。专家纳入标准:① 任职于高校、医院或科研机构的科研人员或者企业的统计师;② 硕士及以上学历;③ 副高及以上职称;④ 自愿参与本研究,保证在研究期间能持续完成多轮咨询。
1.2 问卷设置与发放
初步拟定真实世界证据评价体系的指标与专家咨询问卷。检索近年来有关证据等级评估的工具,最终决定以ROBINS-I工具[13]及RECORD清单和GRACE清单[14]为参考,提取工具中的问题条目,根据目前真实世界研究中广泛存在的偏倚和问题,结合真实世界研究特征和评估内容的可行性,初步拟定了真实世界证据评价体系的指标,并基于此设计专家咨询问卷。专家咨询问卷主要分为个人信息和指标认可度评估两部分,此外还设置了项目介绍,修改意见及专家自我评价等内容。专家认可度评分为Likert5级评分法[16],将指标的重要性划分为:非常重要、重要、一般、不太重要、不重要等5个等级,对应分值分别从5分到1分。同时设置专家修改意见,修改意见为开放式,除对指标评分外,专家可对指标提出开放式的修改意见。对于初步拟定的评估体系咨询问卷,邀请专家通过“问卷星”平台进行咨询和回复,并通过短信、微信、电话等途径进行提醒;每轮调研时限为2周。专家返回问卷后汇总,综合整理专家修改意见,经讨论后形成下一轮调研。目前,汇总两轮专家意见,最终形成一致的咨询结果。
1.3 统计学方法及指标
使用R 4.3.2软件进行专家积极系数、集中系数(m)、变异系数(coefficient of variation,CV)、权威系数(confidence rate,Cr)及意见协调系数等指标的统计分析。
1)专家积极系数一般指问卷的有效回收率,通常认为专家积极系数>70%是专家对研究内容积极参与和持续关注的表现。
2)专家意见集中程度和协调程度主要依赖m和CV。各指标重要性分值的均数反映各专家意见集中程度,m的分值越大,意味着该条目的重要性越高,专家意见集中程度越高[17]。CV反映专家对指标重要性的集中协调程度,CV的数值越小,说明专家对该指标重要性评价的协调程度越高。一般认为,CV≤0.3则该指标协调程度可接受。
3)专家权威程度用Cr>表示,Cr=(Ca+Cs)/2。Ca是指专家为条目重要性赋分时依据的量化参数,基于实践经验较多(0.5)、一般(0.4)、较少(0.3);基于理论分析较多(0.3)、一般(0.2)、较少(0.1);参考国内外文献、直觉选择均为0.1。Cs依次为不熟悉、不太熟悉、一般、熟悉、非常熟悉,分别赋值0.1、0.3、0.5、0.7、0.9分。当Cr≥0.70表明在本次调查中专家权威程度处于较高水平[18]。
4)使用肯德尔协调系数(W)表示专家意见协调程度,0<W<1,系数越大说明专家的协调程度越好,需进行卡方检验,检验水准为0.05[19]。
1.4 指标筛选标准
本研究采用重要性评分>3作为指标筛选标准,结合专家意见及课题组内讨论后结果,研究组在综合考虑评估问题科学性、合理性和全面性的基础上,对条目进行增减或修改。
2 结果
2.1 专家基本情况及积极系数
两轮德尔菲法问卷分别发放17份和15份,分别回收有效问卷15份,专家积极系数分别为88.2%和100%,说明专家对本次评价体系制订的关注度及积极性较高。两轮专家构成不变,具体情况见表1。

2.2 专家权威程度
两轮德尔菲法的专家主要为高校教师,93.33%的专家有博士学历,且工作年限至少为5年。Cr分别为0.873和0.883,说明参与调研专家在真实世界研究方面具有较高的基本理论和实践操作水平,权威性和可信度较高,具有一定代表性。见表2。

2.3 问卷信度
两轮调研指标重要性的协调程度分别为0.174(P值<0.001)和0.189(P值<0.001),根据W的计算公式,条目较多时,该系数较小。第2轮指标的协调程度较第1轮有所上升,表明第2轮专家对各项指标的评价不存在较大差异,意见渐趋于一致。见表3。

2.4 指标的定义及修改
2.4.1 第一轮问卷结果
对第一轮专家咨询结果进行统计分析,各指标重要性评分为3.33~4.73,CV为0.11~0.33。根据专家对指标内容的概念、含义、评分结果及修改意见,指标修改如下:
对于混杂偏倚评估,1.4条目和1.7条目存在信息重复,将1.7条目中的“重要的混杂和时依混杂”改为“基线混杂和时依混杂”。1.6条目表达不够明确,添加了补充信息“(干预后因素可能为中介变量)”。选择偏倚评估中,2.2~2.4条目表述不明,因此将条目中的“预后因素”改为“干预后变量”。4.3条目将“共同干预”改为“伴随干预”。4.4条目补充了干预措施的情况“例如是否接受药物或手术”。5.5条目为了使条目的评估更加明确将“证据”改为“证据(敏感性分析结果)”,“结果依然是可靠的”改为“结果依然是稳健的(具有鲁棒性)”。对6.1条目的描述进行扩充,将其改为“结局的测量是否受到干预相关信息的影响(结局测量的研究者是否已知/了解受试者的干预措施)?”。对于已测混杂分析评估,倾向性评分只是一种常见方法,现阶段没有标准,因此将8.1条目的表述改为“研究中是否进行了已测混杂调整,例如匹配、加权、应用倾向性评分的策略?”。真实世界中的样本量的计算不仅仅基于α这一个参数,因此将10.1条目改为“本研究是否进行了样本量估算或根据研究的样本量及一类错误(α)等参数计算研究把握度(power)?”
2.4.2 第二轮问卷结果
第二轮专家咨询中各个条目重要性评分的平均分为3.73~4.93分,CV为0.05~0.21,专家意见趋于一致,不再对该评估体系中的条目进行修改。
2.5 评价指标体系形成
初步拟定真实世界证据评估体系指标池,包括40个条目指标。根据指标筛选标准和专家意见对指标进行2轮修改后,最终形成的真实世界证据评价体系,见表4。

3 讨论
3.1 科学性和可靠性
本研究构建真实世界证据评价体系是通过文献调研,借鉴ROBINS-I工具[13]、RECORD清单和GRACE清单[14],并且经过多位具有广泛专业知识背景和经验的专家咨询而形成的。本研究针对真实世界研究的特点,初步构建真实世界证据评价体系指标池,进行问卷咨询,归纳专家意见,经讨论后形成了真实世界证据评估体系工具,应用德尔菲法对体系中各部分指标设置进行评价。本研究共计完成两轮专家咨询,结果显示,两轮咨询的专家积极性和权威程度均很高,W均具有统计学意义,专家意见趋于一致。我们根据专家意见对该体系进行了修改,使指标更加科学和完善,最终获得可靠的评估体系和研究结论。
3.2 本研究的优势
随着真实世界研究的不断出现,真实世界证据将在制订治疗指南和医疗决策方面的作用不断增强[20]。因此,全面评估真实世界研究质量并进行真实世界证据等级划分将是实现真实世界研究潜力的关键点之一。目前,大多数证据等级和研究设计等级体系均基于各种经典的临床流行病学研究设计,未将RWS设计类型及其证据纳入考量。针对真实世界研究较少,往往是针对不同类型使用不同的质量评估工具,常用的观察性研究的质量评价工具,包括适用于病例-对照研究和队列研究的NOS量表[21],适用于队列研究和病例-对照研究的CASP清单和用于横断面研究评价的美国卫生保健质量和研究机构推荐评价标准(Agency of Healthcare Research and Quality,AHRQ)。RECORD清单和GRACE清单用于真实世界研究规范报告,但不能用于评价研究质量[14]。此外,如何基于真实世界研究进行因果推断,是真实世界证据的一大难题。长久以来,真实世界研究质量因其受到偏倚的影响而被广泛诟病,在《药物真实世界研究设计与方案框架指导原则(试行)》[1]中明确说明偏倚是真实世界研究中特别需要考虑的问题,在方案中应充分考虑各种潜在偏倚及其影响,并制定控制偏倚的有效措施。一般情况下,真实世界研究包括两大类,观察性研究和实用临床研究[1]。在观察性研究中,通常存在混杂偏倚、选择偏倚和信息偏倚三个方面。对于混杂偏倚,本体系考虑研究中需清晰明确现有的已知混杂,预先收集混杂变量的数据,并使用适当的方法进行控制。此外,本体系也没有忽视未测量混杂。而关于选择偏倚和信息偏倚:首先,准确的分组和结局变量是真实世界研究中的一个关键因素,必须明确定义干预和结局,避免回顾性研究中因提前了解重要的特征变量而选择受试者入组;其次,分组和结局数据应真实可靠,不同组间的结局测量、评估需要统一。
因此,本体系从混杂偏倚、干预措施分类偏倚、发表偏倚等多个维度对真实世界研究整体进行评估,在评估偏倚问题上考虑全面。同时,本评估体系考虑在设计和分析阶段评估样本指标均衡性和对未测量混杂偏倚量化分析及敏感性分析提出了要求,有利于研究结果的稳健。本体系主要针对真实世界研究特点,具有以下优势:① 在真实世界研究的干预前阶段、干预阶段、干预后阶段分别设置评估指标,能够为真实世界研究从研究开始到结束的全过程提供质量管理指引。② 在研究的不同阶段的每个关键环节提出具体的评估条目,评估内容科学全面,例如对于混杂偏倚评估部分,该体系包含了7个条目,评估的混杂类型包括了基线混杂和时依混杂。③ 除了对研究中各种偏倚评估外,还增设了对敏感性分析、样本量评估条目,提高研究课题成果的科学性和结果稳定性。④ 本体系不仅适用于真实世界中的观察性研究,还适用于实验性的非随机干预研究、自身前后对照研究、历史对照研究等,当一个系统评价中纳入多种研究类型时,本体系可用于多种研究类型的评估,减少不同工具带来的偏差。
3.3 应用价值
目前,考虑真实世界研究证据已是循证医学发展的必经之路[22],若无可参照的证据等级评估体系,就可能为真实世界研究带来低质量的证据,产生虚假关联的研究结果,得出错误的研究结论[23]。随着循证医学的不断发展,用于检索和筛选的研究结果资源不断增多,医学科研人员在找寻真实世界证据的同时,如何从中提取相应信息对研究的证据强度进行评估也是一种挑战。本体系的构建有利于对现有的真实世界研究进行筛选评价,提高循证医学研究的效率和强度,辅助临床决策。真实世界证据等级与临床治疗密切相关,通过对证据评估权衡利弊,可便于治疗者合理、有效选择更有利、安全的治疗方案[24]。运用真实世界研究需要科学的研究计划、合理的统计方法和完整的实施过程,这对获得高质量真实世界证据至关重要[25]。为了避免研究结果产生各种偏倚和保证研究过程的透明性,在真实世界研究设计中,研究者应该特别强调分析前的研究方案的制定。本体系的评估涉及人群、干预、对照、结局、样本量等关键要素,研究者可以以该工具体系为驱动,在研究设计、数据收集、人群选择、分析总结等方面进行借鉴,从而全面、客观评价真实世界研究的偏倚风险和证据质量,对研究设计阶段具有一定的指导作用和参考价值。评估者可通过回答条目问题,制定合理的评估规则,从而判断存在的风险大小,对各个领域进行质量评分和总体评级。最后,为了使用便捷,我们通过R shiny搭建了真实世界证据评价体系的可视化操作平台。
本体系存在一定的局限性,首先,本研究的真实世界证据评价体系的使用,要求评估人员具备相关的专业知识,需要进一步的指导和培训。本研究尚未开展实证研究,如何基于真实世界证据评价体系实施评估,还需进一步对评估维度进行调整、拓展,例如如何对真实世界中数据的适用性进行评估,且条目的可操作性和合理性还待进一步验证。未来对如何进行质量评级报告,以及评估标准及规则的完善仍需进一步地深入研究。
综上所述,本研究的真实世界证据评价体系从偏倚评估、已测混杂评估、未测量混杂评估、样本量评估等多个领域入手,运用德尔菲法经过两轮专家咨询,构建了真实世界证据评价体系,注重评估内容的简易性、全面性,强调各个领域评估内容的可靠性、实用性,整体具有较好的科学性,对如何进行真实世界研究证据评价具有较好的向导作用。
声明 所有作者均声明无利益冲突
2023年2月,国家药品监督管理局药品审评中心发布《药物真实世界研究设计与方案框架指导原则(试行)》[1]用于通过真实世界研究获得药物评价的临床证据。近年来,真实世界研究在临床治疗方案选择方面表现出了巨大的潜力,并且随着技术和政策的不断改进和完善,真实世界数据(real-world data,RWD)的收集和分析变得更加容易。随机对照试验(randomised clinical trial,RCT)常常作为药物疗效和安全性评价的“金标准”,而真实世界证据(real-world evidence,RWE)能够作为临床试验提供的临床疗效之外的补充证据[2]。相对于传统RCT,RWE具有独特的优势。例如,对于疗效的异质性研究,RCT通常因亚组样本量较小而提供的证据不足,RWD借助其大样本的优势,可增强治疗效应的外推性[3]。此外,RWE可用于填补RCT未能解决的临床问题中的几个空白,如药物上市后更长的随访期发现的额外治疗效果和风险,并揭示传统RCT中未能满足的医疗需求等[4,5]。因此,RWE也越来越多地用于辅助临床决策(clinical decision-making,CDM)[6,7],包括药物或器械的使用和批准等。然而,使用RWD进行研究时,通常存在着一些问题,包括缺少随机化、偏倚混杂等[8]。
目前尚未形成符合真实世界研究特点的科学、可行、公认的证据评价体系,用于真实世界研究的证据等级评估。临床证据等级划分经历了漫长的发展,不同的组织机构制定了多种证据评估体系[9],例如用于独立评估RCT质量的Jadad量表[10]以及公认的GRADE证据等级体系[11]。相对于RCT,适用于真实世界研究的评价体系还在探索阶段,缺少成熟的经验和做法。现如今,用于评估真实世界证据质量的工具主要包括3种形式:量表式、清单式和条目式,但是大多数因适用性不强而不常使用[12]。因此,我们对现有的方法学质量评价工具进行了回顾,综合现有评估工具的条目,决定借鉴ROBINS-I(risk of bias in non-randomised studies of interventions)工具[13]及RECORD(reporting of studies conducted using observational routinely-collected health data)清单和GRACE(good research for comparative effectiveness)清单[14],形成初步的真实世界证据评估条目,然后通过德尔菲法进行专家征询,定义和选取评价指标,最终构建真实世界证据评价体系,用于评价真实世界证据研究的有效性。本研究旨在为RWE的数据质量、人群选择、研究设计、统计分析、结果报告和证据评价提供参考,为获得高质量的RWE提供依据和参考。
1 资料来源与方法
1.1 遴选征询专家
德尔菲法是通过匿名的方式向相关领域的高水平专家进行多轮咨询以征求意见和建议,一般认为专家数量控制在10~15人较合适[15],经过2轮或3轮专家咨询,专家整体意见可趋于一致。基于德尔菲法的全面性与合理性基本原则,遴选临床试验、循证医学、临床流行病学及流行病与卫生统计学等相关方面的专家。专家纳入标准:① 任职于高校、医院或科研机构的科研人员或者企业的统计师;② 硕士及以上学历;③ 副高及以上职称;④ 自愿参与本研究,保证在研究期间能持续完成多轮咨询。
1.2 问卷设置与发放
初步拟定真实世界证据评价体系的指标与专家咨询问卷。检索近年来有关证据等级评估的工具,最终决定以ROBINS-I工具[13]及RECORD清单和GRACE清单[14]为参考,提取工具中的问题条目,根据目前真实世界研究中广泛存在的偏倚和问题,结合真实世界研究特征和评估内容的可行性,初步拟定了真实世界证据评价体系的指标,并基于此设计专家咨询问卷。专家咨询问卷主要分为个人信息和指标认可度评估两部分,此外还设置了项目介绍,修改意见及专家自我评价等内容。专家认可度评分为Likert5级评分法[16],将指标的重要性划分为:非常重要、重要、一般、不太重要、不重要等5个等级,对应分值分别从5分到1分。同时设置专家修改意见,修改意见为开放式,除对指标评分外,专家可对指标提出开放式的修改意见。对于初步拟定的评估体系咨询问卷,邀请专家通过“问卷星”平台进行咨询和回复,并通过短信、微信、电话等途径进行提醒;每轮调研时限为2周。专家返回问卷后汇总,综合整理专家修改意见,经讨论后形成下一轮调研。目前,汇总两轮专家意见,最终形成一致的咨询结果。
1.3 统计学方法及指标
使用R 4.3.2软件进行专家积极系数、集中系数(m)、变异系数(coefficient of variation,CV)、权威系数(confidence rate,Cr)及意见协调系数等指标的统计分析。
1)专家积极系数一般指问卷的有效回收率,通常认为专家积极系数>70%是专家对研究内容积极参与和持续关注的表现。
2)专家意见集中程度和协调程度主要依赖m和CV。各指标重要性分值的均数反映各专家意见集中程度,m的分值越大,意味着该条目的重要性越高,专家意见集中程度越高[17]。CV反映专家对指标重要性的集中协调程度,CV的数值越小,说明专家对该指标重要性评价的协调程度越高。一般认为,CV≤0.3则该指标协调程度可接受。
3)专家权威程度用Cr>表示,Cr=(Ca+Cs)/2。Ca是指专家为条目重要性赋分时依据的量化参数,基于实践经验较多(0.5)、一般(0.4)、较少(0.3);基于理论分析较多(0.3)、一般(0.2)、较少(0.1);参考国内外文献、直觉选择均为0.1。Cs依次为不熟悉、不太熟悉、一般、熟悉、非常熟悉,分别赋值0.1、0.3、0.5、0.7、0.9分。当Cr≥0.70表明在本次调查中专家权威程度处于较高水平[18]。
4)使用肯德尔协调系数(W)表示专家意见协调程度,0<W<1,系数越大说明专家的协调程度越好,需进行卡方检验,检验水准为0.05[19]。
1.4 指标筛选标准
本研究采用重要性评分>3作为指标筛选标准,结合专家意见及课题组内讨论后结果,研究组在综合考虑评估问题科学性、合理性和全面性的基础上,对条目进行增减或修改。
2 结果
2.1 专家基本情况及积极系数
两轮德尔菲法问卷分别发放17份和15份,分别回收有效问卷15份,专家积极系数分别为88.2%和100%,说明专家对本次评价体系制订的关注度及积极性较高。两轮专家构成不变,具体情况见表1。

2.2 专家权威程度
两轮德尔菲法的专家主要为高校教师,93.33%的专家有博士学历,且工作年限至少为5年。Cr分别为0.873和0.883,说明参与调研专家在真实世界研究方面具有较高的基本理论和实践操作水平,权威性和可信度较高,具有一定代表性。见表2。

2.3 问卷信度
两轮调研指标重要性的协调程度分别为0.174(P值<0.001)和0.189(P值<0.001),根据W的计算公式,条目较多时,该系数较小。第2轮指标的协调程度较第1轮有所上升,表明第2轮专家对各项指标的评价不存在较大差异,意见渐趋于一致。见表3。

2.4 指标的定义及修改
2.4.1 第一轮问卷结果
对第一轮专家咨询结果进行统计分析,各指标重要性评分为3.33~4.73,CV为0.11~0.33。根据专家对指标内容的概念、含义、评分结果及修改意见,指标修改如下:
对于混杂偏倚评估,1.4条目和1.7条目存在信息重复,将1.7条目中的“重要的混杂和时依混杂”改为“基线混杂和时依混杂”。1.6条目表达不够明确,添加了补充信息“(干预后因素可能为中介变量)”。选择偏倚评估中,2.2~2.4条目表述不明,因此将条目中的“预后因素”改为“干预后变量”。4.3条目将“共同干预”改为“伴随干预”。4.4条目补充了干预措施的情况“例如是否接受药物或手术”。5.5条目为了使条目的评估更加明确将“证据”改为“证据(敏感性分析结果)”,“结果依然是可靠的”改为“结果依然是稳健的(具有鲁棒性)”。对6.1条目的描述进行扩充,将其改为“结局的测量是否受到干预相关信息的影响(结局测量的研究者是否已知/了解受试者的干预措施)?”。对于已测混杂分析评估,倾向性评分只是一种常见方法,现阶段没有标准,因此将8.1条目的表述改为“研究中是否进行了已测混杂调整,例如匹配、加权、应用倾向性评分的策略?”。真实世界中的样本量的计算不仅仅基于α这一个参数,因此将10.1条目改为“本研究是否进行了样本量估算或根据研究的样本量及一类错误(α)等参数计算研究把握度(power)?”
2.4.2 第二轮问卷结果
第二轮专家咨询中各个条目重要性评分的平均分为3.73~4.93分,CV为0.05~0.21,专家意见趋于一致,不再对该评估体系中的条目进行修改。
2.5 评价指标体系形成
初步拟定真实世界证据评估体系指标池,包括40个条目指标。根据指标筛选标准和专家意见对指标进行2轮修改后,最终形成的真实世界证据评价体系,见表4。

3 讨论
3.1 科学性和可靠性
本研究构建真实世界证据评价体系是通过文献调研,借鉴ROBINS-I工具[13]、RECORD清单和GRACE清单[14],并且经过多位具有广泛专业知识背景和经验的专家咨询而形成的。本研究针对真实世界研究的特点,初步构建真实世界证据评价体系指标池,进行问卷咨询,归纳专家意见,经讨论后形成了真实世界证据评估体系工具,应用德尔菲法对体系中各部分指标设置进行评价。本研究共计完成两轮专家咨询,结果显示,两轮咨询的专家积极性和权威程度均很高,W均具有统计学意义,专家意见趋于一致。我们根据专家意见对该体系进行了修改,使指标更加科学和完善,最终获得可靠的评估体系和研究结论。
3.2 本研究的优势
随着真实世界研究的不断出现,真实世界证据将在制订治疗指南和医疗决策方面的作用不断增强[20]。因此,全面评估真实世界研究质量并进行真实世界证据等级划分将是实现真实世界研究潜力的关键点之一。目前,大多数证据等级和研究设计等级体系均基于各种经典的临床流行病学研究设计,未将RWS设计类型及其证据纳入考量。针对真实世界研究较少,往往是针对不同类型使用不同的质量评估工具,常用的观察性研究的质量评价工具,包括适用于病例-对照研究和队列研究的NOS量表[21],适用于队列研究和病例-对照研究的CASP清单和用于横断面研究评价的美国卫生保健质量和研究机构推荐评价标准(Agency of Healthcare Research and Quality,AHRQ)。RECORD清单和GRACE清单用于真实世界研究规范报告,但不能用于评价研究质量[14]。此外,如何基于真实世界研究进行因果推断,是真实世界证据的一大难题。长久以来,真实世界研究质量因其受到偏倚的影响而被广泛诟病,在《药物真实世界研究设计与方案框架指导原则(试行)》[1]中明确说明偏倚是真实世界研究中特别需要考虑的问题,在方案中应充分考虑各种潜在偏倚及其影响,并制定控制偏倚的有效措施。一般情况下,真实世界研究包括两大类,观察性研究和实用临床研究[1]。在观察性研究中,通常存在混杂偏倚、选择偏倚和信息偏倚三个方面。对于混杂偏倚,本体系考虑研究中需清晰明确现有的已知混杂,预先收集混杂变量的数据,并使用适当的方法进行控制。此外,本体系也没有忽视未测量混杂。而关于选择偏倚和信息偏倚:首先,准确的分组和结局变量是真实世界研究中的一个关键因素,必须明确定义干预和结局,避免回顾性研究中因提前了解重要的特征变量而选择受试者入组;其次,分组和结局数据应真实可靠,不同组间的结局测量、评估需要统一。
因此,本体系从混杂偏倚、干预措施分类偏倚、发表偏倚等多个维度对真实世界研究整体进行评估,在评估偏倚问题上考虑全面。同时,本评估体系考虑在设计和分析阶段评估样本指标均衡性和对未测量混杂偏倚量化分析及敏感性分析提出了要求,有利于研究结果的稳健。本体系主要针对真实世界研究特点,具有以下优势:① 在真实世界研究的干预前阶段、干预阶段、干预后阶段分别设置评估指标,能够为真实世界研究从研究开始到结束的全过程提供质量管理指引。② 在研究的不同阶段的每个关键环节提出具体的评估条目,评估内容科学全面,例如对于混杂偏倚评估部分,该体系包含了7个条目,评估的混杂类型包括了基线混杂和时依混杂。③ 除了对研究中各种偏倚评估外,还增设了对敏感性分析、样本量评估条目,提高研究课题成果的科学性和结果稳定性。④ 本体系不仅适用于真实世界中的观察性研究,还适用于实验性的非随机干预研究、自身前后对照研究、历史对照研究等,当一个系统评价中纳入多种研究类型时,本体系可用于多种研究类型的评估,减少不同工具带来的偏差。
3.3 应用价值
目前,考虑真实世界研究证据已是循证医学发展的必经之路[22],若无可参照的证据等级评估体系,就可能为真实世界研究带来低质量的证据,产生虚假关联的研究结果,得出错误的研究结论[23]。随着循证医学的不断发展,用于检索和筛选的研究结果资源不断增多,医学科研人员在找寻真实世界证据的同时,如何从中提取相应信息对研究的证据强度进行评估也是一种挑战。本体系的构建有利于对现有的真实世界研究进行筛选评价,提高循证医学研究的效率和强度,辅助临床决策。真实世界证据等级与临床治疗密切相关,通过对证据评估权衡利弊,可便于治疗者合理、有效选择更有利、安全的治疗方案[24]。运用真实世界研究需要科学的研究计划、合理的统计方法和完整的实施过程,这对获得高质量真实世界证据至关重要[25]。为了避免研究结果产生各种偏倚和保证研究过程的透明性,在真实世界研究设计中,研究者应该特别强调分析前的研究方案的制定。本体系的评估涉及人群、干预、对照、结局、样本量等关键要素,研究者可以以该工具体系为驱动,在研究设计、数据收集、人群选择、分析总结等方面进行借鉴,从而全面、客观评价真实世界研究的偏倚风险和证据质量,对研究设计阶段具有一定的指导作用和参考价值。评估者可通过回答条目问题,制定合理的评估规则,从而判断存在的风险大小,对各个领域进行质量评分和总体评级。最后,为了使用便捷,我们通过R shiny搭建了真实世界证据评价体系的可视化操作平台。
本体系存在一定的局限性,首先,本研究的真实世界证据评价体系的使用,要求评估人员具备相关的专业知识,需要进一步的指导和培训。本研究尚未开展实证研究,如何基于真实世界证据评价体系实施评估,还需进一步对评估维度进行调整、拓展,例如如何对真实世界中数据的适用性进行评估,且条目的可操作性和合理性还待进一步验证。未来对如何进行质量评级报告,以及评估标准及规则的完善仍需进一步地深入研究。
综上所述,本研究的真实世界证据评价体系从偏倚评估、已测混杂评估、未测量混杂评估、样本量评估等多个领域入手,运用德尔菲法经过两轮专家咨询,构建了真实世界证据评价体系,注重评估内容的简易性、全面性,强调各个领域评估内容的可靠性、实用性,整体具有较好的科学性,对如何进行真实世界研究证据评价具有较好的向导作用。
声明 所有作者均声明无利益冲突