基于德尔菲法构建真实世界证据评价体系_《中国循证医学杂志》

作者：

姚振阁 ¹ , 周佳薇 ¹ , 陆梦依 ^1,2 , 尤东方 ¹ ,  赵杨 ^1,2,3

1. 南京医科大学公共卫生学院生物统计学系（南京 211166）;
2. 南京医科大学国家疫苗研发创新平台（南京 211166）;
3. 江苏省恶性肿瘤生物标志物与防治重点实验室, 肿瘤个体化医学省部共建协同创新中心（南京 211166）;

关键词：

真实世界证据德尔菲法质量评价偏倚识别

DOI：

10.7507/1672-2531.202402025

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

目的构建真实世界证据评价体系，为获得高质量的循证医学证据提供参考。方法通过调研、分析影响真实世界研究证据的关键因素，结合国内外文献和评估工具，初步确定真实世界证据评价体系的指标，采用德尔菲法对相关领域专家进行征询，修改并确定最终评价指标。结果最终构建的真实世界证据评价体系的指标包括40个条目。两轮专家征询的有效回收率为88.2%和100%；专家协调系数为0.174（P<0.001）和0.189（P<0.001）。第2轮征询后专家意见的均数集中在3.73～4.93，变异系数变化范围为0.05～0.21。结论本研究构建的真实世界证据评价体系具有一定的可靠性和科学性，能够为真实世界研究转化为高质量的证据提供依据和帮助。

引用本文： 姚振阁, 周佳薇, 陆梦依, 尤东方, 赵杨. 基于德尔菲法构建真实世界证据评价体系. 中国循证医学杂志, 2024, 24(10): 1156-1161. doi: 10.7507/1672-2531.202402025 复制

2023年2月，国家药品监督管理局药品审评中心发布《药物真实世界研究设计与方案框架指导原则（试行）》^[1]用于通过真实世界研究获得药物评价的临床证据。近年来，真实世界研究在临床治疗方案选择方面表现出了巨大的潜力，并且随着技术和政策的不断改进和完善，真实世界数据（real-world data，RWD）的收集和分析变得更加容易。随机对照试验（randomised clinical trial，RCT）常常作为药物疗效和安全性评价的“金标准”，而真实世界证据（real-world evidence，RWE）能够作为临床试验提供的临床疗效之外的补充证据^[2]。相对于传统RCT，RWE具有独特的优势。例如，对于疗效的异质性研究，RCT通常因亚组样本量较小而提供的证据不足，RWD借助其大样本的优势，可增强治疗效应的外推性^[3]。此外，RWE可用于填补RCT未能解决的临床问题中的几个空白，如药物上市后更长的随访期发现的额外治疗效果和风险，并揭示传统RCT中未能满足的医疗需求等^[4,5]。因此，RWE也越来越多地用于辅助临床决策（clinical decision-making，CDM）^[6,7]，包括药物或器械的使用和批准等。然而，使用RWD进行研究时，通常存在着一些问题，包括缺少随机化、偏倚混杂等^[8]。

目前尚未形成符合真实世界研究特点的科学、可行、公认的证据评价体系，用于真实世界研究的证据等级评估。临床证据等级划分经历了漫长的发展，不同的组织机构制定了多种证据评估体系^[9]，例如用于独立评估RCT质量的Jadad量表^[10]以及公认的GRADE证据等级体系^[11]。相对于RCT，适用于真实世界研究的评价体系还在探索阶段，缺少成熟的经验和做法。现如今，用于评估真实世界证据质量的工具主要包括3种形式：量表式、清单式和条目式，但是大多数因适用性不强而不常使用^[12]。因此，我们对现有的方法学质量评价工具进行了回顾，综合现有评估工具的条目，决定借鉴ROBINS-I（risk of bias in non-randomised studies of interventions）工具^[13]及RECORD（reporting of studies conducted using observational routinely-collected health data）清单和GRACE（good research for comparative effectiveness）清单^[14]，形成初步的真实世界证据评估条目，然后通过德尔菲法进行专家征询，定义和选取评价指标，最终构建真实世界证据评价体系，用于评价真实世界证据研究的有效性。本研究旨在为RWE的数据质量、人群选择、研究设计、统计分析、结果报告和证据评价提供参考，为获得高质量的RWE提供依据和参考。

1 资料来源与方法

1.1 遴选征询专家

德尔菲法是通过匿名的方式向相关领域的高水平专家进行多轮咨询以征求意见和建议，一般认为专家数量控制在10～15人较合适^[15]，经过2轮或3轮专家咨询，专家整体意见可趋于一致。基于德尔菲法的全面性与合理性基本原则，遴选临床试验、循证医学、临床流行病学及流行病与卫生统计学等相关方面的专家。专家纳入标准：① 任职于高校、医院或科研机构的科研人员或者企业的统计师；② 硕士及以上学历；③ 副高及以上职称；④ 自愿参与本研究，保证在研究期间能持续完成多轮咨询。

1.2 问卷设置与发放

初步拟定真实世界证据评价体系的指标与专家咨询问卷。检索近年来有关证据等级评估的工具，最终决定以ROBINS-I工具^[13]及RECORD清单和GRACE清单^[14]为参考，提取工具中的问题条目，根据目前真实世界研究中广泛存在的偏倚和问题，结合真实世界研究特征和评估内容的可行性，初步拟定了真实世界证据评价体系的指标，并基于此设计专家咨询问卷。专家咨询问卷主要分为个人信息和指标认可度评估两部分，此外还设置了项目介绍，修改意见及专家自我评价等内容。专家认可度评分为Likert5级评分法^[16]，将指标的重要性划分为：非常重要、重要、一般、不太重要、不重要等5个等级，对应分值分别从5分到1分。同时设置专家修改意见，修改意见为开放式，除对指标评分外，专家可对指标提出开放式的修改意见。对于初步拟定的评估体系咨询问卷，邀请专家通过“问卷星”平台进行咨询和回复，并通过短信、微信、电话等途径进行提醒；每轮调研时限为2周。专家返回问卷后汇总，综合整理专家修改意见，经讨论后形成下一轮调研。目前，汇总两轮专家意见，最终形成一致的咨询结果。

1.3 统计学方法及指标

使用R 4.3.2软件进行专家积极系数、集中系数（m）、变异系数（coefficient of variation，CV）、权威系数（confidence rate，Cr）及意见协调系数等指标的统计分析。

1）专家积极系数一般指问卷的有效回收率，通常认为专家积极系数>70%是专家对研究内容积极参与和持续关注的表现。

2）专家意见集中程度和协调程度主要依赖m和CV。各指标重要性分值的均数反映各专家意见集中程度，m的分值越大，意味着该条目的重要性越高，专家意见集中程度越高^[17]。CV反映专家对指标重要性的集中协调程度，CV的数值越小，说明专家对该指标重要性评价的协调程度越高。一般认为，CV≤0.3则该指标协调程度可接受。

3）专家权威程度用Cr>表示，Cr=（Ca+Cs）/2。Ca是指专家为条目重要性赋分时依据的量化参数，基于实践经验较多（0.5）、一般（0.4）、较少（0.3）；基于理论分析较多（0.3）、一般（0.2）、较少（0.1）；参考国内外文献、直觉选择均为0.1。Cs依次为不熟悉、不太熟悉、一般、熟悉、非常熟悉，分别赋值0.1、0.3、0.5、0.7、0.9分。当Cr≥0.70表明在本次调查中专家权威程度处于较高水平^[18]。

4）使用肯德尔协调系数（W）表示专家意见协调程度，0<W<1，系数越大说明专家的协调程度越好，需进行卡方检验，检验水准为0.05^[19]。

1.4 指标筛选标准

本研究采用重要性评分>3作为指标筛选标准，结合专家意见及课题组内讨论后结果，研究组在综合考虑评估问题科学性、合理性和全面性的基础上，对条目进行增减或修改。

2 结果

2.1 专家基本情况及积极系数

两轮德尔菲法问卷分别发放17份和15份，分别回收有效问卷15份，专家积极系数分别为88.2%和100%，说明专家对本次评价体系制订的关注度及积极性较高。两轮专家构成不变，具体情况见表1。

表1 专家基本信息

表选项

下载CSV

条目	人数（n=15）	构成比（%）
年龄
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作单位
高等院校	11	73.33
医院	2	13.33
公司企业	2	13.33
职业
大学教师	10	66.67
统计师	4	26.67
企业高管	1	6.67
职称
副高级	3	20.00
正高级	10	66.67
其它	2	13.33
学历
硕士	1	6.67
博士	14	93.33

2.2 专家权威程度

两轮德尔菲法的专家主要为高校教师，93.33%的专家有博士学历，且工作年限至少为5年。Cr分别为0.873和0.883，说明参与调研专家在真实世界研究方面具有较高的基本理论和实践操作水平，权威性和可信度较高，具有一定代表性。见表2。

表2 专家权威程度

表选项

下载CSV

轮次	判断系数（Ca）	熟悉程度（Cs）	权威系数（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

2.3 问卷信度

两轮调研指标重要性的协调程度分别为0.174（P值<0.001）和0.189（P值<0.001），根据W的计算公式，条目较多时，该系数较小。第2轮指标的协调程度较第1轮有所上升，表明第2轮专家对各项指标的评价不存在较大差异，意见渐趋于一致。见表3。

表3 专家意见协调程度

表选项

下载CSV

轮次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

2.4 指标的定义及修改

2.4.1 第一轮问卷结果

对第一轮专家咨询结果进行统计分析，各指标重要性评分为3.33～4.73，CV为0.11～0.33。根据专家对指标内容的概念、含义、评分结果及修改意见，指标修改如下：

对于混杂偏倚评估，1.4条目和1.7条目存在信息重复，将1.7条目中的“重要的混杂和时依混杂”改为“基线混杂和时依混杂”。1.6条目表达不够明确，添加了补充信息“（干预后因素可能为中介变量）”。选择偏倚评估中，2.2～2.4条目表述不明，因此将条目中的“预后因素”改为“干预后变量”。4.3条目将“共同干预”改为“伴随干预”。4.4条目补充了干预措施的情况“例如是否接受药物或手术”。5.5条目为了使条目的评估更加明确将“证据”改为“证据（敏感性分析结果）”，“结果依然是可靠的”改为“结果依然是稳健的（具有鲁棒性）”。对6.1条目的描述进行扩充，将其改为“结局的测量是否受到干预相关信息的影响（结局测量的研究者是否已知/了解受试者的干预措施）？”。对于已测混杂分析评估，倾向性评分只是一种常见方法，现阶段没有标准，因此将8.1条目的表述改为“研究中是否进行了已测混杂调整，例如匹配、加权、应用倾向性评分的策略？”。真实世界中的样本量的计算不仅仅基于α这一个参数，因此将10.1条目改为“本研究是否进行了样本量估算或根据研究的样本量及一类错误（α）等参数计算研究把握度（power）？”

2.4.2 第二轮问卷结果

第二轮专家咨询中各个条目重要性评分的平均分为3.73～4.93分，CV为0.05～0.21，专家意见趋于一致，不再对该评估体系中的条目进行修改。

2.5 评价指标体系形成

初步拟定真实世界证据评估体系指标池，包括40个条目指标。根据指标筛选标准和专家意见对指标进行2轮修改后，最终形成的真实世界证据评价体系，见表4。

表4 基于德尔菲法构建的真实世界证据评价体系指标

表选项

下载CSV

表4 基于德尔菲法构建的真实世界证据评价体系指标

条目	重要性评分	变异系数
1. 混杂偏倚评估
1.1. 在这项研究中是否可能存在混杂因素？	4.73±0.59	0.13
1.2. 该研究是否基于受试者接受的干预措施划分随访时间？	4.27±0.70	0.17
1.3. 停止干预或转组是否可能与某些影响预后的变量有关？	4.40±0.74	0.17
1.4. 作者是否使用了适当的分析方法来控制所有重要的混杂？	4.87±0.35	0.07
1.5. 本研究中可用的变量是否可以代表有效、可靠测量的混杂？	4.53±0.52	0.11
1.6. 研究者是否调整了可能受到干预影响的干预后因素（干预后因素可能为中介变量）？	4.27±0.59	0.14
1.7. 研究者是否使用了适当的分析方法来控制所有的基线混杂和时依混杂？	4.67±0.62	0.13
2. 选择偏倚评估
2.1. 根据干预开始后观察到的受试者特征来选择参与研究（或分析）的受试者？	4.67±0.49	0.11
2.2. 与干预相关的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.3. 受结局（结局的原因）影响的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.4. 大多数受试者是否在干预开始时进行随访（或者在随访开始时接受干预）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法调整了可能存在的选择偏倚？	4.73±0.46	0.10
3. 干预措施分类偏倚评估
3.1. 各干预组是否有明确的定义？	4.93±0.26	0.05
3.2. 用于定义干预组的信息是否在干预开始时就被记录下来？	4.73±0.46	0.10
3.3. 干预状态的分类是否受到对结局或结局风险提前了解的影响？	4.13±0.64	0.16
4. 偏离预期干预偏倚评估
4.1. 是否有偏离干预的情况（超出预期或超出常规情形）出现（依从性较差，例如出现超出预期的转组或失访等）？	4.13±0.64	0.16
4.2. 这些偏离预期干预的偏差是否在组间不平衡，并可能影响结果？	4.67±0.62	0.13
4.3. 干预组间的重要的伴随干预在干预组之间是否均衡？	4.20±0.56	0.13
4.4. 大多数受试者是否成功地接受了干预措施（例如是否接受药物或手术）？	4.40±0.74	0.17
4.5. 受试者是否坚持指定的干预措施？	4.07±0.59	0.15
4.6. 研究是否采用了适当的分析来评估干预的依从效果？	4.47±0.74	0.17
5. 缺失数据偏倚评估
5.1. 是否所有或者几乎所有受试者都有结局数据？	4.13±0.52	0.13
5.2. 是否由于干预状态的数据缺失而排除受试者？	4.13±0.74	0.18
5.3. 是否因为受试者其他变量（包括协变量等）缺失而在分析中将其排除？	4.07±0.59	0.15
5.4. 在不同的干预措施中，数据缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有证据（敏感性分析结果）表明，虽然缺失数据存在，但是研究结果依然是稳健的（具有鲁棒性）？	4.60±0.51	0.11
6. 结果测量偏倚评估
6.1. 结局的测量是否受到干预相关信息的影响（结局测量的研究者是否已知/了解受试者的干预措施）？	4.20±0.78	0.18
6.2. 结局评估者是否了解受试者接受的干预？	4.33±0.72	0.17
6.3. 不同干预组结局的评估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 结局测量过程中的系统误差是否与受试者接受的干预相关？	4.27±0.59	0.14
7. 选择报告偏倚评估
7.1. 研究的效应估计是否可能从多个不同结果测量中进行选择报告？	4.33±0.72	0.17
7.2. 研究的效应估计是否可能从多种统计分析方法的结果中进行选择报告？	4.40±0.63	0.14
7.3. 研究的效应估计是否可能从不同的亚组中进行选择报告？	4.27±0.70	0.17
8. 已测混杂分析评估
8.1. 研究中是否进行了已测混杂调整，例如匹配、加权、应用倾向性评分的策略？	4.53±0.64	0.14
8.2. 是否对变量的均衡性进行了描述和检验？	4.47±0.64	0.14
9. 未测混杂分析评估
9.1. 研究中是否可以有合适的方法（工具变量法、断点回归法等）控制未测量混杂并且使用了这些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法对未测量混杂对效应的潜在影响进行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用验证数据集）对未测量混杂进行了评估和校正？	4.47±0.64	0.14
10. 样本量评估
10.1. 本研究是否进行了样本量估算或根据研究的样本量及一类错误（α）等参数计算研究把握度（power）？	4.00±0.85	0.21
10.2. 样本量估算的参数来源是否具有可靠的科学依据？	3.80±0.78	0.20

3 讨论

3.1 科学性和可靠性

本研究构建真实世界证据评价体系是通过文献调研，借鉴ROBINS-I工具^[13]、RECORD清单和GRACE清单^[14]，并且经过多位具有广泛专业知识背景和经验的专家咨询而形成的。本研究针对真实世界研究的特点，初步构建真实世界证据评价体系指标池，进行问卷咨询，归纳专家意见，经讨论后形成了真实世界证据评估体系工具，应用德尔菲法对体系中各部分指标设置进行评价。本研究共计完成两轮专家咨询，结果显示，两轮咨询的专家积极性和权威程度均很高，W均具有统计学意义，专家意见趋于一致。我们根据专家意见对该体系进行了修改，使指标更加科学和完善，最终获得可靠的评估体系和研究结论。

3.2 本研究的优势

随着真实世界研究的不断出现，真实世界证据将在制订治疗指南和医疗决策方面的作用不断增强^[20]。因此，全面评估真实世界研究质量并进行真实世界证据等级划分将是实现真实世界研究潜力的关键点之一。目前，大多数证据等级和研究设计等级体系均基于各种经典的临床流行病学研究设计，未将RWS设计类型及其证据纳入考量。针对真实世界研究较少，往往是针对不同类型使用不同的质量评估工具，常用的观察性研究的质量评价工具，包括适用于病例-对照研究和队列研究的NOS量表^[21]，适用于队列研究和病例-对照研究的CASP清单和用于横断面研究评价的美国卫生保健质量和研究机构推荐评价标准（Agency of Healthcare Research and Quality，AHRQ）。RECORD清单和GRACE清单用于真实世界研究规范报告，但不能用于评价研究质量^[14]。此外，如何基于真实世界研究进行因果推断，是真实世界证据的一大难题。长久以来，真实世界研究质量因其受到偏倚的影响而被广泛诟病，在《药物真实世界研究设计与方案框架指导原则（试行）》^[1]中明确说明偏倚是真实世界研究中特别需要考虑的问题，在方案中应充分考虑各种潜在偏倚及其影响，并制定控制偏倚的有效措施。一般情况下，真实世界研究包括两大类，观察性研究和实用临床研究^[1]。在观察性研究中，通常存在混杂偏倚、选择偏倚和信息偏倚三个方面。对于混杂偏倚，本体系考虑研究中需清晰明确现有的已知混杂，预先收集混杂变量的数据，并使用适当的方法进行控制。此外，本体系也没有忽视未测量混杂。而关于选择偏倚和信息偏倚：首先，准确的分组和结局变量是真实世界研究中的一个关键因素，必须明确定义干预和结局，避免回顾性研究中因提前了解重要的特征变量而选择受试者入组；其次，分组和结局数据应真实可靠，不同组间的结局测量、评估需要统一。

因此，本体系从混杂偏倚、干预措施分类偏倚、发表偏倚等多个维度对真实世界研究整体进行评估，在评估偏倚问题上考虑全面。同时，本评估体系考虑在设计和分析阶段评估样本指标均衡性和对未测量混杂偏倚量化分析及敏感性分析提出了要求，有利于研究结果的稳健。本体系主要针对真实世界研究特点，具有以下优势：① 在真实世界研究的干预前阶段、干预阶段、干预后阶段分别设置评估指标，能够为真实世界研究从研究开始到结束的全过程提供质量管理指引。② 在研究的不同阶段的每个关键环节提出具体的评估条目，评估内容科学全面，例如对于混杂偏倚评估部分，该体系包含了7个条目，评估的混杂类型包括了基线混杂和时依混杂。③ 除了对研究中各种偏倚评估外，还增设了对敏感性分析、样本量评估条目，提高研究课题成果的科学性和结果稳定性。④ 本体系不仅适用于真实世界中的观察性研究，还适用于实验性的非随机干预研究、自身前后对照研究、历史对照研究等，当一个系统评价中纳入多种研究类型时，本体系可用于多种研究类型的评估，减少不同工具带来的偏差。

3.3 应用价值

目前，考虑真实世界研究证据已是循证医学发展的必经之路^[22]，若无可参照的证据等级评估体系，就可能为真实世界研究带来低质量的证据，产生虚假关联的研究结果，得出错误的研究结论^[23]。随着循证医学的不断发展，用于检索和筛选的研究结果资源不断增多，医学科研人员在找寻真实世界证据的同时，如何从中提取相应信息对研究的证据强度进行评估也是一种挑战。本体系的构建有利于对现有的真实世界研究进行筛选评价，提高循证医学研究的效率和强度，辅助临床决策。真实世界证据等级与临床治疗密切相关，通过对证据评估权衡利弊，可便于治疗者合理、有效选择更有利、安全的治疗方案^[24]。运用真实世界研究需要科学的研究计划、合理的统计方法和完整的实施过程，这对获得高质量真实世界证据至关重要^[25]。为了避免研究结果产生各种偏倚和保证研究过程的透明性，在真实世界研究设计中，研究者应该特别强调分析前的研究方案的制定。本体系的评估涉及人群、干预、对照、结局、样本量等关键要素，研究者可以以该工具体系为驱动，在研究设计、数据收集、人群选择、分析总结等方面进行借鉴，从而全面、客观评价真实世界研究的偏倚风险和证据质量，对研究设计阶段具有一定的指导作用和参考价值。评估者可通过回答条目问题，制定合理的评估规则，从而判断存在的风险大小，对各个领域进行质量评分和总体评级。最后，为了使用便捷，我们通过R shiny搭建了真实世界证据评价体系的可视化操作平台。

本体系存在一定的局限性，首先，本研究的真实世界证据评价体系的使用，要求评估人员具备相关的专业知识，需要进一步的指导和培训。本研究尚未开展实证研究，如何基于真实世界证据评价体系实施评估，还需进一步对评估维度进行调整、拓展，例如如何对真实世界中数据的适用性进行评估，且条目的可操作性和合理性还待进一步验证。未来对如何进行质量评级报告，以及评估标准及规则的完善仍需进一步地深入研究。

综上所述，本研究的真实世界证据评价体系从偏倚评估、已测混杂评估、未测量混杂评估、样本量评估等多个领域入手，运用德尔菲法经过两轮专家咨询，构建了真实世界证据评价体系，注重评估内容的简易性、全面性，强调各个领域评估内容的可靠性、实用性，整体具有较好的科学性，对如何进行真实世界研究证据评价具有较好的向导作用。

声明　所有作者均声明无利益冲突

1 资料来源与方法

1.1 遴选征询专家

1.2 问卷设置与发放

1.3 统计学方法及指标

1）专家积极系数一般指问卷的有效回收率，通常认为专家积极系数>70%是专家对研究内容积极参与和持续关注的表现。

4）使用肯德尔协调系数（W）表示专家意见协调程度，0<W<1，系数越大说明专家的协调程度越好，需进行卡方检验，检验水准为0.05^[19]。

1.4 指标筛选标准

2 结果

2.1 专家基本情况及积极系数

表1 专家基本信息

表选项

下载CSV

条目	人数（n=15）	构成比（%）
年龄
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作单位
高等院校	11	73.33
医院	2	13.33
公司企业	2	13.33
职业
大学教师	10	66.67
统计师	4	26.67
企业高管	1	6.67
职称
副高级	3	20.00
正高级	10	66.67
其它	2	13.33
学历
硕士	1	6.67
博士	14	93.33

2.2 专家权威程度

表2 专家权威程度

表选项

下载CSV

轮次	判断系数（Ca）	熟悉程度（Cs）	权威系数（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

2.3 问卷信度

表3 专家意见协调程度

表选项

下载CSV

轮次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

2.4 指标的定义及修改

2.4.1 第一轮问卷结果

2.4.2 第二轮问卷结果

第二轮专家咨询中各个条目重要性评分的平均分为3.73～4.93分，CV为0.05～0.21，专家意见趋于一致，不再对该评估体系中的条目进行修改。

2.5 评价指标体系形成

表4 基于德尔菲法构建的真实世界证据评价体系指标

表选项

下载CSV

表4 基于德尔菲法构建的真实世界证据评价体系指标

条目	重要性评分	变异系数
1. 混杂偏倚评估
1.1. 在这项研究中是否可能存在混杂因素？	4.73±0.59	0.13
1.2. 该研究是否基于受试者接受的干预措施划分随访时间？	4.27±0.70	0.17
1.3. 停止干预或转组是否可能与某些影响预后的变量有关？	4.40±0.74	0.17
1.4. 作者是否使用了适当的分析方法来控制所有重要的混杂？	4.87±0.35	0.07
1.5. 本研究中可用的变量是否可以代表有效、可靠测量的混杂？	4.53±0.52	0.11
1.6. 研究者是否调整了可能受到干预影响的干预后因素（干预后因素可能为中介变量）？	4.27±0.59	0.14
1.7. 研究者是否使用了适当的分析方法来控制所有的基线混杂和时依混杂？	4.67±0.62	0.13
2. 选择偏倚评估
2.1. 根据干预开始后观察到的受试者特征来选择参与研究（或分析）的受试者？	4.67±0.49	0.11
2.2. 与干预相关的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.3. 受结局（结局的原因）影响的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.4. 大多数受试者是否在干预开始时进行随访（或者在随访开始时接受干预）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法调整了可能存在的选择偏倚？	4.73±0.46	0.10
3. 干预措施分类偏倚评估
3.1. 各干预组是否有明确的定义？	4.93±0.26	0.05
3.2. 用于定义干预组的信息是否在干预开始时就被记录下来？	4.73±0.46	0.10
3.3. 干预状态的分类是否受到对结局或结局风险提前了解的影响？	4.13±0.64	0.16
4. 偏离预期干预偏倚评估
4.1. 是否有偏离干预的情况（超出预期或超出常规情形）出现（依从性较差，例如出现超出预期的转组或失访等）？	4.13±0.64	0.16
4.2. 这些偏离预期干预的偏差是否在组间不平衡，并可能影响结果？	4.67±0.62	0.13
4.3. 干预组间的重要的伴随干预在干预组之间是否均衡？	4.20±0.56	0.13
4.4. 大多数受试者是否成功地接受了干预措施（例如是否接受药物或手术）？	4.40±0.74	0.17
4.5. 受试者是否坚持指定的干预措施？	4.07±0.59	0.15
4.6. 研究是否采用了适当的分析来评估干预的依从效果？	4.47±0.74	0.17
5. 缺失数据偏倚评估
5.1. 是否所有或者几乎所有受试者都有结局数据？	4.13±0.52	0.13
5.2. 是否由于干预状态的数据缺失而排除受试者？	4.13±0.74	0.18
5.3. 是否因为受试者其他变量（包括协变量等）缺失而在分析中将其排除？	4.07±0.59	0.15
5.4. 在不同的干预措施中，数据缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有证据（敏感性分析结果）表明，虽然缺失数据存在，但是研究结果依然是稳健的（具有鲁棒性）？	4.60±0.51	0.11
6. 结果测量偏倚评估
6.1. 结局的测量是否受到干预相关信息的影响（结局测量的研究者是否已知/了解受试者的干预措施）？	4.20±0.78	0.18
6.2. 结局评估者是否了解受试者接受的干预？	4.33±0.72	0.17
6.3. 不同干预组结局的评估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 结局测量过程中的系统误差是否与受试者接受的干预相关？	4.27±0.59	0.14
7. 选择报告偏倚评估
7.1. 研究的效应估计是否可能从多个不同结果测量中进行选择报告？	4.33±0.72	0.17
7.2. 研究的效应估计是否可能从多种统计分析方法的结果中进行选择报告？	4.40±0.63	0.14
7.3. 研究的效应估计是否可能从不同的亚组中进行选择报告？	4.27±0.70	0.17
8. 已测混杂分析评估
8.1. 研究中是否进行了已测混杂调整，例如匹配、加权、应用倾向性评分的策略？	4.53±0.64	0.14
8.2. 是否对变量的均衡性进行了描述和检验？	4.47±0.64	0.14
9. 未测混杂分析评估
9.1. 研究中是否可以有合适的方法（工具变量法、断点回归法等）控制未测量混杂并且使用了这些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法对未测量混杂对效应的潜在影响进行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用验证数据集）对未测量混杂进行了评估和校正？	4.47±0.64	0.14
10. 样本量评估
10.1. 本研究是否进行了样本量估算或根据研究的样本量及一类错误（α）等参数计算研究把握度（power）？	4.00±0.85	0.21
10.2. 样本量估算的参数来源是否具有可靠的科学依据？	3.80±0.78	0.20

3 讨论

3.1 科学性和可靠性

3.2 本研究的优势

3.3 应用价值

声明　所有作者均声明无利益冲突

表1 专家基本信息

条目	人数（n=15）	构成比（%）
年龄
<40	1	6.67
40～49	8	53.33
50～59	6	40.00
工作年限
5～9	2	13.33
10～19	6	40.00
20～29	2	13.33
30～39	5	33.33
工作单位
高等院校	11	73.33
医院	2	13.33
公司企业	2	13.33
职业
大学教师	10	66.67
统计师	4	26.67
企业高管	1	6.67
职称
副高级	3	20.00
正高级	10	66.67
其它	2	13.33
学历
硕士	1	6.67
博士	14	93.33

表选项

下载CSV

表2 专家权威程度

轮次	判断系数（Ca）	熟悉程度（Cs）	权威系数（Cr）
1	0.940	0.807	0.873
2	0.960	0.807	0.883

表选项

下载CSV

表3 专家意见协调程度

轮次	Kendall’s W	χ² 值	P 值
1	0.174	104	<0.001
2	0.189	110	<0.001

表选项

下载CSV

表4 基于德尔菲法构建的真实世界证据评价体系指标

条目	重要性评分	变异系数
1. 混杂偏倚评估
1.1. 在这项研究中是否可能存在混杂因素？	4.73±0.59	0.13
1.2. 该研究是否基于受试者接受的干预措施划分随访时间？	4.27±0.70	0.17
1.3. 停止干预或转组是否可能与某些影响预后的变量有关？	4.40±0.74	0.17
1.4. 作者是否使用了适当的分析方法来控制所有重要的混杂？	4.87±0.35	0.07
1.5. 本研究中可用的变量是否可以代表有效、可靠测量的混杂？	4.53±0.52	0.11
1.6. 研究者是否调整了可能受到干预影响的干预后因素（干预后因素可能为中介变量）？	4.27±0.59	0.14
1.7. 研究者是否使用了适当的分析方法来控制所有的基线混杂和时依混杂？	4.67±0.62	0.13
2. 选择偏倚评估
2.1. 根据干预开始后观察到的受试者特征来选择参与研究（或分析）的受试者？	4.67±0.49	0.11
2.2. 与干预相关的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.3. 受结局（结局的原因）影响的干预后变量是否会影响人群的选择（划分）？	4.40±0.63	0.14
2.4. 大多数受试者是否在干预开始时进行随访（或者在随访开始时接受干预）？	4.20±0.86	0.21
2.5. 是否使用了有效的方法调整了可能存在的选择偏倚？	4.73±0.46	0.10
3. 干预措施分类偏倚评估
3.1. 各干预组是否有明确的定义？	4.93±0.26	0.05
3.2. 用于定义干预组的信息是否在干预开始时就被记录下来？	4.73±0.46	0.10
3.3. 干预状态的分类是否受到对结局或结局风险提前了解的影响？	4.13±0.64	0.16
4. 偏离预期干预偏倚评估
4.1. 是否有偏离干预的情况（超出预期或超出常规情形）出现（依从性较差，例如出现超出预期的转组或失访等）？	4.13±0.64	0.16
4.2. 这些偏离预期干预的偏差是否在组间不平衡，并可能影响结果？	4.67±0.62	0.13
4.3. 干预组间的重要的伴随干预在干预组之间是否均衡？	4.20±0.56	0.13
4.4. 大多数受试者是否成功地接受了干预措施（例如是否接受药物或手术）？	4.40±0.74	0.17
4.5. 受试者是否坚持指定的干预措施？	4.07±0.59	0.15
4.6. 研究是否采用了适当的分析来评估干预的依从效果？	4.47±0.74	0.17
5. 缺失数据偏倚评估
5.1. 是否所有或者几乎所有受试者都有结局数据？	4.13±0.52	0.13
5.2. 是否由于干预状态的数据缺失而排除受试者？	4.13±0.74	0.18
5.3. 是否因为受试者其他变量（包括协变量等）缺失而在分析中将其排除？	4.07±0.59	0.15
5.4. 在不同的干预措施中，数据缺失的比例和原因是否相似？	4.33±0.62	0.14
5.5. 是否有证据（敏感性分析结果）表明，虽然缺失数据存在，但是研究结果依然是稳健的（具有鲁棒性）？	4.60±0.51	0.11
6. 结果测量偏倚评估
6.1. 结局的测量是否受到干预相关信息的影响（结局测量的研究者是否已知/了解受试者的干预措施）？	4.20±0.78	0.18
6.2. 结局评估者是否了解受试者接受的干预？	4.33±0.72	0.17
6.3. 不同干预组结局的评估方法是否具有可比性（一致）？	4.53±0.52	0.11
6.4. 结局测量过程中的系统误差是否与受试者接受的干预相关？	4.27±0.59	0.14
7. 选择报告偏倚评估
7.1. 研究的效应估计是否可能从多个不同结果测量中进行选择报告？	4.33±0.72	0.17
7.2. 研究的效应估计是否可能从多种统计分析方法的结果中进行选择报告？	4.40±0.63	0.14
7.3. 研究的效应估计是否可能从不同的亚组中进行选择报告？	4.27±0.70	0.17
8. 已测混杂分析评估
8.1. 研究中是否进行了已测混杂调整，例如匹配、加权、应用倾向性评分的策略？	4.53±0.64	0.14
8.2. 是否对变量的均衡性进行了描述和检验？	4.47±0.64	0.14
9. 未测混杂分析评估
9.1. 研究中是否可以有合适的方法（工具变量法、断点回归法等）控制未测量混杂并且使用了这些方法？	4.20±0.78	0.18
9.2. 是否使用E-value的方法对未测量混杂对效应的潜在影响进行了分析？	3.73±0.80	0.21
9.3. 是否用了其他的方法（如敏感性分析、利用验证数据集）对未测量混杂进行了评估和校正？	4.47±0.64	0.14
10. 样本量评估
10.1. 本研究是否进行了样本量估算或根据研究的样本量及一类错误（α）等参数计算研究把握度（power）？	4.00±0.85	0.21
10.2. 样本量估算的参数来源是否具有可靠的科学依据？	3.80±0.78	0.20

表选项

下载CSV

1.	国家药品监督管理局. 真实世界证据支持药物研发与审评的指导原则(试行). 2023.
2.	Wang SV, Schneeweiss S. Emulation of randomized clinical trials with nonrandomized database analyses: results of 32 clinical trials. JAMA, 2023, 329(16): 1376-1385.
3.	Sheldrick RC. Randomized trials vs real-world evidence: how can both inform decision-making. JAMA, 2023, 329(16): 1352-1353.
4.	Roberts MH, Ferguson GT. Real-world evidence: bridging gaps in evidence to guide payer decisions. Pharmacoecon Open, 2021, 5(1): 3-11.
5.	Scavone C, di Mauro G, Mascolo A, et al. The new paradigms in clinical research: from early access programs to the novel therapeutic approaches for unmet medical needs. Front Pharmacol, 2019, 10: 111.
6.	Morales DR, Arlett P. RCTs and real world evidence are complementary, not alternatives. BMJ, 2023, 381: 736.
7.	Purpura CA, Garry EM, Honig N, et al. The role of real-world evidence in fda-approved new drug and biologics license applications. Clin Pharmacol Ther, 2022, 111(1): 135-144.
8.	廖茜雯, 姚晨, 张军, 等. 真实世界数据和证据在我国临床决策中的应用现状. 中国食品药品监管, 2023, (10): 24-35.
9.	陈薇, 方赛男, 刘建平, 等. 国际循证医学证据分级体系的发展与现状. 中国中西医结合杂志, 2017, 37(12): 1413-1419.
10.	Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary. Control Clin Trials, 1996, 17(1): 1-12.
11.	Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 2008, 336(7650): 924-926.
12.	曹雪, 孟祥然, 王馨, 等. 真实世界观察性研究的质量评价工具ArRoWS解读. 中国循证医学杂志, 2023, 23(2): 227-232.
13.	Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ, 2016, 355: i4919.
14.	廖星, 章轶立, 谢雁鸣. 真实世界研究标准: RECORD清单和GRACE清单的解读. 中国中药杂志, 2015, 40(24): 4734-4738.
15.	陈英耀, 倪明, 胡献之, 等. 公立医疗机构公益性评价指标筛选—基于德尔菲专家咨询法. 中国卫生政策研究, 2012, 5(1): 6-10.
16.	叶莹, 姬艳芳, 张璐, 等. 运用Likert 5级评分法对免疫规划互联网+培训的效果评价. 河南预防医学杂志, 2019, 30(9): 701-703.
17.	宋辰斐, 薛征, 吴淑艳, 等. 《药物香佩疗法预防小儿反复呼吸道感染治未病实践指南》香佩药物的德尔菲法结果分析. 中华中医药杂志, 2017, 32(1): 139-141.
18.	马雪颜, 于河, 吴力群, 等. 基于德尔菲法的儿童胃肠积热评价量表条目筛选. 中华中医药杂志, 2020, 35(2): 851-854.
19.	肖爽, 朱雪琦, 王彦, 等. 基于德尔菲法的临床科研课题全过程质量控制指标体系构建研究. 中医药管理杂志, 2023, 31(21): 1-6.
20.	Schad F, Thronicke A. Real-world evidence-current developments and perspectives. Int J Environ Res Public Health, 2022, 19(16): 10159.
21.	艾飞玲, 胡葵茹, 石钰霖, 等. 基于纽卡斯尔-渥太华量表对中国吸烟队列研究文献的质量评价. 中华疾病控制杂志, 2021, 25(6): 722-729.
22.	Radenkovic D, Keogh SB, Maruthappu M. Data science in modern evidence-based medicine. J R Soc Med, 2019, 112(12): 493-494.
23.	范美玉. 高质量循证医学证据获取与应用研究. 协和医学杂志, 2023, 14(1): 39-43.
24.	Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us. N Engl J Med, 2016, 375(23): 2293-2297.
25.	McNair D, Lumpkin M, Kern S, et al. Use of RWE to inform regulatory, public health policy, and intervention priorities for the developing world. Clin Pharmacol Ther, 2022, 111(1): 44-51.

1. 国家药品监督管理局. 真实世界证据支持药物研发与审评的指导原则(试行). 2023.
2. Wang SV, Schneeweiss S. Emulation of randomized clinical trials with nonrandomized database analyses: results of 32 clinical trials. JAMA, 2023, 329(16): 1376-1385.
3. Sheldrick RC. Randomized trials vs real-world evidence: how can both inform decision-making. JAMA, 2023, 329(16): 1352-1353.
4. Roberts MH, Ferguson GT. Real-world evidence: bridging gaps in evidence to guide payer decisions. Pharmacoecon Open, 2021, 5(1): 3-11.
5. Scavone C, di Mauro G, Mascolo A, et al. The new paradigms in clinical research: from early access programs to the novel therapeutic approaches for unmet medical needs. Front Pharmacol, 2019, 10: 111.
6. Morales DR, Arlett P. RCTs and real world evidence are complementary, not alternatives. BMJ, 2023, 381: 736.
7. Purpura CA, Garry EM, Honig N, et al. The role of real-world evidence in fda-approved new drug and biologics license applications. Clin Pharmacol Ther, 2022, 111(1): 135-144.
8. 廖茜雯, 姚晨, 张军, 等. 真实世界数据和证据在我国临床决策中的应用现状. 中国食品药品监管, 2023, (10): 24-35.
9. 陈薇, 方赛男, 刘建平, 等. 国际循证医学证据分级体系的发展与现状. 中国中西医结合杂志, 2017, 37(12): 1413-1419.
10. Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary. Control Clin Trials, 1996, 17(1): 1-12.
11. Guyatt GH, Oxman AD, Vist GE, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ, 2008, 336(7650): 924-926.
12. 曹雪, 孟祥然, 王馨, 等. 真实世界观察性研究的质量评价工具ArRoWS解读. 中国循证医学杂志, 2023, 23(2): 227-232.
13. Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ, 2016, 355: i4919.
14. 廖星, 章轶立, 谢雁鸣. 真实世界研究标准: RECORD清单和GRACE清单的解读. 中国中药杂志, 2015, 40(24): 4734-4738.
15. 陈英耀, 倪明, 胡献之, 等. 公立医疗机构公益性评价指标筛选—基于德尔菲专家咨询法. 中国卫生政策研究, 2012, 5(1): 6-10.
16. 叶莹, 姬艳芳, 张璐, 等. 运用Likert 5级评分法对免疫规划互联网+培训的效果评价. 河南预防医学杂志, 2019, 30(9): 701-703.
17. 宋辰斐, 薛征, 吴淑艳, 等. 《药物香佩疗法预防小儿反复呼吸道感染治未病实践指南》香佩药物的德尔菲法结果分析. 中华中医药杂志, 2017, 32(1): 139-141.
18. 马雪颜, 于河, 吴力群, 等. 基于德尔菲法的儿童胃肠积热评价量表条目筛选. 中华中医药杂志, 2020, 35(2): 851-854.
19. 肖爽, 朱雪琦, 王彦, 等. 基于德尔菲法的临床科研课题全过程质量控制指标体系构建研究. 中医药管理杂志, 2023, 31(21): 1-6.
20. Schad F, Thronicke A. Real-world evidence-current developments and perspectives. Int J Environ Res Public Health, 2022, 19(16): 10159.
21. 艾飞玲, 胡葵茹, 石钰霖, 等. 基于纽卡斯尔-渥太华量表对中国吸烟队列研究文献的质量评价. 中华疾病控制杂志, 2021, 25(6): 722-729.
22. Radenkovic D, Keogh SB, Maruthappu M. Data science in modern evidence-based medicine. J R Soc Med, 2019, 112(12): 493-494.
23. 范美玉. 高质量循证医学证据获取与应用研究. 协和医学杂志, 2023, 14(1): 39-43.
24. Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us. N Engl J Med, 2016, 375(23): 2293-2297.
25. McNair D, Lumpkin M, Kern S, et al. Use of RWE to inform regulatory, public health policy, and intervention priorities for the developing world. Clin Pharmacol Ther, 2022, 111(1): 44-51.

《中国循证医学杂志》

基于德尔菲法构建真实世界证据评价体系

摘要 全文 图表 视频 参考文献 施引文献 补充材料

1 资料来源与方法

1.1 遴选征询专家

1.2 问卷设置与发放

1.3 统计学方法及指标

1.4 指标筛选标准

2 结果

2.1 专家基本情况及积极系数

2.2 专家权威程度

2.3 问卷信度

2.4 指标的定义及修改

2.4.1 第一轮问卷结果

2.4.2 第二轮问卷结果

2.5 评价指标体系形成

3 讨论

3.1 科学性和可靠性

3.2 本研究的优势

3.3 应用价值

1 资料来源与方法

1.1 遴选征询专家

1.2 问卷设置与发放

1.3 统计学方法及指标

1.4 指标筛选标准

2 结果

2.1 专家基本情况及积极系数

2.2 专家权威程度

2.3 问卷信度

2.4 指标的定义及修改

2.4.1 第一轮问卷结果

2.4.2 第二轮问卷结果

2.5 评价指标体系形成

3 讨论

3.1 科学性和可靠性

3.2 本研究的优势

3.3 应用价值

上一篇

下一篇

Format

Content

摘要全文图表视频参考文献施引文献补充材料