伞式试验(umbrella trial)是以患者为中心的一种临床试验,从入组标准到药物疗效的评价标准都是完全由生物标志物来指导,即Biomarker-guided trials。
公卫人
伞式试验最早于2014年在美国癌症研究学会(AACR)上提及,是指针对一种疾病多种潜在靶点进行治疗的前瞻性临床试验,对同一种疾病基于预测性生物标志物或其他预测性患者危险因素分层为多个子研究/子组进行前瞻性治疗,本质就是一种肿瘤对应不同药物,类似于中医理论中的“同病异治”。概念中的“伞”是一种形象比喻,它将一种疾病按照其分子特征分为不同的亚型,随后根据每个亚型特征选择不同的精准靶向药物进行治疗。例如:在BATTLE试验[7]中,把具有不同驱动基因EGFR、KRAS/BRAF、VEGF、RXR/CycD1的难治性非小细胞肺癌患者集中在一起,然后根据不同的靶基因精准分配靶向治疗药物。此外,在某些情况下,对于那些没有特定标志物的患者会被分配到标准治疗组作为对照(也称为“default arm”)。
公卫论坛
公卫百科
伞式试验的核心优势在于,针对特定的单一疾病人群,可在同一个临床试验中研究多个生物标志物的作用,从而提高治疗效果,对于分子靶点可能不太常见的患者,可通过伞式试验来丰富具有这些突变类型的患者。同时,由于是通过对分子目标将患者进行分层,这可能会导致很难招募到罕见分子亚型的患者,是伞式试验面临的主要难点之一。
公卫论坛
公卫论坛 伞式试验目前主要用于肿瘤领域,少数研究也有探索其在慢性疾病、感染性疾病和内分泌系统疾病等方面的应用。2023年,Haslam等一项关于伞式试验在肿瘤领域运用的系统评价中,研究检索了PubMed、EMbase和clinicaltrials.gov,共纳入73项伞式试验或方案,其中28项已有初步试验结果,40项(54.8%)为Ⅱ期临床试验,15项(20.5%)采用随机对照设计,46项(63%)采用单臂设计,疾病主要集中于肺癌、乳腺癌、结直肠癌等,且基本都用于新药开发研究。表2列举了部分肿瘤领域代表性的伞式试验。
公卫家园
公卫家园
伞式试验准入条件的考虑编辑本段
在肿瘤患者中开展伞式试验需要满足传统临床试验开展的一些条件,如研究设计和方法学要求、伦理审批和相关法规要求等。此外,还需要进一步考虑目标疾病的以下条件:(1)疾病异质性较高,包括不同亚型或分期在临床表现、预后等方面存在差异;(2)存在多个潜在治疗靶点,缺乏足够的证据支持其中某一种靶向治疗策略的优劣;(3)具有可靠的生物标志物,能够对目标疾病亚型或分期进行精确定位和分类,并预测不同亚型或分期对不同治疗策略的反应;另外,开展多中心临床试验时,需建立标准化操作程序,使用共同的筛查机制对患者进行识别;(4)招募足够规模的患者,以确保每种亚型或分期的患者数量均足够,从而保证研究结果的可靠性。如果以上条件能满足,可以考虑开展伞式试验来探索不同亚型或分期的患者对于不同治疗策略的应答,并有望为疾病治疗提供更为精准的指导。 公卫人
伞式试验设计和统计的关键考虑编辑本段
伞式试验相比传统的临床试验设计,具有更高的设计要求和统计复杂性。伞式试验设计的关键是从对潜在疾病的精确定义开始,包括组织学或病理学、试验的阶段、生物标志物的选择、试验设计的自适应性等,这就增加了设计复杂性,因为其在临床实践中都可能具有挑战性。另外,在伞式试验中,也需要确保统计策略的正确性和合理性,其中涉及多个因素,如样本量大小、子研究间是否涉及多重性等,以便获得可靠的试验结果。
公卫家园
生物标志物的合理筛选与验证
在伞式试验中,生物标志物是评估治疗效果的关键指标。因此,在试验设计过程中,生物标志物的筛选和验证是至关重要的步骤之一,可用于生物标志物验证的评估方法有很多,如荧光原位杂交、免疫组织化学和下一代测序等。合理正确的选择生物标志物需要充分考虑多个因素,如生物学假设的合理性;该生物标志物人群的患病率;生物标本采集的可行性、组织要求;生物标志物检测的精确性、科学性、重现性、相关性和可操作性;相关的经济成本等。但如何确定适当的目标人群、准确合适地选择生物标志物、确保一致且合适的诊断方法,及肿瘤与生物标志物的治疗相关性等,仍然是伞式试验面临的重要挑战。
公卫人
试验设计的自适应性
伞式试验的自适应性是指在试验进行过程中,可以根据试验结果进行调整和优化,以提高试验效率和准确性,允许有希望的治疗措施尽早停止试验并声称有效,进入试验的下一阶段以收集更多证据,或允许无效的治疗措施退出试验并声称无效。这些决策规则可以基于预先指定的统计度量,如P值、后验概率或预测概率等。基于此,伞式试验的研究设计类型可为单阶段设计,如Fleming单阶段设计、A'Hern单阶段设计;多阶段设计,如最优二阶段设计、自适应二阶段设计、Bayesian二阶段设计、最优三阶段设计等。其中二阶段设计较为广泛,相比单阶段设计,二阶段设计可以在试验第一阶段对数据进行分析并判断药物是否有效/无效以提前终止试验。
样本量估算
在传统的临床试验设计中,样本量的估算是综合考虑多个因素的结果,比如:效应量、Ⅰ类错误(α)、检验效能(1-β)、主要结局变量的变异程度、随访时间、脱落/退出/失访等。而在伞式试验中,招募患者较为困难,样本量估算除了以上这些因素外,还需要考虑每个子研究/子组的样本量大小、生物标志物检测的假阳性、生物标志物的患病率、试验不同的分期等。因此,伞式试验总体估算样本量相对不常见,样本量估算通常需要针对每个子研究/子组进行设计。目前缺乏一种适用于不同伞形设计样本量估算的通用方法,如采用随机化设计,一般需要比单臂设计试验更大的样本量;如采用单臂设计,则计划的样本量也应足以排除临床重要的治疗效果。为此,伞式试验的样本量估算也可采用特殊的统计方法,如Simon二阶段设计和Bayesian设计等,以保证其准确性和可靠性。
子研究间是否涉及多重性
对于以确证性为目的的伞式试验,其涵盖多种药物,若同时开展多个子研究,可能涉及多重性问题。如果这些子研究是独立的研究且回答特定的临床问题,如适用疾病、目标人群等,因为监管机构可以同时独立评估用于相同适应证的不同药品的上市许可申请,故一般不会导致总Ⅰ类错误率(FWER)膨胀,就不需要在子研究之间进行补充多重性调整策略。此时,各子研究内部的比较,常用的方法包括单因素方差分析、χ2检验和logistic回归、Cox回归分析等。
公卫考场
但对于子研究的复杂设计,如果目标人群之间有较大重叠,或对于多个子研究使用同一个对照组,可能会导致FWER膨胀。在这种情况下,应该根据具体情况来判断是否需要进行多重性调整,并建议申办方与监管机构进行充分沟通。Bretz等认为,是否需要调整多重性是基于“治疗方式之间的区别程度”,确定是否进行多重性调整并不是一个纯粹的方法学问题,需要所有利益相关者就其拒绝的后果进行仔细评估,经综合权衡后达成共识。如需进行多重性调整,可采用一般性多重性调整方法,如Bonferroni、Holm-Bonferroni、FDR等方法进行多重性校正。如伞式试验中同时采用了响应适应性随机化或其他适应性设计,多重性问题的控制将更为复杂。例如,2011年,Gutjahr等针对多臂的响应自适应二阶段设计提出了一种不依赖于模拟来控制FWER的方法;2019年,Robertson等基于迭代应用条件不变性原则提出了一个响应自适应测试程序来控制FWER。因此,在设计和分析伞式试验时,需要充分了解和应用相关统计方法,并仔细考虑每个环节的细节,选择适当的统计方法和数据分析策略,以提高试验的成功率和结果的准确性。
伞式试验伦理的特殊考虑编辑本段
在伦理方面,Emanuel等针对传统临床试验提出了7项要求。而伞式试验是以患者为中心,体现个体化的治疗,相对于传统临床试验在科学有效性、获益风险比、知情同意、尊重受试者这些方面需要更多的考虑。例如:(1)科学有效性:由于经验不足,罕见的恶性肿瘤受试者可能分配到不适当的治疗组而造成潜在伤害,或由于样本量不足和替代终点的使用可能导致药物批准没有证实疗效;(2)获益风险比:临床研究要求对参与者的利益最大化和危害最小化,伞式试验新的临床试验结果可能产生对肿瘤有效的治疗方法,但患者在等待基因筛选的结果过程中可能会产生压力、焦虑,而且纳入存在多个突变类型的患者也容易引起争议;(3)知情同意:伞式试验可能涉及多种亚型的疾病或病程,因此需要确保每位参与者都理解试验的整体设计和所处的子组,以便知情同意;(4)尊重受试者:伞式试验在进行生物标志物筛选和长期随访过程中,涉及生物样本的采集,因此需要提供适当的保护措施,保护隐私和个人信息安全,并定期提供必要的医疗保健服务。