缺失数据考虑
缺失数据在真实世界研究中通常难以避免,不仅结局变量可能缺失,协变量也有可能缺失。研究者和申办方应考虑优化试验设计,尽可能地将缺失率降到最低。 公卫考场
在进行主要分析前,应先尝试分析数据缺失的原因。通常缺失数据按缺失机制可以分为三种情况:完全随机缺失(Missing Completely At Random,MCAR)、随机缺失(Missing At Random,MAR)和非随机缺失(Missing Not At Random,MNAR)。完全随机缺失指数据缺失的概率与所有已测或未测的协变量及结局变量均无关。随机缺失指在给定的已测协变量取值和结局变量条件下,数据是否缺失是随机的,与潜在结局无关。而非随机缺失指数据的缺失概率与缺失值本身有关,同时也可能与已测协变量及结局变量有关。 公卫家园
对于缺失数据,选择正确的方法进行填补和分析是避免偏倚和信息损失的有效手段,否则会因剔除缺失数据而导致样本量减少、降低研究效率。恰当的填补方法应根据缺失机制和临床问题建立相应的假设来确定。一般来说,对于完全随机缺失,可以只对数据完整的样本进行分析;对于随机缺失,可以构建统计模型进行预测填补,例如多重填补(Multiple Imputation,MI)、传统回归模型方法、马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC)方法、全条件定义法(Fully Conditional Specification,FCS)等;对于非随机缺失,可利用模式混合模型(Pattern Mixture Models,PMM)方法,分别对缺失数据和非缺失数据构建不同的统计模型进行分析。此外,还有单一值填补方法,其优点是原理简单、易于操作,缺点是即使在随机缺失条件下也不能保证结果正确有效,且没有考虑缺失值的变异性,因此一般不建议用于主要分析。
在可能有协变量缺失的观察性研究中,对不同缺失模式可考虑使用一些常规统计方法,包括完整数据分析法、多重填补法和倾向评分法。 公卫人
需要明确的是,三种数据缺失机制假设通常均无法直接检测,只能通过对数据收集过程的描述和理解来说明其合理性。现实中,难以确定最佳的或唯一适用的缺失数据处理方法,也没有任何方法可以得到与原始完整数据一样的稳健无偏估计。应对缺失数据的最佳策略,关键在于研究的合理设计和实施。 公卫人
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
如果您认为本词条还有待完善,请 编辑
上一篇 工具变量 下一篇 敏感性分析和偏倚的定量分析