近日,我校公共衛(wèi)生學院衛(wèi)生統(tǒng)計學教研室王彤教授團隊在生物信息學top期刊《Briefings in Bioinformatics》(IF=11.622)上發(fā)表了題為“High-dimensional generalized propensity score with application to omics data”的研究論文。該研究提出了高維自變量和連續(xù)型處理變量同時存在時的一種因果推斷方法,第一作者為王彤教授指導的博士高倩。
在非隨機化研究中,廣義傾向性評分方法(GeneralizedPropensityScore,GPS)常用于校正已測量的混雜變量,以期獲得連續(xù)型暴露因素與結(jié)局間的因果劑量反應關系。GPS方法得出因果結(jié)論需要滿足不存在未測量混雜假設,這一假設無法檢驗,一般認為考慮的協(xié)變量越多越合理。然而,因果參數(shù)的估計值對GPS模型中納入的協(xié)變量比較敏感,納入不必要的協(xié)變量會導致估計準確度和精度下降。隨著對組學數(shù)據(jù)和電子醫(yī)療病例數(shù)據(jù)等大數(shù)據(jù)的廣泛使用,不存在未測量混雜這一假設成立的可能性變大,但也引入了高維自變量。在這種情況下,如何使用GPS方法得到因果參數(shù)的無偏估計值是一個亟待解決的問題。為此,王彤教授課題組提出了廣義結(jié)局自適應LASSO(GeneralizedOutcome-adaptive LASSO,GOAL)方法。
GOAL方法通過雙重加權相關系數(shù)(dual-weight correlation,DWC)將結(jié)局自適應LASSO(Outcome-Adaptive LASSO,OAL)方法和非參數(shù)協(xié)變量均衡廣義傾向性評分方法(Nonparametric Covariate Balancing Generalized Propensity Score, npCBGPS)結(jié)合,分三步完成。首先借用OAL的思想構建新的目標函數(shù)實現(xiàn)變量選擇;隨后基于選出的變量使用npCBGPS方法計算權重和DWC,并使用最小DWC準則確定調(diào)整參數(shù)的最優(yōu)值;最后使用邊際結(jié)構模型方法估計因果參數(shù)。模擬研究表明,GOAL方法各方面的表現(xiàn)與理想方法相近甚至在某些情況下表現(xiàn)略優(yōu)。該方法一方面保留了OAL方法正確識別校正協(xié)變量的能力,另一方面繼承了npCBGPS方法對GPS模型誤設穩(wěn)健的統(tǒng)計學性質(zhì),同時還克服了二者在實際應用中的局限性。最后,該研究使用GOAL方法利用多腦區(qū)多數(shù)據(jù)集探討了表觀衰老加速與阿爾茲海默病發(fā)病間的劑量反應關系,闡明了GOAL方法的應用步驟以及在實際研究中需要注意的問題。GOAL方法的提出為現(xiàn)實世界研究中高維自變量和連續(xù)型處理變量同時存在時的因果效應無偏估計提供了新思路。
文/圖 高倩