近日,我校公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室王彤教授團(tuán)隊(duì)在生物信息學(xué)top期刊《Briefings in Bioinformatics》(IF=11.622)上發(fā)表了題為“High-dimensional generalized propensity score with application to omics data”的研究論文。該研究提出了高維自變量和連續(xù)型處理變量同時(shí)存在時(shí)的一種因果推斷方法,第一作者為王彤教授指導(dǎo)的博士高倩。
在非隨機(jī)化研究中,廣義傾向性評(píng)分方法(GeneralizedPropensityScore,GPS)常用于校正已測(cè)量的混雜變量,以期獲得連續(xù)型暴露因素與結(jié)局間的因果劑量反應(yīng)關(guān)系。GPS方法得出因果結(jié)論需要滿足不存在未測(cè)量混雜假設(shè),這一假設(shè)無(wú)法檢驗(yàn),一般認(rèn)為考慮的協(xié)變量越多越合理。然而,因果參數(shù)的估計(jì)值對(duì)GPS模型中納入的協(xié)變量比較敏感,納入不必要的協(xié)變量會(huì)導(dǎo)致估計(jì)準(zhǔn)確度和精度下降。隨著對(duì)組學(xué)數(shù)據(jù)和電子醫(yī)療病例數(shù)據(jù)等大數(shù)據(jù)的廣泛使用,不存在未測(cè)量混雜這一假設(shè)成立的可能性變大,但也引入了高維自變量。在這種情況下,如何使用GPS方法得到因果參數(shù)的無(wú)偏估計(jì)值是一個(gè)亟待解決的問(wèn)題。為此,王彤教授課題組提出了廣義結(jié)局自適應(yīng)LASSO(GeneralizedOutcome-adaptive LASSO,GOAL)方法。
GOAL方法通過(guò)雙重加權(quán)相關(guān)系數(shù)(dual-weight correlation,DWC)將結(jié)局自適應(yīng)LASSO(Outcome-Adaptive LASSO,OAL)方法和非參數(shù)協(xié)變量均衡廣義傾向性評(píng)分方法(Nonparametric Covariate Balancing Generalized Propensity Score, npCBGPS)結(jié)合,分三步完成。首先借用OAL的思想構(gòu)建新的目標(biāo)函數(shù)實(shí)現(xiàn)變量選擇;隨后基于選出的變量使用npCBGPS方法計(jì)算權(quán)重和DWC,并使用最小DWC準(zhǔn)則確定調(diào)整參數(shù)的最優(yōu)值;最后使用邊際結(jié)構(gòu)模型方法估計(jì)因果參數(shù)。模擬研究表明,GOAL方法各方面的表現(xiàn)與理想方法相近甚至在某些情況下表現(xiàn)略優(yōu)。該方法一方面保留了OAL方法正確識(shí)別校正協(xié)變量的能力,另一方面繼承了npCBGPS方法對(duì)GPS模型誤設(shè)穩(wěn)健的統(tǒng)計(jì)學(xué)性質(zhì),同時(shí)還克服了二者在實(shí)際應(yīng)用中的局限性。最后,該研究使用GOAL方法利用多腦區(qū)多數(shù)據(jù)集探討了表觀衰老加速與阿爾茲海默病發(fā)病間的劑量反應(yīng)關(guān)系,闡明了GOAL方法的應(yīng)用步驟以及在實(shí)際研究中需要注意的問(wèn)題。GOAL方法的提出為現(xiàn)實(shí)世界研究中高維自變量和連續(xù)型處理變量同時(shí)存在時(shí)的因果效應(yīng)無(wú)偏估計(jì)提供了新思路。
文/圖 高倩