使用SMOTE+ENN和機器學(xué)習(xí)改善慢性心力衰竭不良結(jié)局的風(fēng)險識別
2021年6月,在國際學(xué)術(shù)期刊Risk Management and Healthcare Policy上以“Improving Risk Identification of Adverse Outcomes in Chronic Heart Failure Using SMOTE+ENN and Machine Learning”為題在線發(fā)表了山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院張巖波教授團隊的研究論文。
心力衰竭對生活質(zhì)量的損害幾乎超過任何其他慢性病。準確識別預(yù)后風(fēng)險對于以患者為中心的照料至關(guān)重要,無論是在選擇治療策略方面,還是在告知患者作為共同決策的基礎(chǔ)方面。雖然已發(fā)表的報告中有大量不同的模型來識別心衰患者的死亡或住院風(fēng)險,但該研究從幾個重要的方面擴展了這方面的知識。首先,大多數(shù)標準算法假設(shè)或期望均衡的類分布或相等的誤分類代價。當(dāng)出現(xiàn)不平衡的數(shù)據(jù)集時,這些算法不能正確地表示數(shù)據(jù)的分布特征,因此在數(shù)據(jù)的各個類之間提供了不利的準確性。不幸的是,在生物醫(yī)學(xué)領(lǐng)域,不平衡的數(shù)據(jù)無處不在,這給我們探索疾病風(fēng)險識別模型帶來了新的挑戰(zhàn)。如果忽略類別不平衡的問題,利用不平衡數(shù)據(jù)集建立的風(fēng)險識別模型往往會對多數(shù)類別設(shè)想更高的準確率。研究表明,對于幾種基本分類器,與不平衡數(shù)據(jù)集相比,平衡的數(shù)據(jù)集比所有分類器的性能都更好。因此,有必要在建模前采用有效的預(yù)處理方法對失衡進行處理,以提高模型精度。該研究使用SMOTE+ENN對數(shù)據(jù)進行預(yù)處理。除了數(shù)據(jù)不平衡的問題,該方法還解決了SMOTE算法容易出現(xiàn)數(shù)據(jù)重疊和噪聲的問題。其次,以前的大多數(shù)模型都是使用傳統(tǒng)的統(tǒng)計方法開發(fā)的。然而,新的替代方案,例如基于ML的模型,仍然沒有得到的使用。先進的統(tǒng)計工具和ML方法可以以多種方式提高傳統(tǒng)統(tǒng)計技術(shù)的風(fēng)險識別能力。在我們的研究中,除了先進的ML模式,其他知識已被證明能夠有效地提高風(fēng)險識別模型的性能也被使用,如missForest、RFECV等。
|
|
Figure1Categorization threshold of Prediction score(left)and predictiondistributions of adverse outcomes in patients withHF(right).
Figure2SHAP summary plots for the risk of adverse outcomesinpatients with HF.The importance ranking of the top 20 risk factors withstability and interpretation usingSME-XGBoostmodel.The SHAP value (x axis) is a unified index responding to the impact of a feature in the model. In each feature importance row, all patients’ attribution to outcome were plotted using different color dots, in which the red dot represented highriskvalueand the blue dotrepresentedlowriskvalue.
山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院2018級博士研究生王可為文章第一作者,山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院張巖波教授和山大一院韓清華教授為共同通訊作者。該工作得到國家自然科學(xué)基金、重大疾病風(fēng)險評估山西省重點實驗室等多方資助。