我院徐祥龙特聘青年研究员团队基于机器学习算法和统计分析方法在传染流行病学研究领域取得新进展

发布者:公共健康发布时间:2023-01-16浏览次数:10

   近日,我院徐祥龙特聘青年研究员和澳大利亚莫纳什大学Jason J. Ong, Lei Zhang, Christopher K. Fairley, Eric P.F. Chow等教授在Frontiers in Public Health期刊合作发表题为 “Determinants and prediction of Chlamydia trachomatis re-testing and re-infection within 1 year among heterosexuals with chlamydia attending a sexual health clinic” 的论文。该期刊主要聚焦于公共卫生领域的前沿研究。该期刊也是中国科协科学技术创新部发布的预防医学与卫生学高质量科技外文期刊,JCR分区为Q1,收录于SCI/SCIE, 影响因子为6.461



徐祥龙特聘青年研究员主要从事交叉学科研究,将流行病学、统计学、生物数学、人工智能、转化研究等多个学科方法应用于重要公共卫生问题的研究中。通过构建机器学习预测模型,开发疾病辅助预防与健康管理的人工智能工具,以促进疾病预防与健康管理的智能化和信息化。

沙眼衣原体是全球最常见的性传播疾病之一。近年我国生殖道沙眼衣原体感染报告发病率呈上升趋势。沙眼衣原体也是澳大利亚发病率较高的性传播疾病之一,且再次感染率较高。在澳大利亚,推荐沙眼衣原体患者在治疗三个月后再次检测沙眼衣原体,以确定是否再次感染,但复查率较低。

该研究使用澳大利亚墨尔本性诊所常规收集的电子健康记录数据来建立预测模型。为找到有效的提高沙眼衣原体复查率和控制再次感染的方法,该研究首先提出使用机器学习算法构建沙眼衣原体复查和再次感染的预测模型。该研究也对感染沙眼衣原体的异性恋人群在未来一年内复查和再次感染的影响因素进行了统计学分析。

该研究发现沙眼衣原体感染者在一年内复查率较低(仅三成多),且再次感染率较高(约有15%)。这提示需要进一步的措施来提高沙眼衣原体复率和降低沙眼衣原体再感染率。该研究通过构建10个不同的机器学习预测模型(Logistic回归、支持向量机、随机森林、XGBoost、朴素贝叶斯、K近邻、神经网络等)来预测感染沙眼衣原体的异性恋人群在未来一年内复查和再感染的情况。该研究发现相比传统的Logistic回归模型,XGBoost算法可以提高沙眼衣原体复查及再感染的预测能力。该研究提示需建立多种类别的机器学习算法以寻找最佳预测能力的算法。该研究也提示除了关注建模方法以外,未来机器学习研究也需要关注数据的收集。此外,机器学习研究中预测因子的全面性和准确性等对预测结果也非常重要。该研究由于使用的是诊所常规搜集的电子健康记录数据,因部分沙眼衣原体的影响因素不在诊所常规搜集的电子健康记录数据,故而无法纳入该研究的模型中。

该研究对感染沙眼衣原体的异性恋人群在未来一年内复查的影响因素进行了统计学分析,发现年龄较大者(≥35岁)、女性、HIV携带者、性工作者、伴侣同时接受治疗者、性伴数量多者复查率更高。该研究也对未来一年内再次感染的影响因素进行了统计学分析,发现年龄较小(18-24) 、男性和HIV携带者再次感染率更高。

徐祥龙特聘青年研究员为该论文的第一作者,我院是该论文的第一完成单位。


(流行病与卫生统计学教研室)

Baidu
sogou