• 技术与方法 •
王帅琪1,2,王春年1,2,张德琴2,3,娄琳琳2,4,班一婷2,江丽2,李彩霞1,2
1. 中国人民公安大学侦查学院,北京 100038
2. 公安部鉴定中心,北京市现场物证检验工程技术研究中心,现场物证溯源技术国家工程实验室,北京 100038
3. 贵州医科大学法医学院,贵阳 550004
4. 山西医科大学法医学院,晋中 030600
Shuaiqi Wang1,2, Chunnian Wang1,2, Deqin Zhang2,3, Linlin Lou2,4, Yiting Ban2, Li Jiang2,
Caixia Li1,2
1. School of Investigation, People’s Public Security University of China, Beijing 100038, China
2. Institute of Forensic Science, Ministry of Public Security & Beijing Engineering Research Center of Crime Scene Evidence Examination & National Engineering Laboratory for Forensic Science, Beijing 100038, China
3. Department of Forensic Medicine, Guizhou Medical University, Guiyang 550004, China
4. School of Forensic Medicine, Shanxi Medical University, Jinzhong 030600, China
摘要:
汉族人群具有复杂的遗传结构,不同地区人群存在一定程度的地域遗传差异,探究汉族人群的精细遗传结构,并构建高效的地域来源推断模型,对于揭示人群演化规律及实现精准祖源推断具有重要意义。然而当前针对国内汉族人群的祖源推断模型却较为缺乏。本研究旨在通过分析汉族人群高密度SNP数据,探索人群遗传结构与地理分布的关联,并基于机器学习算法构建地域来源推断模型,提升祖源推断技术对国内汉族人群的分辨力。研究选取来自中国8个省份的汉族人群全基因组SNP数据,通过连锁不平衡检验等进行质控并构建人群数据集,质控后共获得1,229份样本和208,193个SNP位点,首先应用主成分分析(principal component analysis,PCA)、ADMIXTURE聚类分析等方法进行遗传结构分析,结果表明不同地域的汉族存在一定程度的遗传结构差异,并据此将汉族人群划分为7个遗传分区。在此基础上,使用机器学习(machine learning,ML)算法,以PCA降维后主成分(principal component, PC)为输入特征,基于参考人群数据集5折交叉验证对比XGBoost(eXtreme gradient boosting)、随机森林(random forest,RF)和K近邻(K-nearest neighbors,KNN)等不同机器学习分类模型的预测性能,引入似然比(likelihood ratio,LR)方法作为评价指标,构建最优预测模型并在独立测试集中进行验证。结果表明,在参考集中,XGBoost模型预测性能最优,第一位预测准确率为87.66%,LR准确率为96.87%。在测试集中,XGBoost模型第一位预测准确率达到85%以上,LR准确率95%以上,表明该模型具有良好的泛化能力。本研究开发的基于机器学习的中国汉族人群预测模型兼具高效性、稳健性与高准确性,为群体遗传学及法医遗传学等相关研究提供了可靠的方法学工具。