• 技术与方法 •
周文譞1,2,3,赵真坚1,2,3,陈栋1,2,3,崔晟頔1,2,3,王俊戈1,2,3,陈子旸1,2,3,禹世欣1,2,3,陈佳苗1,2,3,周垚茜1,2,3,黄润杰1,2,3,唐国庆1,2,3
1.四川农业大学动物科技学院,猪禽种业全国重点实验室,成都 611130
2.四川农业大学动物科技学院,农业农村部畜禽生物组学重点实验室,成都 611130
3.四川农业大学,禽遗传资源发掘与创新利用四川省重点实验室,成都 611130Wenxuan Zhou1,2,3, Zhenjian Zhao1,2,3, Dong Chen1,2,3, Shengdi Cui1,2,3, Junge Wang1,2,3, Ziyang Chen1,2,3, Shixin Yu1,2,3, Jiamiao Chen1,2,3, Yaoxi Zhou 1,2,3, Runjie Huang1,2,3, Guoqing Tang 1,2,3
1.State Key Laboratory of Swine and Poultry Breeding Industry, College of Animal Science and Technology, Sichuan Agricultural University, Chengdu 611130, China
2.Key Laboratory of Livestock and Poultry Multi-omics of Ministry of Agriculture and Rural Affairs, College of Animal Science and Technology, Sichuan Agricultural University, Chengdu 611130, China
3.Farm Animal Genetic Resources Exploration and Innovation Key Laboratory of Sichuan Province, Sichuan Agricultural University, Chengdu 611130, China摘要: 随着基因组测序技术的普及,利用基因组标记预测复杂性状已成为育种关键。然而,基因组数据高维稀疏及其内部遗传标记间复杂的非线性交互特性,极大提高了精准数据分析的难度与硬件部署成本。因此本研究提出了一种基于染色体编码的多头自注意力模型(multi-head self-attention model)——ChrFormer进行基因组预测。该模型采用染色体编码器将全基因组SNP数据压缩为20个染色体特征向量和1个全局特征向量,利用多头自注意力机制动态捕获跨染色体的长程互作效应,最终通过多层感知机(multilayer perceptron,MLP)实现从基因组特征到表型的精准预测。本研究选取4,875头大白猪50K SNP基因分型数据以及4项重要生产性状(100 kg和115 kg背膘厚、100 kg和115 kg日龄)作为研究对象,采用十折交叉验证方法,以皮尔逊相关系数作为评价指标,系统比较了ChrFormer与基因组最佳线性无偏预测(genomic best linear unbiased prediction,GBLUP)、贝叶斯方法A(BayesA)和典型深度学习方法——视觉几何组(visual geometry group,VGG)、前馈神经网络(feedforward neural network,FNN)的预测性能;并且从模型参数量、训练耗时和过拟合程度等方面分析各深度学习模型的优劣。结果显示,ChrFormer在所有测试性状上的预测精度均显著优于VGG和FNN深度学习模型。在100 kg背膘、115 kg背膘和115 kg日龄这3个性状上,其预测准确度超越了传统的GBLUP和BayesA方法。虽然ChrFormer的单次迭代训练时间较长(54.88 s),但模型参数量仅约为VGG和FNN的1/10,且表现出更稳定的抗过拟合特性。本研究验证了自注意力机制的ChrFormer模型在猪生长性状表型的基因组预测的实用性,其轻量化的架构特点和稳定的预测性能,为计算资源有限的育种场开展表型的精准预测提供了切实可行的技术方法。