• 技术与方法 •
丰继华1,2,陈忠兴1,2,康琦林1,2,李龙飞1,2,杨佳慧1,2,张雨亭1,2
1.云南民族大学电气信息工程学院信息工程系,昆明 650504
2.云南省无人自主系统重点实验室,昆明 650504
Jihua Feng1,2, Zhongxing Chen1,2, Qilin Kang1,2, Longfei Li1,2, Jiahui Yang1,2, Yuting Zhang1,2
1.School of Electrical and Information Engineering, Yunnan Minzu University, Kunming 650504, China
2.Yunnan Key Laboratory of Unmanned Autonomous System, Kunming 650504, China
摘要:
精准识别单核苷酸分辨率下的转录因子结合位点(transcription factor binding sites, TFBSs)是解析基因表达调控网络的核心科学问题。为改进现有计算模型在跨细胞类型预测中的性能,本研究提出一种融合通道与空间注意力机制的深度学习模型。通过系统整合10个核心转录调控因子(包括CTCF、EGR1、FOXA1等)在13种典型人类细胞系(涵盖A549、GM12878、H1-hESC等)的51组染色质免疫沉淀测序(chromatin immunoprecipitation sequencing, ChIP-seq)数据和13组脱氧核糖核酸酶I高敏感位点测序(deoxyribonuclease I hypersensitive site sequencing, DNase-seq)数据对模型进行训练与测试,结果表明,在23个测试的TF-细胞类型中表现出优异性能,平均受试者工作特征曲线下面积(area under receiver operating characteristic curve, AUROC)达到0.986,其中91%样本的AUROC超过0.970;平均精确率-召回率曲线下面积(area under precision recall curve, AUPRC)为0.169,较随机预测基线(0.000156)提升超1,000倍。相较于FactorNet、Leopard及DeepGRN等当前领域内具有代表性的模型,本模型在9个共有的TF-细胞类型数据集上,其AUROC均值展现出优势。可视化分析表明,模型能精准识别TF在不同细胞类型中的特异性结合位点。上述结果表明,本模型为跨细胞类型的TFBSs精准预测提供了高效计算工具,有望为基因表达调控机制的深入解析及相关疾病分子机理研究提供重要支撑。