机器学习方法在基因交互作用探测中的研究进展
彭哲也,唐紫珺,谢民主

Research progress in machine learning methods for gene-gene interaction detection
Peng Zheye,Tang Zijun,Xie Minzhu
表1 机器学习方法的优势和局限性
Table 1 Advantages and limitations of machine learning methods
方法 优势 局限性 参考文献
Neural
networks (NNs)
1. 优秀的模式识别/分类功能
2. 有能力处理大数据
3. 适应遗传异质性/多基因遗传/高表型率/不完全外显率
不能枚举所有可能的神经网络架构,并且改变架构会改变数据分析的结果,无法确定正在使用的架构是否是最佳的 [8]
GPNN 1. GP优化的NN体系结构
2. 在非功能性SNP存在下,探测交互作用时具有较高效能
3. 当功能性SNP未知,且变量选择和模型拟合所需一样时,优选结果
4. 不会过度拟合数据
5. 在弱边际效应的上位模型中具有较高的效能
6. 模型灵活:不需要选择最优的输入,权重,连接或是隐形层
1. 在三位点的模型中具有高假阳性率
2. 需要并行计算环境
3. 输出是二元表示树,它可能很大(多至500个节点),并难以解释
[15]
GENN 1. GE优化的NN体系结构
2. 可用于从有噪声(例如,基因分型错误,缺失数据,拟表型,遗传异质性)的高维遗传病学数据中发现基因-基因交互作用
1. 数据集中拟表型的存在导致GENN的效果大大降低 [18]
RF 1. 能发现没有强主效应的基因之间的交互作用
2. 不会过度拟合数据,且误差收敛有上限值
3. 能鉴定预测表型的SNP
1. 探测交互作用的能力取决于主效应
2. 无法探测没有边际效应的基因之间的相互作用
3. 从随机森林中提取有用的生物信息时相对困难
[19]
SNPInterForest 1. 可同时识别多个交互作用
2. 在没有边际效应时,不会低估SNP的重要性分数
3. 没有边际效应的情况下,每个节点上的多个SNP选择提高了探测疾病相关SNP的能力
4. 能评估SNP组合的交互作用强度
5. 具有较高的召回率和较低的假阳性率
6. 能发现存在遗传异质性的交互作用
计算量很大 [27]
SVM 1. 比MDR有更多可解释的输出结果
2. 可以应用到新的数据结构
3. 分类时无需用户自定义
1. 无法处理不完整的数据
2. 处理存在遗传异质性的数据时效能降低
[33]
MDR 1. 同时探测多个基因位点,保持低误报率
2. 无模式,适应于机制未知的遗传基因数据
1. 在高(50%)表型/遗传异质性下,检验效能显著降低
2. 当SNP的数量超过10时,需要大量的计算资源
[36]
RMDR 1. 获得的交互模型比较容易解释
2. 多位点上基因型组合模型分类为高风险、未知风险和低风险三类,降低了假阳性率
比MDR需要更大的计算资源 [45]
GMDR 1. 使用最大似然法给基因型组合模型分类
2. 给基因型组合模型分类是能考虑协变量的影响,可提高分类的准确性
比MDR需要更大的计算资源 [46~48]