机器学习方法在CRISPR/Cas9系统中的应用
张桂珊,杨勇,张灵敏,戴宪华

Application of machine learning in the CRISPR/Cas9 system
Zhang Guishan,Yang Yong,Zhang Lingmin,Dai Xianhua
表2 常用优化CRISPR/Cas9系统的机器学习方法总结
Table 2 Summary of optimizing CRISPR/Cas9 system methods based on machine learning
工具名 年份 机器学习方法 机器学习方法在
设计该工具的应用
特征构造与选择 参考文献
Elevation 2018 朴素贝叶斯;
梯度提升回归树;
L1正则线性回归
预测sgRNA的脱靶效应 sgRNA与目的DNA碱基错配位置;
sgRNA与目的DNA碱基错配类型;
与位置相关的sgRNA与目的DNA;
碱基错配类型;
突变类型(转换、颠换);
染色质的易接近性
[13]
DeepCpf1 2018 卷积神经网络 预测CRISPR-Cpf1
sgRNA的编辑效率
sgRNA序列特征;
染色质的易接近性
[14]
CRISTA 2017 回归模型;
随机森林
评估sgRNA切割
基因组位点的倾向性
PAM序列类型,sgRNA序列核苷酸
组成,GC含量;
染色质的结构,编码区基因表达水平;
sgRNA的二级结构、热力学特征;
sgRNA与目标DNA序列错配;
DNA凸起/RNA凸起的数量
[52]
CRISPRpred 2017 支持向量机(SVM);
逻辑回归;
随机森林
预测sgRNA的
在靶活性
单核苷酸、双核苷酸、三个连续的
核苷酸在sgRNA中的位置;
最小自由能、局部配对概率、sgRNA的热量;
sgRNA序列GC含量、AT含量、A/C/G/T数;
氨基酸的切割位置,肽所占百分比
[60]
sgRNA Designer
(Rule Set 2)
2016 线性回归;
L1/L2正则逻辑回归;
支持向量机;
随机森林;
梯度上升回归树
预测sgRNA的
在靶活性
二核苷酸特征;
与位置有关的单核苷酸和双核苷酸;
sgRNA中GC含量;
位置独立的核苷酸数;
sgRNA靶点在基因中的位置;
微同源特征
[22]
predictSGRNA 2017 逻辑回归;随机森林 设计高编辑效率
sgRNA
位置依赖的单核苷酸;
位置独立的单核苷酸;
单核苷酸与二核苷酸的频率;
sgRNA与目的DNA比对得分;
热力学特征及二级结构、理化性质;
由PseKNC模型生成伪k-元组核苷酸特征
[23]
Big Papi 2017 梯度上升回归树 优化设计sgRNA
文库
位置独立的单核苷酸、二核苷酸;
位置依赖的单核苷酸、二核苷酸;
热力学特性(解链温度);
3’PAM序列最接近的胸腺嘧啶(T)
[16]
2017 最小冗余最大相关性;
支持向量机
优化sgRNA
编辑效率
单个、成对的核苷酸(SNTs, PNTs);
sgRNA与目的DNA序列保守性;
氨基酸切割位置,编码肽的氨基酸组成;
靶蛋白序列的紊乱状态
[24]
sgRNA Scorer 2.0 2017 支持向量机 预测sgRNA编辑效率 靶点与PAM序列的距离 [62]
CRISPR-DO 2016 LASSO回归;
弹性网络线性回归
预测sgRNA的
编辑效率
sgRNA序列特征;
切割位点处胞嘧啶的偏好性
[63]
CRISPR multitargeter 2015 逻辑回归 预测sgRNA的
编辑效率
GC百分比,与位置有关的单核苷酸、
相邻的二核苷酸;
sgRNA中G,C的含量,G/C比值;
局部染色质结构
[64]
工具名 年份 机器学习方法 机器学习方法在
设计该工具的应用
特征构造与选择 参考文献
CRISPRscan 2015 逻辑回归 预测sgRNA的
编辑效率
位置依赖的单核苷酸、二核苷酸;
GC含量
[46]
WU-CRISPR 2015 支持向量机 预测sgRNA的编辑
效率与编辑特异性
位置独立的单核苷酸、二核苷酸;
位置依赖的单核苷酸、二核苷酸;
RNA的二级结构(折叠自由能、
核苷酸的易接近性) ;
位置依赖的sgRNA核苷酸的易接近性;
sgRNA重复碱基的分布
[6]
CRISPR (SSC) 2015 LASSO回归 预测全基因组功能
基因筛选sgRNA
的编辑效率
sgRNA序列特征;
切割位点处胞嘧啶的偏好性
[65]
CRISPRko 2014 支持向量机;
逻辑回归
预测sgRNA的
编辑效率
与位置有关的单核苷酸、相邻的二核苷酸;
sgRNA中G,C的含量,G/C比值;
局部染色质结构
[45]
2014 支持向量机 预测sgRNA的
编辑效率
序列特征,GC含量;
sgRNA链,外显子类型
[47]
SgRNA Scorer 1.0 2015 支持向量机 分析不同活性(高/低) sgRNA之间的关系
研究sgRNA特异性
与活性的关系
位置依赖的序列特征 [66]
CRoatan 2017 随机森林;
线性回归
结合表达策略预测
sgRNA的效能
预测同源引导修复
Cas9切割引起的
DSBs的可能性
序列长度,GC含量;
双链断裂与对应位点的距离
[61]
TKOv3 2017 贝叶斯分析 鉴定必需基因
设计全基因组
CRISPR/Cas9
基因文库
评估利用倍数变化分析sgRNA靶向;
必需基因与非必需基因的分布情况;
评估概率分布(贝叶斯因子BF)
[18]
BAGEL 2016 贝叶斯分析 混合文库筛选
鉴定必需基因
评估利用倍数变化分析sgRNA靶向;
必需基因与非必需基因的分布情况;
评估概率分布(贝叶斯因子BF)
[20]
CRISPRiaDesign 2016 弹性网络线性回归;
支持向量回归模型
鉴定CRISPRa/i
高效率的sgRNA
序列特征,位置依赖的序列特征;
染色质的状态,核小体占位率
[8]
CRISPRstrand 2014 基于随机梯度下降
的支持向量机
预测CRISPR
重复序列的方向
ATTGAAAN重复出现次数;
CRISPR 序列核苷酸的组成;
序列特定位置的突变;
序列折叠成二级结构的倾向性
[19]
H1/H2 library 2018 弹性网络回归算法 筛选sgRNA异常值 sgRNA序列特征 [67]