Elevation | 2018 | 朴素贝叶斯; 梯度提升回归树; L1正则线性回归 | 预测sgRNA的脱靶效应 | sgRNA与目的DNA碱基错配位置; sgRNA与目的DNA碱基错配类型; 与位置相关的sgRNA与目的DNA; 碱基错配类型; 突变类型(转换、颠换); 染色质的易接近性 | [13] |
DeepCpf1 | 2018 | 卷积神经网络 | 预测CRISPR-Cpf1 sgRNA的编辑效率 | sgRNA序列特征; 染色质的易接近性 | [14] |
CRISTA | 2017 | 回归模型; 随机森林 | 评估sgRNA切割 基因组位点的倾向性 | PAM序列类型,sgRNA序列核苷酸 组成,GC含量; 染色质的结构,编码区基因表达水平; sgRNA的二级结构、热力学特征; sgRNA与目标DNA序列错配; DNA凸起/RNA凸起的数量 | [52] |
CRISPRpred | 2017 | 支持向量机(SVM); 逻辑回归; 随机森林 | 预测sgRNA的 在靶活性 | 单核苷酸、双核苷酸、三个连续的 核苷酸在sgRNA中的位置; 最小自由能、局部配对概率、sgRNA的热量; sgRNA序列GC含量、AT含量、A/C/G/T数; 氨基酸的切割位置,肽所占百分比 | [60] |
sgRNA Designer (Rule Set 2) | 2016 | 线性回归; L1/L2正则逻辑回归; 支持向量机; 随机森林; 梯度上升回归树 | 预测sgRNA的 在靶活性 | 二核苷酸特征; 与位置有关的单核苷酸和双核苷酸; sgRNA中GC含量; 位置独立的核苷酸数; sgRNA靶点在基因中的位置; 微同源特征 | [22] |
predictSGRNA | 2017 | 逻辑回归;随机森林 | 设计高编辑效率 sgRNA | 位置依赖的单核苷酸; 位置独立的单核苷酸; 单核苷酸与二核苷酸的频率; sgRNA与目的DNA比对得分; 热力学特征及二级结构、理化性质; 由PseKNC模型生成伪k-元组核苷酸特征 | [23] |
Big Papi | 2017 | 梯度上升回归树 | 优化设计sgRNA 文库 | 位置独立的单核苷酸、二核苷酸; 位置依赖的单核苷酸、二核苷酸; 热力学特性(解链温度); 3’PAM序列最接近的胸腺嘧啶(T) | [16] |
— | 2017 | 最小冗余最大相关性; 支持向量机 | 优化sgRNA 编辑效率 | 单个、成对的核苷酸(SNTs, PNTs); sgRNA与目的DNA序列保守性; 氨基酸切割位置,编码肽的氨基酸组成; 靶蛋白序列的紊乱状态 | [24] |
sgRNA Scorer 2.0 | 2017 | 支持向量机 | 预测sgRNA编辑效率 | 靶点与PAM序列的距离 | [62] |
CRISPR-DO | 2016 | LASSO回归; 弹性网络线性回归 | 预测sgRNA的 编辑效率 | sgRNA序列特征; 切割位点处胞嘧啶的偏好性 | [63] |
CRISPR multitargeter | 2015 | 逻辑回归 | 预测sgRNA的 编辑效率 | GC百分比,与位置有关的单核苷酸、 相邻的二核苷酸; sgRNA中G,C的含量,G/C比值; 局部染色质结构 | [64] |
工具名 | 年份 | 机器学习方法 | 机器学习方法在 设计该工具的应用 | 特征构造与选择 | 参考文献 |
CRISPRscan | 2015 | 逻辑回归 | 预测sgRNA的 编辑效率 | 位置依赖的单核苷酸、二核苷酸; GC含量 | [46] |
WU-CRISPR | 2015 | 支持向量机 | 预测sgRNA的编辑 效率与编辑特异性 | 位置独立的单核苷酸、二核苷酸; 位置依赖的单核苷酸、二核苷酸; RNA的二级结构(折叠自由能、 核苷酸的易接近性) ; 位置依赖的sgRNA核苷酸的易接近性; sgRNA重复碱基的分布 | [6] |
CRISPR (SSC) | 2015 | LASSO回归 | 预测全基因组功能 基因筛选sgRNA 的编辑效率 | sgRNA序列特征; 切割位点处胞嘧啶的偏好性 | [65] |
CRISPRko | 2014 | 支持向量机; 逻辑回归 | 预测sgRNA的 编辑效率 | 与位置有关的单核苷酸、相邻的二核苷酸; sgRNA中G,C的含量,G/C比值; 局部染色质结构 | [45] |
— | 2014 | 支持向量机 | 预测sgRNA的 编辑效率 | 序列特征,GC含量; sgRNA链,外显子类型 | [47] |
SgRNA Scorer 1.0 | 2015 | 支持向量机 | 分析不同活性(高/低) sgRNA之间的关系 研究sgRNA特异性 与活性的关系 | 位置依赖的序列特征 | [66] |
CRoatan | 2017 | 随机森林; 线性回归 | 结合表达策略预测 sgRNA的效能 预测同源引导修复 Cas9切割引起的 DSBs的可能性 | 序列长度,GC含量; 双链断裂与对应位点的距离 | [61] |
TKOv3 | 2017 | 贝叶斯分析 | 鉴定必需基因 设计全基因组 CRISPR/Cas9 基因文库 | 评估利用倍数变化分析sgRNA靶向; 必需基因与非必需基因的分布情况; 评估概率分布(贝叶斯因子BF) | [18] |
BAGEL | 2016 | 贝叶斯分析 | 混合文库筛选 鉴定必需基因 | 评估利用倍数变化分析sgRNA靶向; 必需基因与非必需基因的分布情况; 评估概率分布(贝叶斯因子BF) | [20] |
CRISPRiaDesign | 2016 | 弹性网络线性回归; 支持向量回归模型 | 鉴定CRISPRa/i 高效率的sgRNA | 序列特征,位置依赖的序列特征; 染色质的状态,核小体占位率 | [8] |
CRISPRstrand | 2014 | 基于随机梯度下降 的支持向量机 | 预测CRISPR 重复序列的方向 | ATTGAAAN重复出现次数; CRISPR 序列核苷酸的组成; 序列特定位置的突变; 序列折叠成二级结构的倾向性 | [19] |
H1/H2 library | 2018 | 弹性网络回归算法 | 筛选sgRNA异常值 | sgRNA序列特征 | [67] |