微生物组数据分析方法与应用
刘永鑫,秦媛,郭晓璇,白洋

Methods and applications for microbiome data analysis
Liu Yongxin,Qin Yuan,Guo Xiaoxuan,Bai Yang
表2 宏基因组分析常用软件和数据库
Table 2 Metagenome analysis software and databases
名称 链接 简介 参考文献
MultiQC https://multiqc.info/ 多样本质控和分析结果汇总 [66]
Trimmomatic http://www.usadellab.org/cms/index.php?
page=trimmomatic
Java编写的质量控制软件,实现快速去除低质量、接头和引物序列。被质控流程KneadData流程整合为默认质控软件。 [67]
Bowtie 2 http://bowtie-bio.sourceforge.net/bowtie2 序列比对工具,短读长序列快速比对至参考序列,结果为SAM/BAM格式 [68]
MetaPhlAn2 https://bitbucket.org/biobakery/
metaphlan2/
物种组成定量流程,包括人工整理的上万物种中的上百万个标记基因数据库,结果可直接用于LEfSe分析 [47]
HUMAnN2 https://bitbucket.org/biobakery/humann2 功能组成定量流程,默认基于UniRef数据库注释序列,获得基因家族、通路丰度和覆盖度的功能组成表 [49]
UniRef https://www.uniprot.org/uniref/ 非冗余蛋白序列数据库,用于宏基因组分析中序列或基因的功能注释 [69]
Kraken 2 https://ccb.jhu.edu/software/kraken2/ 物种分类软件,基于K-mer方式匹配NCBI 非冗余数据库实现超高速物种注释,内存要求高 [48]
MEGAHIT https://github.com/voutcn/megahit 宏基因组拼接软件,内存消耗低,计算速度快、嵌合体率较低、N50偏低 [70]
metaSPAdes http://cab.spbu.ru/software/spades/ 宏基因组拼接软件,内存消耗大,计算时间长,但有更长的N50,也存在拼接错误和嵌合体比例升高的风险 [50]
MetaQUAST http://quast.sourceforge.net/metaquast 拼接结果评估,输出拼接指标和可视化图形的PDF和交互式网页版报告 [71]
Prokka http://www.vicbioinformatics.com/
software.prokka.shtml
原核基因组注释流程,主要用于基因组、宏基因组中的编码基因预测,生成提交NCBI所需要的注释文件 [51]
GeneMarkS-2 http://exon.gatech.edu/GeneMark/
genemarks2.cgi
基因组注释网页工具,用户无需服务器和安装软件,浏览器中实现宏基因组中基因预测 [52]
CD-HIT http://weizhongli-lab.org/cd-hit/ 序列去冗余,实现核酸、蛋白构建非冗余基因集 [53]
Salmon https://combine-lab.github.io/salmon/ 非比对基因定量,基于K-mer方式超快速实现序列分配,无中间文件生成,直接获得计数型结果 [72]
DIAMOND https://github.com/bbuchfink/diamond 比BLAST更快的蛋白比对工具 [73]
eggNOG http://eggnogdb.embl.de/app/emapper#/
app/downloads
同源组蛋白数据库 [74]
GhostKOALA https://www.kegg.jp/ghostkoala/ 在线KEGG注释工具,可为基因序列分配KO编号 [75]
CAZy http://www.cazy.org/ 蛋白功能注释:碳水化合物基因数据库 [54]
CARD https://card.mcmaster.ca 蛋白功能注释:抗生素抗性基因综合数据库 [55]
Resfams http://www.dantaslab.org/resfams 蛋白功能注释:抗生素抗性基因数据库 [76]
VFDB http://www.mgc.ac.cn/VFs/ 蛋白功能注释:毒力因子数据库 [56]
MetaBAT 2 https://bitbucket.org/berkeleylab/metabat/ 主流分箱工具 [57]
MaxBin 2 https://sourceforge.net/projects/maxbin2/ 主流分箱工具 [58]
CONCOCT https://github.com/BinPro/CONCOCT 主流分箱工具 [59]
metaWRAP https://github.com/bxlab/metaWRAP 分箱流程,依赖140余款工具,可实现conda快速安装,默认对3种主流分箱结果提纯,提供多种可视化方案 [60]
DAS_Tool https://github.com/cmks/DAS_Tool 分箱流程,对5种主流分箱工具结果提纯 [61]
Athena https://github.com/elimoss/metagenomics_workflows/ 基于10×建库宏基因组测序的组装软件 [63]
OPERA-MS https://github.com/CSB5/OPERA-MS 基于Illumina、Nanopore和PacBio的二、三测序数据混合组装软件 [64]
MAGpy https://github.com/WatsonLab/MAGpy 分箱结果下游比较基因组分析流程 [65]
OrthoFinder https://github.com/davidemms/
OrthoFinder
同源基因鉴定,基于多个细菌基因组中的蛋白组鉴定单拷贝同源基因和构建多基因进化树 [77]
Microbiome helper https://github.com/LangilleLab/
microbiome_helper
微生物组分析中常用格式转换工具集,方便分析和流程搭建 [78]