泛基因组:高质量参考基因组的新标准
边培培, 张禹, 姜雨

Pan-genome: setting a new standard for high-quality reference genomes
Bian Peipei, Zhang Yu, Jiang Yu
表2 泛基因组代表性研究
Table 2 Representative pangenome studies
年份 物种 基因组大小 个体数目 构建策略 主要新进展 参考文献
2005 无乳链球菌
(Streptococcus agalactiae)
~2 Mb 8 基于多个从头组装的基因组的比较 泛基因组概念的引入 [1]
2007 N/A N/A N/A N/A 综述文章,第一次在植物中应用泛基因组这个术语 [45]
2010 人(Homo
sapiens
)
~3.2 Gb 3 基于多个从头组装的基因组的比较 估计一个完整的泛基因组可能包含19~ 40 Mb在当前参考基因组中不存在的新序列,鉴定了额外86个新基因 [5]
2014 大豆(Glycine
soya
)
~0.9 Gb 7 基于多个从头组装的基因组的比较 第一个植物泛基因组文章,测序和重新组装了野生大豆个体的基因组,将注释基因聚类到基因家族,核心基因簇的比例为49% [46]
玉米(Zea mays) ~2.4 Gb 503 基于多个从头组装的转录组的比较 获得了约8600个有代表性的在参考基因组中不存在的转录本,其中的16.4%在所有品系中表达,82.7%在部分品系中表达 [50]
2016 甘蓝(Brassica
oleracea
)
~650 Mb 10 reads映射到参考基因组;unmapping reads的组装;通过新组装的contigs更新旧序列来产生新的参考序列。(将从每个基因组获得的reads映射到不断增长的泛基因组) 核心基因簇比例占泛基因组总数的81%,近20%的基因受到存在/缺失变异的影响 [53]
2018 水稻(Oryza
sativa
)
~400 Mb 3010 对个体测序数据进行组装,通过从与参考基因组unaligned的contigs中移除冗余序列来构建具有代表性的非参考序列,结合参考基因组构建泛基因组 鉴定了超过10,000个新的全长蛋白编码基因和大量的存在-缺失变异,核心基因簇比例占泛基因组总数的54%~62% [10]
2019 人(Homo
sapiens
)
~3.2Gb 910 reads映射到参考基因组,组装unmapping的reads,保留新组装的长度大于1 kb的非参考序列的contigs用于构建泛基因组 利用非洲血统的人类群体基因组构建泛基因组,获取了参考基因组中296 Mb不存在的序列 [20]
番茄(Solanum
lycopersicum
)
~810Mb 725 对个体测序数据进行组装,通过从与参考基因组unaligned的contigs中移除冗余序列来构建具有代表性的非参考序列,结合参考基因组构建泛基因组 鉴定出一个约 4 kb 与风味相关的基因TomLoxC的启动子的存在缺失变异,表明泛基因组研究可以帮助物种恢复驯化或者改良过程中丢失的理想性状 [4]
猪(Sus scrofa) ~2.7 Gb 12 基于从头组装的基因组之间的相互比较 第一个家养动物的线性泛基因组,获得了额外的72.5 Mb序列 [3]
山羊(Capra
hircus
)
~2.9 Gb 10 基于从头比较来自近缘物种的基因组 第一个跨物种比对的泛基因组,从参考基因组中寻找缺失序列的有效且可靠的策略,获得了38.3 Mb 序列 [70]
2020 大豆
(Glycine soja
Glycine max)
~1 Gb 29 基于从头组装的基因组之间的相互比较,图结构泛基因组 鉴定了大的结构变异和基因融合事件,将结构变异与基因表达和农艺性状联系起来 [30]
牛(Bos taurus) ~2.6 Gb 300 集成了线性参考基因组坐标和预先选择的变异(<50 bp),图结构泛基因组 第一个家养动物的图结构泛基因组,在人类以外的大基因组动物上对图结构泛基因组的首个尝试 [32]
贻贝
(Mytilus
galloprovincialis
)
~1.28 Gb 16 测序reads被映射到贻贝参考基因组上,收集未映射的reads从头组装。新组装的contigs被添加到参考基因组中,构建了一个贻贝泛基因组(将从每个基因组获得的reads映射到不断增长的泛基因组)。 开放型的动物泛基因组,高比例的可变基因组(45%),展示了动物泛基因组的潜能 [71]
2021 水稻(Oryza
sativa
Oryza
glaberrima
)
~400 Mb 33 基于从头组装的基因组之间的相互比较,图结构泛基因组 共鉴定了171,072个SVs和25,549个gCNVs,可以用于全基因组关联研究 [31]
牛(Bos taurus) ~2.6 Gb 6 基于从头组装的基因组之间的相互比较,图结构泛基因组 70 Mb的非参考基因组等位序列,提供了一个构建图结构泛基因组的框架,适合于多种物种 [19]