高通量测序技术的发展衍生出一系列微生物组(microbiome)研究技术,如扩增子、宏基因组、宏转录组等,快速推动了微生物组领域的发展。微生物组数据分析涉及的基础知识、软件和数据库较多,对于同领域研究者开展学习和选择合适的分析方法具有一定困难。本文系统概述了微生物组数据分析的基本思想和基础知识,详细总结比较了扩增子和宏基因组分析中的常用软件和数据库,并对高通量数据下游分析中常用的几种方法,包括统计和可视化、网络分析、进化分析、机器学习和关联分析等,从可用性、软件选择以及应用等几个方面进行了概述。本文拟通过对当前微生物组主流分析方法的整理和总结,为同领域研究者更方便、灵活的开展数据分析,快速选择研究分析工具,高效挖掘数据背后的生物学意义提供参考,进一步推动微生物组研究在生物学领域的发展。
2019年12月在中国武汉开始爆发的新型肺炎已造成全球25个国家/地区的31516人感染、638人死亡(截止2020年2月7日16时),引起该肺炎的病毒被世界卫生组织命名为2019新型冠状病毒(2019-nCoV)。为促进2019-nCoV数据共享应用并及时向全球公众提供病毒的相关信息,国家生物信息中心(CNCB)/国家基因组科学数据中心(NGDC)建立了2019新型冠状病毒信息库(2019nCoVR,https://bigd.big.ac.cn/ncov)。该信息库整合了来自德国全球流感病毒数据库、美国国家生物技术信息中心、深圳(国家)基因库、国家微生物科学数据中心及CNCB/NGDC等机构公开发布的2019-nCoV核苷酸和蛋白质序列数据、元信息、学术文献、新闻动态、科普文章等信息,开展了不同冠状病毒株的基因组序列变异分析并提供可视化展示。同时,2019nCoVR无缝对接CNCB/NGDC的相关数据库,提供新测序病毒株系的基因组原始测序数据、组装后序列的在线汇交、管理与共享、国际数据库同步发布等数据服务。本文对2019nCoVR数据汇交、管理、发布及使用等进行全面阐述,以方便用户了解该信息库各项功能及数据状况,为加速开展病毒的分类溯源、变异演化、快速检测、药物研发以及新型肺炎的精准预防与治疗等研究提供重要基础。
随着二代测序技术的快速发展,数据量不断累积,肿瘤学家的目光逐渐由多物种测序转移至高通量测序数据的分析和比对。基因数据分析方法层出不穷,高通量的组学分析手段不断优化和创新,基因数据的挖掘和分析工作正处于飞速发展的时期。以肿瘤病人样本为核心的数据库 The Cancer Genome Atlas (TCGA)由此应运而生,该数据库全方位记录了从临床肿瘤病人样本得到的基因数据如DNA序列、转录本信息、表观遗传学修饰等。本文主要从数据分析方法、TCGA数据库及其应用实例等3个方面详细介绍了肿瘤相关基因数据的深入挖掘和生物信息学分析方法的最新研究进展,以期为研究人员利用大数据发现肿瘤防治相关的新靶点提供借鉴和参考。
随着测序技术的不断发展,越来越多物种的全基因组数据被测定和广泛应用。在二代基因组数据爆发式增长的同时,除了核基因组数据,线粒体基因组数据也非常重要。高通量测序的全基因组序列中除了核基因组序列也包括线粒体基因组序列,如何从海量的全基因组数据中提取和拼装线粒体基因组序列并加以应用成为线粒体基因组在分子生物学、遗传学和医学等方面的研究方向之一。基于此,从全基因组数据中提取线粒体基因组序列的策略及相关的软件不断发展。根据从全基因组数据中锚定线粒体reads的方式和后续拼装策略的不同,可以分为有参考序列拼装方法和从头拼装方法,不同拼装策略及软件也表现出各自的优势和局限性。本文总结并比较了当前从全基因组数据中获得线粒体基因组数据的策略和软件应用,并对使用者在使用不同策略和相关软件方面给予建议,以期为线粒体基因组在生命科学的相关研究中提供方法上的参考。
碱基编辑技术(base editing)是基于CRISPR/Cas系统发展起来的新型靶基因修饰技术,目前依据碱基修饰酶的不同可分为胞嘧啶碱基编辑器(cytosine base editor, CBE)和腺嘌呤碱基编辑器(adenine base editor, ABE)。这两类碱基编辑系统利用胞嘧啶脱氨酶或人工进化的腺嘌呤脱氨酶对靶位点进行精准的碱基编辑,最终可以分别实现C-T (G-A)或A-G (T-C)的碱基替换。碱基编辑技术自2016年被开发以来,因其高效、不依赖DNA双链断裂产生、无需供体DNA参与等优势,已经成功应用在各种动物、植物及其他生物中,为基因治疗及精准作物育种等领域提供了重要技术支撑。本文从碱基编辑技术的特点、开发过程、优化、应用、脱靶效应及改善策略等方面进行了系统介绍,最后对未来需要迫切解决的一些问题进行了分析和展望,以期为相关领域的科研人员进一步了解、使用及优化碱基编辑系统提供参考。
染色体的空间交互作用被视为影响基因表达调控的重要因素,高通量染色体构象捕获(high-throughput chromosome conformation capture, Hi-C)技术已成为3D基因组学中探索染色体空间交互作用的主要实验手段之一。随着Hi-C样本数据的持续累积以及分析处理流程复杂度的不断提升,基于生物信息学的Hi-C数据分析对探究基因表达的时空调控机制而言,是机遇也是挑战。本文从生物信息学角度,综合阐述了Hi-C的国内外研究现状及发展动态,包括数据标准化、多级结构分析、数据可视化以及三维建模,重点剖析了多级结构中的A/B区室(A/B compartments)、拓扑相关域(topological associated domains, TADs)和染色质环(chromain looping),在此基础上分析了该方向未来可能的研究热点及发展趋势,以期为将基因表达调控的探索从传统线性空间进一步拓展到三维结构空间提供支持。
DNA甲基化是一种在原核和真核生物基因组中常见的复制后修饰, 参与体内多种重要生理过程, 主要包括:调节基因表达, 基因印记, 维持染色体完整性以及X-染色体灭活等。依据结构和功能的不同, 哺乳动物中DNA甲基转移酶(Dnmts)主要分为两大类: DNA甲基化维持酶Dnmt1以及DNA从头甲基化酶Dnmt3a、, Dnmt3b和Dnmt3L等。此外, Dnmt2也具有弱的DNA甲基转移酶活性, 近年来发现它可以甲基化tRNAAsp反密码子环处38C。这些Dnmts对于哺乳动物的生长发育是十分重要的, 它们的功能异常将导致胚胎发育障碍, 癌症等多种疾病。因此, Dnmts可能成为一个重要的分子靶标, 在疾病的治疗和预防中发挥重要作用。文章就Dnmts的分类、功能以及研究进展进行综述。
以CRISPR-Cas (clustered regularly interspaced short palindromic repeats and CRISPR associated proteins)系统为代表的基因编辑技术的出现极大地促进了人类改造自然界物种的能力。在医疗、工业、农业等多个研究领域,基因编辑技术正在被广泛应用。Cas蛋白是CRISPR-Cas系统的功能蛋白,不同类型的Cas蛋白在其自身活性、识别位点、切割末端、RNA需求等方面具有不同的特性。PAM (protospacer adjacent motif)是靶位点附近的若干个碱基,对Cas蛋白识别靶序列至关重要,也是CRISPR-Cas系统发挥功效的关键特性之一。目前已有多种不同的PAM鉴定方法被报道。本文对Cas蛋白的寻找、Cas蛋白突变体筛选及PAM的确定方法(含PAM谱拓展)进行了综述,以期为新型基因编辑工具的发展和优化提供借鉴。
随着高通量测序技术的发展,环状RNA (circular RNAs, circRNAs)逐渐成为非编码RNA研究领域的热点。本文系统综述了环状RNA侧翼内含子自身互补配对驱动、RNA结合蛋白驱动以及套索驱动这3种环状RNA形成模型,并从高通量文库构建、生物信息学鉴别和常用的实验验证等3个方面对环状RNA的研究方法进行了介绍。同时,本文详细归纳了环状RNA作为microRNA (miRNA)或蛋白的海绵体、调控宿主基因的选择性剪接和表达、翻译成多肽等多种功能。最后通过系统综述植物环状RNA的特征及最新研究进展,为环状RNA在植物学中的进一步研究提供了新的视野。
在真核细胞中,DNA序列以染色质为载体,高度凝缩并存储于细胞核内,其复制、修复和转录表达等过程受到染色质构象的精准调控。越来越多的研究表明,特定的染色质构象可选择性激活或沉默基因,从而控制细胞自我维持或定向分化,决定细胞的组织特异性和细胞命运。因此,对染色质构象的深入研究已成为准确解析基因功能的一个关键切入点,也是当前基因组学研究所面临的一个巨大挑战。本文对染色质构象的研究历史、结构特征、动态调控机制进行了综述,并重点论述了不同维度构象特征对基因转录调控的影响,对该领域的研究难点进行了讨论,展望了其未来的发展方向,期望通过有效梳理染色质构象与基因调控之间的脉络关系,为未来该领域的研究提供参考。
基因资源是国家的重要战略资源,保存、保护和合理利用基因资源将成为未来维护国家安全、打造核心竞争力的坚实基础和有效保障,然而我国在基因数据存储、样本存储等方面均起步较晚,无法满足国内日益增长的生命科学相关领域的研究发展需求。针对上述问题,2011年中国政府批复依托深圳华大生命科学研究院(原深圳华大基因研究院)建设我国首个读、写、存一体化的综合性生物遗传资源基因库——深圳国家基因库(亦称国家基因库)。本文总结了国内外较有影响力的基因资源大平台的发展概况,着重阐述了国家基因库的定位与使命,以及“三库两平台”的结构与功能——生物遗传资源的存储、读取、合成运用和开放共享。自2016年9月正式运行以来,国家基因库作为公益性、开放性、支撑性、引领性的战略性科技平台,已具备千万级可溯源样本存储能力,十万级基因组/年的存储和计算能力,建成首个国产化Pb (Petabases)级基因组数据产出平台以及千万碱基/年高效合成平台,同时基于自身平台能力,国家基因库建立了全面的开放共享机制,开展资源数据共享和公共平台服务,对生命科学研究和生物产业创新发展的支撑和助力初见成效。
增强子是真核生物基因表达调控的主要顺式作用元件,能有效促进基因表达。活化的增强子可以转录生成增强子RNA (enhancer RNAs, eRNAs),其合成受到信号系统和信号转录因子的约束。eRNAs与其他转录本(如lncRNAs和mRNAs)相比,其长度更短、稳定性更差、组织特异性更强。此外,eRNAs对增强子与启动子之间的染色质环(looping)的形成和稳定有一定的作用,并能促进靶基因的表达。目前,越来越多的研究发现eRNAs在发育和疾病发生等生物学过程中扮演着重要角色,但是其功能研究一直进展缓慢,调控机制尚不清楚。本文概述了eRNAs的特征、研究方法和功能特性,探讨了eRNAs作为潜在治疗靶标的可能性,以期为eRNAs的后续研究提供参考。
染色质转座酶可及性测序(assay for transposase-accessible chromatin with high-throughput sequencing, ATAC-seq)诞生于2013年,具有比脱氧核糖核酸酶I超敏感位点测序(deoxyribonuclease I hypersensitive site sequencing, DNase-seq)和微球菌核酸酶敏感位点测序(micrococcal nuclease sequencing, MNase-seq)更快速、灵敏、简便的优点,是目前分析全基因组范围染色质开放区域的热点技术。通过该技术能获得染色质开放区域的相关信息,从而映射出转录因子等调控蛋白的结合区域和核小体定位等信息,对于研究表观遗传分子机制具有重要意义。本文比较了5种获取染色质开放区域技术的优缺点,重点介绍了ATAC-seq的原理和主要流程,描述了利用ATAC-seq技术研究染色质开放区域的发展概况以及ATAC-seq的相关应用,期望对真核生物全基因组水平的染色质开放区域研究、顺式调控元件鉴定以及遗传调控网络的解析等提供借鉴。
全基因组关联研究(Genome-wide association study, GWAS)是人类复杂疾病研究的重要组成部分之一,在群体水平检测全基因组范围的遗传变异与可观测性状间的遗传关联。传统的GWAS是以芯片(Array)技术获得高密度的遗传变异,尽管硕果累累,但也存在不少问题。如:所谓的“缺失的遗传力”,即利用关联分析检测达到全基因组水平显著的遗传变异位点只能解释小部分遗传力;在某些性状上不同研究的结果一致性较弱;显著关联的遗传变异位点的功能较难解释等。高通量测序技术,也称第二代测序(Next-generation sequencing, NGS)技术,可以快速、准确地产出高通量的变异位点数据,为解决以上问题提供了可行的方案。基于NGS技术的GWAS方法(NGS-GWAS),可在一定程度上弥补传统GWAS的不足。文章对NGS-GWAS策略和方法进行了系统性调研,提出了目前较为可行的NGS-GWAS的实施策略和方法,并对NGS-GWAS如何应用于个体化医疗(Personalized medicine, PM)进行了展望。
发现和正确解读疾病相关突变是遗传病分子诊断和临床指导的关键。尽管二代测序技术的应用显著改善了突变检测效率,但解读突变的生物学效应仍然存在挑战。目前对基因检测结果的解读更多地关注突变对蛋白质结构和功能的影响,而忽视了基因变异对RNA剪接的影响。越来越多的证据显示引起RNA剪接异常的基因变异在疾病发生中发挥重要作用。本文对影响RNA剪接的主要突变类型和确认方法进行介绍,以期为准确判断突变的遗传效应提供参考。
全基因组关联研究(genome-wide association study, GWAS)自2005年首次发表以来已不断增进人们对疾病遗传机制的认识,结合系统生物学并改进统计分析方法是对GWAS数据进行深度挖掘的重要途径。通路分析(pathway analysis)将GWAS所检测的遗传变异根据一定的生物学含义组合为集合进行分析,有利于发现对疾病单独效应小却在通路中相互关联的遗传变异,更有利于进行生物学解释。当前通路分析在GWAS数据上已有较为广泛的应用并取得初步成果。与此同时,通路分析的统计方法仍在不断发展。本文旨在介绍现有直接以SNP为对象的GWAS通路分析算法,根据方法中是否采用核函数分为非核算法和核算法两大类,其中非核算法主要包括基因功能富集分析(gene set enrichment analysis, GSEA)和分层贝叶斯优取(hierarchical Bayes prioritization, HBP),核算法包括线性核(linear kernel, LIN)、状态认证核(identity-by-status kernel, IBS)和尺度不变核(powered exponential kernel)。通过介绍这些方法的计算原理和优缺点,以期为新算法的构建提供更好的思路,为GWAS领域研究方法的选择提供参考。
人类样品是生物医学研究必需的物质基础。B淋巴母细胞系(LCL)是利用Epstein-Barr(EB)病毒转化人的B细胞获得,制备简便,可以无限繁殖,是非常便捷的保存人类样品的形式。中华民族永生细胞库保藏有中国各个民族群体的LCL。目前,已经有详实的LCL的性质研究以及关于LCL的全基因组数据,因而, LCL已经广泛应用于遗传学、免疫学、药学基因组学、再生医学、癌症发生与免疫治疗、筛选制备全人单克隆中和抗体及EB病毒致病机理等研究领域。本文对LCL的特性以及LCL在上述研究领域中的应用进行了综述,最后对中华民族永生细胞库的保藏内容做了简单介绍,以促进广大科研人员进一步了解该细胞库的科研价值,充分发挥该库保藏资源在基础科学、生物医学研究中的科技支撑作用。
随着分子生物学技术的不断发展和需求的多样化,用于核酸检测的各种PCR衍生技术应运而生。数字PCR是一种单分子水平的大规模分区扩增定量核酸检测技术。该技术以微腔室/微孔或微滴作为PCR反应器,无需校准物和绘制标准曲线即可实现对样品初始浓度的绝对定量,具有高灵敏度、高特异性和高精确度的特点。本文详细介绍了数字PCR的技术发展史、作用原理以及仪器平台类型,系统阐述了数字PCR在转基因检测、疾病诊断、环境及食品监管等方面的应用概况,并对该技术的应用前景进行了展望,以期对未来数字PCR的开发利用提供参考。
作为重大进化谜题,真核生物起源的研究对于解码真核基因组、阐释真核细胞内部结构之间的关系有重要启示作用。在1977年美国微生物学家Carl Woese发现古细菌并提出三域生命之树之后,大量研究显示古细菌与真核生物在进化上存在着密切联系。21世纪以来,系统发育分析方法不断改进,泉古菌门(Crenarchaeota)、广古菌门(Euryarchaeota)之外与真核生物更加相似的新古细菌门类也相继被发现,这些证据更加支持将真核生物与古细菌合并为一域,形成二域生命之树。目前,通过宏基因组技术发现的Asgard古细菌是与真核生物进化距离最近的原核生物。然而,真核生物祖先的身份以及线粒体起源的时间等核心问题仍是学术界争论的焦点。本文结合近年来国内外研究成果,从生命之树的形态变化与真核生物演变的具体机制两个角度梳理了目前对真核生物起源的认知过程、现有水平和研究前景,以期为揭示真核生物起源进程的后续研究提供参考与指引。
随着高通量测序技术和翻译组学研究的快速发展,对环状RNA (circular RNA, circRNA)翻译能力的研究日益成为热点。已有研究表明,circRNA自身可以翻译为蛋白,其蛋白功能与人类疾病发生发展有着密切联系,而且其有望成为mRNA的理想替代品,未来可被广泛地应用在蛋白质工程。本文系统综述了circRNA来源、形成方式和主要特征、翻译蛋白的方式、翻译能力的鉴定和功能验证,归纳了近年来circRNA翻译在人类疾病中的研究进展及其在蛋白质工程的应用,并对后续研究关注的问题进行了展望,以期为相关领域的研究提供参考。
近年发展起来的人工核酸酶可通过引起特定位点的DNA双链断裂实现对目的片段的有效编辑。为进一步提高碱基修改的效率和精确度,2016年研究者们利用CRISPR/Cas9识别特定DNA序列的功能,结合胞嘧啶脱氨酶的生化活性发明了将胞嘧啶高效转换为胸腺嘧啶(C>T)的嘧啶单碱基编辑系统(base editor)。这一系统虽然能精准实现嘧啶直接转换,大大提高精确基因编辑效率,但美中不足的是无法对嘌呤进行修改。近期,Nature报道了将细菌中的tRNA腺嘌呤脱氨酶定向进化形成具有催化DNA腺嘌呤底物的脱氨酶,将其与Cas9系统融合发明了具有高效催化腺嘌呤转换为鸟嘌呤的新工具—腺嘌呤单碱基编辑系统(ABEs, adenine base editors)。本文总结了单碱基编辑工具的发展历程和最新研究进展,着重介绍ABEs的研发过程,并对单碱基编辑工具今后的应用方向和研发方向进行展望。
高通量的基因型分析和芯片技术的发展使人们能够进一步研究哪些遗传差异最终影响基因的表达。通过表达数量性状座位(eQTL)作图方法可对基因表达水平的遗传基础进行解析。与传统的QTL分析方法一样, eQTL的主要目标是鉴别表达性状座位所在的染色体区域。但由于表达谱数据成千上万, 而传统的QTL分析方法最多分析几十个性状, 因此需要考虑这类实验设计的特点以及统计分析方法。本文详细介绍了eQTL定位过程及其研究方法, 重点从个体选择、基因芯片实验设计、基因表达数据的获得与标准化、作图方法及结果分析等方面进行了综述, 指出了当前eQTL研究存在的问题和局限性。最后介绍了eQTL研究在估计基因表达遗传率、挖掘候选基因、构建基因调控网络、理解基因间及基因与环境的互作的应用进展。
基因组计划研究表明, 在组成人类基因组的30亿个碱基对中, 仅有1.5%的核酸序列用于蛋白质编码, 其余98.5%的基因组为非蛋白质编码序列。这些序列曾被认为是在进化过程中累积的“垃圾序列”而未予以关注, 但在随后启动的ENCODE研究计划中却发现, 75%的基因组序列能够被转录成RNA, 其中近74%的转录产物为非编码RNA(Non-coding RNA, ncRNA)。在非编码RNA中, 绝大多数转录本的长度大于200个碱基, 这些“长链非编码RNA(Long non-coding RNA, lncRNA)”能够在转录及转录后水平上调节蛋白编码基因的表达, 从而广泛地参与包括细胞分化、个体发育在内的重要生命过程, 其异常表达还与多种人类重大疾病的发生密切相关。文章综述了长链非编码RNA的发现、分类、表达、作用机制以及其在个体发育和人类疾病中的作用。