宏基因组学自第一次使用15年后,人们运用该技术对复杂的微生物群落进行了研究。本文章讨论了鸟枪法宏基因组学研究过程中遇到的局限性问题,并对未来的宏基因组学进行展望。尽管组学研究表面看起来较为简单,但由于潜在的实验偏差以及分析解释的复杂性,鸟枪法宏基因组学仍存在着一定的局限性。本篇综述对鸟枪法宏基因组学进行了简单讲解,进一步加深了我们对该技术的认识。
二、论文ID
原名:Shotgun metagenomics, from sampling to analysis
译名:从采样到分析介绍鸟枪法宏基因组学
期刊:Nature Biotechnology
IF:41.667
发表时间:2017年
通信作者:Christopher Quince
通信作者单位:Warwick Medical School, University of Warwick, Warwick,UK
三、综述结构
四、综述内容
1 鸟枪法宏基因组学试验设计
试验设计一直在试验过程中扮演着重要的角色。在相同环境中的样品之间微生物含量可能会出现差异,这使得研究小样本组之间的显着差异变得十分复杂。因此,对于是否能检测到小样本间的差异变得格外重要。在可行的情况下,我们建议将纵向研究纳入样本中,而不是简单的研究横断面来比较两个样本差异。纵向研究不依赖单个样本的结果,异常值不具有代表性,同时排除了多余变量存在的影响。研究样本类型的多样化体现出收集详细和准确的数据是至关重要。虽然列出了关于标记基因序列的信息和关于任何基因序列标准的信息为所需数据提供指导,但是仍不能为不同环境类型下的宏基因组学研究选择合适和可行的参数。这里建议将尽可能多的详细描述数据与每个样本相关性,以使人们对于样本类型之间的比较和特定的环境变量关联性有更深层次的认识。
2 样本的采集和DNA提取
样本采集和保存可以影响宏基因组学数据的质量和准确性。因此,为了优化样品采集条件,通常需要进行仔细的前期工作。取样的关键是收集到足够多的微生物进行测序,并尽量减少样品的污染。收集样本时应记录收集和储存的方案及条件。
样品处理阶段很有可能会发生污染,这些污染可能来自于试剂盒或实验室试剂的微生物污染物。来自小生物量样品的宏基因组学研究特别容易受到这个问题的困扰,因为所含的微生物量较少且更易与污染物混合难以区分。建议研究低生物量样品的研究人员使用超洁净试剂,并纳入“空白组”测序,其中试剂在不添加样品模板的情况下进行测序以期形成对照减少误差。
3 数据库的制备和测序
对于文库制备和测序方法的选择主要取决于材料可用性、成本、自动化程度和样本质量。由于Illumina平台的可用性,高输出和高精度,使其在鸟枪法宏基因组学中占据主导地位。Illumina HiSeq 4000,NextSeq和NovaSeq可以测得大量序列数据,非常适合宏基因组学研究。Illumina平台的主要区别其他平台的优势在于其总输出和最大读取长度。
4 宏基因组的装配
样本中可能含有相同细菌门类的不同菌株。这些密切相关的基因组可能在组装中出现分支,其中它们可能因单个核苷酸变异引起整个基因或操纵子的变动。汇编程序经常会停在这些分支点上,造成零散的重建。meta-IDBA44使用多k-mer方法来避免分枝点的选择降低误差。为了获得更高质量的试验数据谨慎的做法是尝试多个组装方法进行验证。
5 序列装配
对于分类学分类用于已知基因组的重叠群同源性是一种潜在的有用的方法,但是大多数微生物物种尚未被测序,因此大部分重建的基因组片段不能被映射到参考基因组。随着多样本宏基因组数据集的产生,研究人员已经意识到,跨多个样本的重叠群覆盖将重叠群组合在一起。其基本原理是来自同一基因组的重叠群将在每个宏基因组内具有相似的覆盖值,尽管基因组内的GC含量变化和细菌复制起点周围读取深度的增加可以起到作用。MAGs的完整性通常通过检查大多数微生物基因组中发现的单拷贝核心基因来评估。一个纯粹的MAG将所有这些基因出现在单个拷贝中。一旦成功构建,MAGs将为比较基因组学提供丰富的数据集,包括系统发育树的构建,功能概况和样本间MAG丰度的比较。
6 无装配宏基因组分析
物种水平分辨率的无装配分类鉴定仪可以用于研究参考基因组和特定环境中可用的信息,该技术也应用于人类相关的宏基因组学研究。随着更多的参考基因组和高质量的宏基因组组装,方法的准确性将会被提高。对于具有数百万个样品的大型数据集,在其上进行或解释宏基因组装是不切实际的,由此标记的方法是目前能够选择的主要方法。
7 宏基因组的基因与代谢途径
宏基因组代谢功能分析是对感兴趣的特定功能的深入的探究,如抗生素抗性基因数据库对于这种方法的研究是极为重要。ARDB98作为是第一个被广泛采用的抗性数据库,现在又增加了Resfams99等额外资源,其相当大的程度上也致力于宏基因组学研究; 宏基因组针对感兴趣的特定基因进行有针对性的分析也可用于验证微生物和分离试验的研究。
8 后期处理分析
后期处理分析包括使用传统的多元统计方法、样本的简单聚类、相关性分析,以及可视化技术,这些技术能够使数据以图形方式展现。一些统计工具旨在专门解决由宏基因组特征的比例性质问题,并推断群落内的生态关系。宏基因组学数据集的复杂性通常使用大量比较,多重比较或效应量的校正对于此研究是至关重要的。强大的统计分析能力是确定试验结果是有效性的关键,图形的表示可以直观地揭示测序结果。在许多情况下,后期处理结果的可视化需要特定的图形工具和选择的通用可视化方法。由此看来后期数据处理分析在整个实验过程中是必不可少的一部分。
五、结论
鸟枪法宏基因组学已经成为研究微生物群落的重要工具。测序成本的下降和计算方法的改进促使了宏基因组学的广泛应用。现在研究人员面临的主要难题是科学家对于复杂的宏基因组数据集的分析以及对选用合适的试验设计节省成本。提高无偏差重现性和标准化的计算工具是解读宏基因组数据的关键。鸟枪宏基因组学将成为生物医学和环境研究中越来越重要的角色。
六、点评
宏基因组学仍然面临适用性,实用性和标准化的问题。然而,前景是光明的,人们正在不断寻求解决这些问题的方法。宏基因组装技术是首选的理论解决方案,但是其覆盖度对于大多数微生物群体的来说是难以实现的,并且无组装的方法也具有一些优点。虽然读长技术可以在未来帮助改善这些困难,但在那之前,解决宏基因组应变水平分析的计算挑战可以说是该领域面临的最大难题。我们期望这篇文章能为广大读者解明鸟枪宏基因组学的基本概念,并拓展人们对该技术存在的局限性与巨大的潜力的理解。