当前位置: 首页 > 股票资讯 >【高手之作】高通量测序数据分析微生态的原理

【高手之作】高通量测序数据分析微生态的原理

2023-05-10 14:56:27


浙江大学医学院李昂lia@zju.edu.cn

 我们对陌生的技术充满了警惕和期望。对很多人来说高通量测序(下面都简称为NGS)是一种非常高端神秘的技术,NONGS仅仅是一种工具而已,不要因为它带了个字,就认为是高大上高科技,绝对不是!

 之前的分享讲到,微生态研究会带来三种最基本的信息1.有哪些微生物?2.微生物做什么?3.微生物之间的关系(第三个先不讲)。论文中眼花缭乱的图,人体疾病的关联分析,都是在这三种信息的基础上得到的。现在介绍下这三种信息怎么用NGS获得,原理非常简单。

 先赘述下NGS的基本实验流程:临床样品(粪便,生殖道分泌物,尿液等)中有很多微生物,先把微生物富集(离心)后提DNARNA,就能得到大部分微生物的遗传物质(稀有物种可能会被漏掉)。用超声波将DNA打断成万亿条大小均一的片段(RNA需要先用实验手段处理成DNA)。把这些DNA片段用一个叫测序仪的仪器读取,每个样品能得到上千万条DNA序列,术语叫做reads或者sequences(如果要做靶基因测序,如16S核糖体RNA序列,DNA不需要打断,但这个技术难度小,今天不讲。)

 如果样品中只有一种微生物,微生态菌群就只有一种基因组。如果样品中有3种细菌,菌群就有3种基因组。我们假设样品中有3种微生物,相对比例为2:1:2,而基因组的长度比例为2:2:1,打断成大小均一的片段(我们假设片段大小为0.5),最后测序得到的DNA片段比例是8:4:4(比例 X 基因组长度➗以片段大小) ,如图1所示,很简单吧?


1 微生态测序的reads,每一种颜色代表了一种细菌

 NGS可以得到样品中微生态中几百种微生物的上百万DNA序列。这些DNA序列包含了微生物群落的信息。现在的问题是:怎么从百万条DNA序列中提取或者还原微生态的信息?我们按照微生态研究能提供的信息分开说。

1 微生物的组成。

微生物的组成,包括已知微生物的组成未知微生物的组成

1.1 已知微生物的组成

 先讲个故事,小红帽在森林采了很多蘑菇,在不认识蘑菇的情况下想知道收获了哪些蘑菇和其数量,怎么实现?最简单的办法如下:

 step1 买一本《蘑菇手册》和很多盒子,然后把所有的蘑菇一个个的摆好。

 step2 挑选一个蘑菇,然后和手册中的所有蘑菇比较。如果手册中有收录该蘑菇,就拿一个盒子,这个盒子外面写上蘑菇A”,把正在比较的蘑菇放进去。

 step3 重复步骤2,如果正在比较的蘑菇是第一次发现,就拿一个新的盒子装进去,不要和其他的蘑菇混在一起。

 step4 所有的蘑菇都完成比较工作,然后开始统计所有的盒子。

 很简单吧?所谓高科技NGS数据分析,用的原理一模一样。当然我们不用《蘑菇手册》,而是一个叫参考序列的东西,参考序列是什么?《蘑菇手册》需要给出每种蘑菇的名字和图片,参考序列要给出微生物的名字,以及它的基因组序列。就像数蘑菇一样,我们把上百万条测序序列和参考序列中的基因组序列比较后,放到一个个的小盒子,最后统计出的盒子种类,以及盒子里序列的个数,就是微生物群落的组成。截至发稿,NCBI已经收录的细菌参考序列有64,550种(NCBI基因组数据库)。

 2.2 未知微生物的组成

 之前讲过,环境中90%以上的微生物没有(没法)被分离培养过,这部分微生物在参考序列中无法找到。实际上,微生态样品中大部分的物种都没有参考序列,如粪便菌群测序结果显示,在大部分样品中,只有低于50%的序列能找到参考序列。若测序序列在参考序列中没有对应的物种,那认为该序列就是来自未知物种重点来了:NGS分析最有价值的地方是,从百万条的测序序列中找到未知的微生物物种这个怎么做到?接着讲蘑菇的事儿。

 小红帽拿了一只蘑菇,翻遍了手册也没有找到,但又不能丢弃,怎么办?先拿一只盒子,外面写上未知蘑菇1,把这个不知名的蘑菇放进去。如果又遇到未知蘑菇,就依次命名为未知2号,3….这类的每只盒子里只有一只未知蘑菇。但是这样的盒子越来越多,房间逐渐放不下。唯一的办法是减少盒子数量。因为森林的面积不是无限大的,所以蘑菇种类的个数一定是个有限值(术语叫收敛,微生态也一样,所以以下假设一定成立:只要两只未知的蘑菇长的一模一样,就来自同一个种类。怎么把来自同一类的蘑菇放在一起?小红帽想了一个办法。

 step 1 把所有的未知蘑菇排序

 step 2 随机挑选一只蘑菇,这只蘑菇一定来自一个未知物种,我们编号为UMS-1,放入一个盒子,盒子外面写上UMS-1

 step 3 把剩下的所有的蘑菇,逐个和UMS-1比较,如果长的一样,就放入UMS-1盒子,如果长得不一样,就放回原处。

 step4 第一轮比较结束后,重新挑选一只蘑菇,编号为UMS2,然后重复step3

 step5 等待所有的蘑菇都被分配完。每个标记好的盒子中,装的都是一模一样的未知物种。 


2 五个未知蘑菇被分成两个物种

 人类世界中,有很多已经观察到,但暂时未能定义的事物,比如神秘的埃及象形文字,新的动植物,元素周期表上不存在的元素,还有未知功能的基因,处理方法都是沿着这个基本思路,即在事物在不同的时间地点多次出现前提下,进行从头去冗余(de-novoredundancy minimization),得到同行认可后,就能去掉未知的帽子拥有正式的名称。微生态研究中,我们只能给这个未知物种一个自定义的编号(比如MGS-11,MLG-35 ),编号并不通用,不被研究领域内所有人认可。现在有一个很大的研究分支叫做培养组学(culturomics),目的是突破营养条件和生存条件限制,分离出难培养微生物的活体并保存传代,这样蘑菇手册中的蘑菇的数量就会越来越全。尽管我们不知道未知微生物来自哪个门纲目科属种,但这些未知的序列不会被丢弃,可以用数据分析推测它可能具有的功能,下面马上讲到。

2 微生态的功能。

 微生态是由成百上千种微生物组成的,细菌平均有3500个基因,而每个基因都有自己的功能。只要弄清每个基因的功能(这个过程叫做注释),把这些基因功能起来,就是微生态的功能,怎么做?

 2.1 怎么弄清一个基因的功能?

 功能的定义是这个基因是做什么的,弄清一个基因的功能的过程叫做注释。虽然现已知几百万条个原核生物基因的序列,但是并非所有基因的功能都是不一样,很多基因序列的功能是相同/相似的。我们可以根据这些基因功能的特点进行粗略的分类。


3 COG的功能基因分类,图中每个字母代表一类功能

 基因功能,这不是计算机平白无故想出来的,而是几十年来,全世界科学家艰辛工作成果的总和。研究者每找到一个新的基因需要假设它具有某种功能,在实验验证成功,确定新基因的功能后,把这个基因的序列提交给数据库管理,数据库中每个基因包含的信息有:基因的序列和注释信息(这些信息由上传的人严格按照固定模式填写)。如果微生态包含的基因序列,和数据库中的基因序列接近(按照JCVI研究所的标准,相似度大于35%的氨基酸序列被认为是高度接近),那么我们就推测它们具有同样的功能,这种方法叫做同源比对(常见的blast就是一种)。另外一种方法叫做模型预测,原理完全不同(这个暂时不介绍,有兴趣的读者可以欢迎邮件交流),但也非常有用,我常用的工具是HMMER(http://hmmer.org/)

 不管是哪种方法,都依赖于高质量的基因功能数据库,数据分析没法凭空想象出一个功能出来。如果基因找不到功能怎么办?稳妥的办法是标记成未知功能基因。如果还是不死心,建议换个数据库,如NCBINR数据库,但NR数据库的注释信息良莠不齐,要十分小心。我印象最深的一个项目是:深圳大梅沙海滨的赤潮海水中,用NR数据库中注释出高表达的老年痴呆症蛋白,这个结果显然有问题,但并不奇怪。因为研究人体健康的科学家多,研究环境的少,数据库中收录的基因当然和疾病相关的更多,数据库是存在选择偏好的。

 2.2 怎么把所有基因的功能加起来

 非常简单,直接用KEGG数据库就可以加起来”(http://www.kegg.jp/kegg/pathway.html)KEGG是一个专门收录生命活动代谢路径的数据库,我们以维生素B6代谢路径为例来说下基本原理。维生素B6是人体自身无法合成的一种非常重要的元素,肠道菌群可以合成,但含量较少,一般情况下主要从食物中获取。它的代谢路径如图所示。


4 V-B6代谢路径

 第一眼看上去这个图很乱,其实非常简单,KEGG组织信息的方式非常巧妙,圆圈代表化合物,在方框(即功能基因)作为生物酶的催化下,代谢为另外一种化合物,这样组成的一个箭头就是一个化学反应,所有的化学反应整合起来,就是一个代谢路径。用我们标色的部分举例:红色代表维生素B6,在 [2.7.1.35] 这个生物酶的作用下,被磷酸化,形成新的化学物质,即磷酸化吡哆醇,[2.7.1.35] 质上是能翻译成蛋白质的功能基因,在KEGG中的为K00868。这个基因是广泛存在的,从哺乳动物到细菌都能表达,当然序列完全不同(为什么序列完全不同的基因序列能有相同的功能?记得上面提到的模型预测做基因功能注释吧,看来还是有必要讲下,但这个稍微有点复杂,以后再说)。

 一个生命活动,需要不同的功能基因协力完成。一个功能基因至少会参与一种反应(reaction)并充当催化酶,不同的反应会构成一个代谢模块(module),代谢模块组合起来就是一个代谢路径(pathway)这就是加起来的含义KEGG仍然是目前最好用的代谢路径数据库,每一个化合物,反应,基因,代谢模块,代谢路径在KEGG中都有详细准确的注释。KEGG pathway是一个小团队专门收集经过实验验证的资料构建的(而非自由上传),非常准确,唯一的缺点是更新很慢。因为NGS数据分析能得到微生态中能得到上百万个这样的功能基因,通过了解这些功能基因参与了哪些反应,代谢模块,代谢路径,我们就能了解到这些功能基因所在的微生物,参加了哪些生命活动,继而讨论这些生命活动对人体健康的影响。

 


 

小结

1 高通量测序产生来自微生态基因组的大量DNA序列,这些序列可以还原出微生态研究的3种信息。

2 微生态研究找物种组成需要参考序列。如果有人告诉你某种微生态样品里有某某微生物,要先问他用的参考序列是怎么来的,哪个版本。不同的参考序列会影响结果准确性,因为参考序列更新的非常快。

3 NGS的最大意义可以找到未知物种。前提假设是:未知物种在不同样品中多次出现。我们总喜欢说某某微生态中有成千上万种微生物,这个数字虽然不能精确到个位数,但肯定不是无限大。随着数据的积累和学科发展,未知物种一定会越来越少。

4 微生态功能注释方法有同源比对和模型预测两种,都依赖于高质量的数据库。注释是一种推测,而不是确定。挑出感兴趣的功能注释结果进行描述时,一定要由懂生物学的专家审阅功能预测的结果是否靠谱,以免闹出笑话。这个很花时间。

 临床样品得来不易,高质量的DNA序列是做好微生态研究的第一步!糟糕的测序质量带来的损失是灾难性和无法修复的。我们会在下次分享中,讲清楚两件事:1.高通量测序DNA序列的如何判定。2.NGS商业测序公司加大数据量,即掺沙子的技巧。敬请期待!


补充:

 很多读者有疑问:第三段中得到的万亿条DNA片段,这个数据怎么来的?简单做个推测,以粪便菌群为例,每克粪便含有1亿个细菌细胞(https://en.wikipedia.org/wiki/Gut_flora)如果每个细菌的DNA都能被捕获,同时DNA片段被均一地打断成500bp(1个细菌细胞的基因组大小为500bp,打断后得到1万个DNA片段),最终每克样品含有的DNA片段个数为一万亿个(这还不包括病毒,真菌,寄生虫等)。而微生态测序,单个样品一般用的数据量是2500万个序列,也就是说,测序得到是每单位克样品所包含所有DNA 0.0025( r = s / as 为测序序列数, 即样本,a为样品序列数,即总体)。这个比例低的令人发指,所以NGS技术还有很大的发展空间。在做实验时,要记录好用了多少样品,得到了多少DNA,这些信息都有可能影响到分析结果。我们会在后续的实验分享中继续讨论几个国际组织的标准实验流程,供大家参考。


转载声明

本文章著作权归 seqnote 所有, 转载请联系3020732163@qq.com索取原文,有改动请说明。seqnote网站:http://seqnote.com



友情链接

Copyright © 2023 All Rights Reserved 版权所有 上海股票分析平台