骑猪兜风

生物基因大数据激增,分析健康数据或揭示疾病如何发生

骑猪兜风 2016-08-17 10:48:09    200797 次浏览

文章来源:知识分子微信公众号

  自2012年美国总统奥巴马提出“大数据”(Big Data)以来,生物大数据如火如荼地发展。通过高通量测序,我们已经积累了庞大的基因数据,通过移动互联网,我们也获得了海量的健康信息。这些数据的应用,将为疾病的诊断、分型、医药开发提供新方向以及新工具。然而如何分析基因以及健康数据,是横亘在大数据本身与解决健康问题之间难以逾越的鸿沟。不过有一点我们可以确信:当大数据分析的精度越来越高时,我们对疾病发生的过程就会有更深入的了解。

  21世纪初,人类基因组计划(HGP)发布了第一张人类基因草图,人的基因组约有30亿个碱基对,意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划(原子弹制造)、阿波罗登月计划并称为三大科学计划,为本世纪的一个里程碑式的科学工程。

  15年过去了,基因组测序技术发展之快已经超乎人们的想象。十年前,这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在,它却已经渐渐步入医疗界,成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。

  早前,曾有人预言,当个人基因组测序费用下降到1000美元时,就标志着我们的医学将进入个体化医疗(Personalized Medicine)的时代。现在,这个目标已基本达到,随着这项技术的迅猛发展和成本的扁平化,它已经开始给我们带来了庞大的数据,包括基因组、蛋白组等各类组学(omics)的出现,也带来了不少数据。

1. 海量数据的产生

  刚过去的七八年间,我们储存的个人基因组数据量已达到106规模,这个数量如此惊人,且这只是刚刚开始。每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作,该测序系统已分布在全球顶尖测序中心,每天产生大量的数据。英国2014年也启动了“十万人基因组计划”,美国和中国则宣布要完成多达一百万人的基因组数据收集工作。

生物基因大数据激增,分析健康数据或揭示疾病如何发生  基因测序数据正在以更快的速度翻倍。2015年以后,以历史累积的测序数据来看,每7个月就能翻一番, Illumina仪器测序所得的数据,每12个月就能翻一番;如果仅以摩尔定律来看,每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自nature.com

  以上所提及的,只是大数据时代下的一个缩影,现在面临的还有其他数据。比如,伴随基因组计划的发展,人类蛋白组计划和基因测序结果在医疗界的应用等也被逐步提出,它们也正在给大数据“添砖加瓦”。所谓人类蛋白组计划,主要目的在于研究所有人类基因编码产生的蛋白质。关于这个,我们来看一个研究者的故事。

生物基因大数据激增,分析健康数据或揭示疾病如何发生美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。来源:斯坦福大学网站

  迈克尔·斯奈德(Michael Snyder)是美国斯坦福大学的一名分子遗传学家。当他抱着好奇的心态测了自己的基因组后,得到了一些“惊喜”。他发现,自己是一名II型糖尿病易感基因的携带者,尽管在这之前,他并没在自己身上发现任何此类疾病的风险因素,包括肥胖、家族病史等等。在接下来的14个月,斯奈德持续监控了自己体内相应RNA的活性和蛋白表达情况。在一次感染呼吸道病毒后,他发现自己体内的蛋白表达发生了变化,并且有相应的生物学通路被激活。接着,他被诊断出了糖尿病。看起来,这场病就是由这次病毒感染所触发的。此后,他还在患上莱姆关节炎时,也监控了自己体内的蛋白表达变化。这时,他的研究已经产生了多达50Gb的数据,这还仅仅只是关于他个人的研究数据。当他将这项研究扩展至100个人时,并将研究目标扩展至13类“组学”(包括蛋白组、肠道菌群的转录组等等),而实际上,按照他的计划,要想真正做到预测疾病,还需要将研究对象增加至上百万个病人。如此这样,它将会带来多大的数据量?

  各种电子设备的普及以及健康数据记录App的出现,给这个时代带来了海量的数据,也给医学界带来了可观的研究对象。过去的几十年间,医生如果要观察病人的心血管健康情况,往往会给他们做这么一个小测试:让他们在一段平缓、稳固的路上行走6分钟,并记录他们的行走距离。这个测试不仅可用于预测肺移植者的存活率,还可用于检测肌肉萎缩的病程发展,甚至可以评估心血管患者的健康状况。这种小测试已被运用于多项医疗研究中,但在过去,最大规模的医疗研究项目中,这种参与者也很少能达到一千人。

生物基因大数据激增,分析健康数据或揭示疾病如何发生智能手机中健康类App的出现,从而能让研究者获取大量人群的数据。图片来自nature.com

  不过,这个情况近年来发生了很大的变化。在2015年3月进行的一项心血管研究中,研究者尤安·阿什利(Euan Ashley)在两周时间内就拿到了6000个人的测试结果,这就得益于现在有数百万计的人拥有智能手机和健身追踪器。到了6月份,参与到这项研究中的人数达到了40000人,这仅仅依靠的是一款叫做“我的心脏计数”(My Health Counts,见上图)的苹果应用。有了这个应用软件,阿什利甚至可以招募来自全球的参与者,获取他们的测试结果。那样的话,他得到的数据又将是多少?面对这个现状,不少研究者表示,这些海量数据可能会淹没现有的分析渠道,并对数据存储提出前所未有的“高”要求。

2. “大数据”时代下的挑战

  在群体基因组研究的浪潮下,虽然更多的人关注的仅仅只是整个基因组中的外显子部分,即基因组中可编码产生蛋白的部分,它占到了整个基因组的1-5%,这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下,每年产出的数据量仍可达4000万Gb。这就带来了第一个难题,如何存储这么大的数据量?

  尽管这还只是这个领域最基本的问题,仍需要巨大的资源来解决。这就是近年来网络上最常出现的一个词——云(Cloud)出现的契机所在。这么大的数据量,必然无法仅仅保存在固定的设备上,需要借助互联网来实现,也即是所谓的“云存储”。此外,这些数据带来的处理危机也是巨大的,电脑处理能力也将局限着它们的应用。这个问题的初步解决依然要依靠“云”,也就是现在所谓的“云计算”。

  即使处理好了海量数据的存储问题,我们还将迎来另一个更让人头痛的问题——这些数据说明了什么?现在关于基因组学的临床研究,往往聚焦于识别个人基因组中可扰乱基因功能的“小错误”,即所谓单核苷酸突变(single-nucleotide variants, SNPs),即使这些突变往往存在于仅占基因组1%的外显子区域,平均下来,依然有近13000个之多,而其中的2%已被预知可影响相应蛋白的变化,但要从中找出某类疾病的具体致病基因,仍是一个巨大的挑战。

  自奥巴马提出了“精准医学”的概念,这个方向就一路红火。即使现在已经有了测序技术和分析工具这些手段,有了电子健康记录这位“好帮手”,这种医疗方法的理想和现实之间仍然有着巨大的鸿沟。在这个领域,仍然存在多种障碍。比如,即使在电子健康记录普及和新疗法研发成功的前提下,想要依靠临床医生来实现这些疗法,往往还需要对他们进行不间断的培训,以帮助他们在做医学决定前了解足够多的细节信息。

  此外,电子健康记录的不可共享性(即涉及到病人隐私的问题),为精准医疗的实现设置了不小的障碍。很多时候,治疗患者个体病例的特异性信息往往被患者个人和治疗机构所把持,到不了研究者手里,那么就无法据此信息来改进一些治疗方法,因此也就没办法实现对个人的“个体化医疗”。这些问题往往反映生物医学领域需要信息处理专家的介入和帮助。遗憾的是,生物信息学家在学术领域也仅仅只占很少的席位,更别提在医学领域,还需要给他们提供更多的职位和机会。

3. “大数据”带来的机遇

  有挑战也必然会带来机遇,这个机遇可以体现在生物医学领域的多个方面,比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法,甚至生物学科基础研究领域的新工具等等。

  2013年,安吉丽娜·朱莉的故事轰动全球,为减少患上乳腺癌的风险,她进行了预防性的双乳腺切除术,而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。这类基因能带来显著的致病风险,约有55-65%的乳腺癌患者携带有害的BRCA1基因突变,45%的携带BRCA2突变。对朱莉来说,虽然她携带的仅仅是前一个基因,已足以让她做出预防性手术的决定。这个故事给出了一个鲜活的例子,就是如何把个体测序得到的数据与临床诊断联系在一起,这就好像人类正在从自己的基因组中找到这些失落的宝藏,从而帮助自己预防一些恶性疾病,但这只是这个时代所带来的一个福利而已,并且只占到很少的一部分。

  以糖尿病为例,不精确的疾病分型,对于前期的预防和后期的治疗都十分不利。之前,医学界已经知道,有多达百余种途径可能导致糖尿病的发生,涉及到胰腺、肝脏、肌肉、大脑甚至脂肪的不同变化。现代通过基因的研究发现,对不同类型糖尿病而言,其致病基因十分多样。这时,如果将这些不同亚型的糖尿病混为一谈,就会让人很难弄明白,为什么携带同样的基因突变,病人在面对同一治疗方案时,会出现完全不同的治疗效果。

  正如生物化学家阿兰·阿蒂(Alan Attie)所说的那样,“从致病基因到体重、血糖水平等表型的出现这一过程,往往有许多步,其中每一步都可能发生基因突变,这最终会削弱基因和表型之间的联系”。因此,只看表型(即临床症状)和只看突变基因,得到的都只会是片面的结果。只有将两者有机结合起来,才能更加深我们对疾病的了解,做到更精确地进行疾病分型,以便更容易“对症下药”。

  美国国立卫生研究院(NIH)曾发起一项大型项目,构建了癌症基因组数据库(the Cancer Genome Altas,简称TCGA),将所有癌症相关基因突变分类保存,共保存有250万Gb的数据,这大大改进了研究者对各种类型癌症的认识。但仅仅这样,对于提供了组织样本的患者来说,并没给他们的临床经历带来太多改变。

  与癌症治疗相关的另一方面,是个人电子健康记录及其病例的特异性信息。对很多研究者来说,如果能从医院或个人手中得到这部分信息,就能够卓有成效地进行癌症治疗方案的改进。总体而言,只有在拿到测序大数据的基础上,同时掌握病人的干预记录(来自个人的电子健康记录)和临床特征(来自医疗机构的临床病理记录),才能最终做到“升级”肿瘤的临床治疗方案。

  医药研发也能从大数据获益良多,这无可厚非。在医药研发的世界里,基因技术公司更倾向于进行长期的生物学研究,并将其联系到临床数据上,以使得药物能够“对症下药”到每个人身上,甚至会帮助制药公司做出更“大胆”的研发决定,进行个性化定制免疫疗法的研究。

  以微生物菌群研究为例。现在就有人提出这样的想法:什么时候我们会想要研发出能改变体内微生物菌群的药物呢?这些存在于我们肠道、皮肤表面和环境中的数以十亿计的微生物,不仅影响我们是否患病,还会影响到药物对疾病所产生的药效。现在大部分对于微生物菌群研究得到的数据还只是针对小部分人群,但这是否也意味着一个不错的研究方向?毕竟我们现在还缺乏一些稳定的测试手段,能让我们以一种持续性的方法来改变微生物菌群,并对疾病发展产生有意义的影响。

  对免疫学研究来说,大数据会带来什么?首先,有以下“组学”都可以对免疫学研究产生有利影响,包括:基因组、微生物组、表观基因组、转录组、代谢组、通路组、细胞组和蛋白组。具体来说,比如对特定B细胞或T细胞所有抗体抗原分子的分析,这些分析结果(尤其是与能识别对应抗体的抗原决定簇的技术相结合),可将临床诊断、抗体药物研发、疫苗研发上升到一个新高度,并能为自身抗原肽结合抗体提供新见解。

  伴随着荆棘的引路,往往也会引来好歌喉的夜莺。大数据给我们带来挑战的同时,也带来了机遇,尤其是对于一些恶性疾病(比如癌症)的治疗。一种单一类型的肿瘤,往往就会伴随着多样化的基因突变,但随着投入更多的时间和金钱,会得到更多的治疗靶点。当大数据分析的精度越来越高时,对于整个疾病发生过程的了解也会越来越深入,有了“大数据分析”这项利器,更多的精准治疗方案将会产生,帮助人们做出更好的选择。(编译 | 翟文珠  责编 | 叶水送)

参考文献

  1.Eric Bender. (2015). “Big data in biomedicine。” Nature 527 : S1

  2.Michael Eisenstein. (2015). “Big data: The power of petabytes。” Nature 527 : S2-S4

  3.Neil Savage. (2015). “Proteomics: High-protein research。” Nature 527 : S6-S7

  4.Katherine Bourzac. (2015). “Collaborations: Mining the motherlodes。” Nature 527 : S8-S9

  5.Charlie Schmidt. (2015). “Cancer: Reshaping the cancer clinic。” Nature 527 : S10–S11

  6.Neil Savage. (2015). “Mobile data: Made to measure。” Nature 527 : S12-S13

  7.Cathryn M. Delude. (2015). “Deep phenotyping: The details of disease。” Nature 527 : S14–S15

  8.Eric Bender. (2015). “Better insights, better drugs。” Nature 527 : S18

  9.Eric Bender. (2015). “Big data in biomedicine: 4 big questions。” Nature 527 : S19

  10.Joachim L Schultze. (2015). “Teaching 'big data' analysis to young immunologists。” Nature Immunology 16 : 902-905

  11.Eric J. Topol. (2015). “The big medical data miss: challenges in establishing an open medical resource。” Nature Reviews Genetics 16 : 253–254

  12.Jill U. Adams. (2015). “Big hopes for big data。” Nature 527 :S108-S109.

内容加载中