返回 登录
0

【BDTC 2016】中国科学院院士陈润生:大数据与精准医疗

【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

2016中国大数据技术大会首日全体会议中,中国科学院院士陈润生带来了名为《大数据与精准医疗》的主题演讲。期间,陈润生表示,精准医学的核心就是组学大数据与医学的组合,其可以使医疗健康的概念发生本质变化,从诊断治疗转变到健康保障。精准医学刚刚起步,面临几大挑战:首先是基因组中的暗信息,人类目前只能读懂基因密码中3%的序列,其他序列的含义则不得而知。大数据方面的挑战包括:计算量大,数据源噪音高、信噪比低、缺失值高、错误率高;样本量小;有效事件频率低;疾病相关的复杂网络;高度异质化数据的整合;数据共享困难。

陈润生

中国科学院院士 陈润生

以下为演讲实录

尊敬的各位专家,各位朋友,非常荣幸,能够应邀参加这个大会,我今天主要谈一谈关于大数据和精准医学的情况,希望大家批评指正。

2015年1月20号美国总统奥巴马提到要开展精准医学的研究,从此美国和西方发达国家就开始了精准医学的研究。很快这个消息传到国内,习总书记和克强总理都有批示,所以作为重大专项,精准医学的重大专项已经立项了,而且已经大约有12亿人民币。

首先什么是精准医学?核心就是一句话,组学大数据与医学的结合,特别是在临床医学当中的应用。随着上世纪九十年代遗传密码的破译,以遗传密码或者基因组为代表的大量的分子水平的数据,也称作组学数据不断地产生,目前增加的速度比任何已知的数据都产生的快。由于研究技术的发展,测一个人类的遗传密码,现在已经变的非常非常简单和容易。近年来开展分子水平的信息用到医学特别是临床医学当中,提高临床诊断的效率和治疗的效率,实际上就缔造了精准医学的应用。因此精准医学的核心,即把组学大数据应用到医学当中,可是这些组学大数据比较大,因此直接作为医学专家或分子生物学家无法看懂,必须经过大数据科学家用特定的理论方法和技术进行挖掘才能获得有关用于临床方面的知识,所以精准医学是组学大数据在临床当中的应用。遗传密码的测量现在不成问题了,但数据挖掘找出和疾病相关,将是一个现在非常迫切的问题。因此从人类密码研究以后就产生了转化医学、个体化医学等等的词汇,但是在2011年的时候,国际上出现了“精准医学”这个词,实际上是对这个趋势总体的概括和总结。

精准医学带来什么样的本质变化,为什么各国领导人都这么重视呢?精准医学本身之所以受到很多国家领导人的重视,由于精准医学有可能产生一些本质性的变化,最主要的本质性的变化。“精准医学”可以使得医疗健康的概念发生本质的变化,从当年医疗健康体系以诊断治疗为主,转变到以健康保证为主。现在的医学是以病人为对象,以诊断治疗为目的,也就意味着由病人、医院和医生组成的一个概念化的医疗体系。而随着精准医学的发展,我们可以通过对大数据的分析,在用户没有病的时候,了解他的健康状况,预测他未来健康的发展,这种情况下我们医疗健康所面对的对象就不再是病人,而是全民,全体人。

因此医疗体系的概念也不是以治疗为目的,是以健康预测,健康评估和健康干预为目的,这样的话整个医疗体系就会发生概念性的变化,从现在看病为主,到以后的预测保证为主。这样一个概念性的根本变化,必然会导致相应产业的发展,因此有人估计到2018年的时候围绕新概念所产生的产业也许能达到2千亿美金以上,所以这是一个能够一定程度上影响GDP的值。因此这样一个精准医学的概念,已经成为引领国际发展潮流的战略制高点,所以才引起各国领导人的重视,所以精准医学实际上是会带来一些,不论医疗概念还是产业上都会有一些本质上的变化,所以才会引起各国领导人的重视。

美国也推动精准医学的发展,最重要的表现是要测量一百万个自然人的遗传密码,一百万是很大的数。欧盟也在开展精准医学的研究,要测十万个肿瘤和罕见病人的遗传密码。日本也有相应的精准医学的计划。那么精准医学到底在新的产业当中,哪几个方面能带动所谓新的增长点呢?我想至少在如下四个方面:

  • 精准医学可以推动海量的生物样本库和海量的数据库的发展,精准医学会导致十万到百万人的生物样品的测量,这就涉及到海量规模的实质性的生物样品的搜集、保存、样品的制备与提取,以及样品提供使用的各个方面。没有百万量级的数据库,当然就不能适应它的发展,而这些数据测量完以后,这些百万量级的数据应该有相应的数据库来保管,所以第一个要推动海量规模的生物样本库和数据库的发展,有人估计这个在未来一两年可以达到一百亿美元的数据样本。

  • 可以带动基因组序的数据规模,这个产业有人估计2018年可以到117亿美金,个人和有关测序方面的专家讨论,由于测序如此便宜我觉得这个数据肯定比它多。

  • 新药物设计的靶点发展,这个产业直接涉及到医疗诊断和药物设计,这是第三个产业。

  • 围绕精准医学概念所产生的实质性的,比方说健康设施、健康从业人员的健康领域的大的产业圈,这个产业圈估计2018年可以到达2千亿美金,这些方面都是精准医学可以带来的,可以预见的实打实的新的产业。我国精准医学的目标和上面国际的是一致和接轨的。

精准医学既然概念明确,各个国家都很重视,要实现精准医学要具备哪些条件?我认为至少具备两个条件,一是要搜集获取大量的组学数据,而这些组学数据必须经过大数据技术的深刻挖掘,所以第一个基础是当前国际两大前沿,就是组学和大数据两大科学的交叉与融合。有了这个结果,我们就可以获得大量跟疾病相关的分子水平上的变异,然后我们要利用这些数据开展第二个基础研究,就是搭建分子水平的信息和宏观疾病之间关联,就是建立分子水平的信息和宏观疾病之间关联的桥梁,也就是发展所谓生物信息学、生物网络、系统生物学等等一系列的东西。有了这两个桥梁,有了分子水平的信息,我们就可以很好的实现精准医学了。

精准医学需要说明的一点,精准医学实际上和现在的传统医学、影像学、生化学、医生的经验是相辅相成的,互相推动与互相促进的,不像我接触的有些过度的宣传精准医学的作用,说我们测序以后什么都能解决了,实际上不是,精准医学是建立在前人知识的基础上,必然与现在的技术紧密结合才能提高医疗的水平。

精准医学才刚刚上路。虽然它有很好的概念上的变化,虽然给我们展示了医疗体系未来的美好前景,但由于精准医学的路上不论是组学测量也好,大数据分析也好,都存在着一些非常巨大的障碍,所以我认为精准医学目前才刚刚起步,我们还有太多的事情要做。

到底创新的机遇在哪里?它的挑战在哪里?其实有很多,今天我就下面组学和大数据处理的一些困难,简单地提一两项困难,大家就可以看到实际上精准医学的路还是相当漫长的。

  • 第一个是在组学测量当中存在的巨大挑战和困难。目前精准医学是以遗传密码为依据。首先有一个疑问,在当前我们对自身人类的遗传密码了解多少,如果我们都了解了实现精准就有了分子依据;如果了解很少,那就有太多的事情要做。而事实上,遗传密码每个人都有3乘10的9次方,如果把该字符装订成书的话,大约四十层楼高的高度,我相信谁也读不了,在当前集全人类的智慧我们只能读懂其中的3%,这就是当前的挑战。我们的遗传密码花七千块钱就可以测出,但你能读懂的部分大约只有3%,这3%就是大家从中学时候知道的编码蛋白质的部分,或者遵从中心法则的部分,我们称作遗传密码当中的编码序列,而另外的97%是不编码蛋白质的,也是迄今为止我们读不懂的部分。换句话说我们的遗传密码里现在还大致有97%现在是读不懂的,既然它干什么都不懂,当它有了变化当然也不知道。在这个含义下,我们用作组学研究的话,当然存在着巨大的困难和障碍。

  • 下面展开一点做讨论。首先从遗传密码看,也就是基因组研究,我们知道在人的遗传密码当中迄今为止97%的遗产密码还读不懂,因此当然无法做到精准。而如果我们做个比较研究,从低等生物到高等生物来看,生物越低等,大肠杆菌的遗传密码,我们用原盘表示,85%都是红的,就是能知道规律的编码蛋白质的部分,它占了绝大部分。生物高等一点,酵母是单细胞的真核生物,编码蛋白质的部分少了,非编码的多了。线虫,它已经是最简单的多细胞生物了,它用做编码蛋白质的只占28%,非编码占71%。果蝇,这个时候编码的部分已知归类的部分只有17%,非编码占到了80%多,而对人来讲97%~98%都是非编码蛋白质。所以也许大家有一个约定俗成的概念生物从简单到复杂从低等到高等一定是蛋白越来越多,实际上不对,它伴随着功能增加是以我们现在不掌握规律的非编码蛋白质的的增加,也就是说非编码蛋白质和高级生物相关,当然也一定和疾病相关。

转录组研究。这个结果是百分之百肯定的,全世界的实验室毫无例外的找到非编码序列信息发放制造功能元件的信息,毫无例外,所以这样的工作,充分证明了这97%是实现重要的生物学功能的,为此我给大家举几个简单例子,虽然这97%全貌不理解,但个别的例子,比如97%的一个产物可以导致所谓的前列腺癌。另外一个来自97%的可以导致白血病,另外一个来自97%的可以导致非小细胞肺癌。这三个例子说明什么?说明来自我们不知道规律的那97%依然能导致肿瘤,大家如果在座的临床医生专家的话,可以知道我们现在对肿瘤在医院当中诊断治疗,所有的对象只利用了3%的信息,从来没有那97%。现在有充分的例子说明,那97%也可以导致非常严重的疾病,如果不把它纳入疾病的诊断治疗当中来,精准又如何实现呢?

当然我们知道在97%里也有非常好的东西,请大家记住H19,这是一个非常重要的非编码的元件,它的存在可以让我们已经癌变的细胞通过某种途径进行消亡。那么有多少这样的元件还没有被发现呢?在座的如果有对生物感兴趣的研究工作者可以参考,大家知道日本在小鼠里边做过实验,发现大约16万个来自那97%的像蛋白一样重要的功能元件迄今为止还没有发现,所以我们还有太多的机会去发现新的重要的功能元件,了解它跟健康、发育、疾病的关系。在这个领域里边,这两位科学家在2006年获得了第一个诺贝尔奖金,有人开玩笑我们估算一下现在对人的遗传密码知道了3%,你可以算算这3%缔造了多少名诺贝尔奖的获得者,我稍微统计一下不少于50名。

我们现在又发现了庞大的97%,说明在这巨大的97%的领域里,还有一千多个诺贝尔奖金的位置,现在只有一个位置被占据了可以忽略不计,所以在大家面前有非常广阔的创造巨大科学成果的机会。

因此整个非编码的研究,组学当中的一个巨大的障碍,虽然对精准医学来讲我们只掌握了3%,才刚刚起步,还有漫长的路要走。但是从另一方面考虑非编码的研究一定会给我们提供巨大的机遇,也就是说97%信息的挖掘一定会为疾病的诊断和治疗提供全新的方向,一定会对全新的药物设计和研发提供全新的平台。那么也会对动植物新品种,新性状的培育提供新的机遇。

下面简单的谈一谈数据处理当中的一些挑战。

数据量大。一个人的遗传密码是3*10的9次方,其实这个数据的产生比较容易。现在一台商用测序仪,一次测量可以得到1T的数据,这样的数据作为商品就很容易买到。因此大家很容易可以看到测序。

分析少。现在国际上开展微生物组基因计划,这个时候我们知道人不仅仅是自己生活,如果考虑他人健康问题的同时也要考虑与人一起生活的微生物,那么微生物的遗传密码现在估计是人的一百倍,如果研究一个广义的人,研究人连同微生物的人,一个人的测序要增加两个数量级。但这样一个数据从数据源来讲不是很好的,它的噪声比较好,因此性噪比比较低,另外有比较多的缺失值。因此从数据源来讲是增速极快,数据质量不高,含有缺失值的数据,这样在数据挖掘当中存在着第一个困难,就是数据源的困难。

样品量少。从样品来看,我们一直需要样品,比如研究肝癌,那么我们需要肝癌的病人。其实针对某一个特殊疾病搜集样品特别困难,往往对特定分型的肿瘤,如果搜集两三百个样品已经很不错了,我们整个的数学体系需要建模的体系往往自变量是成百上千甚至上万,这种情况下如果只能取几百个样品的话,当然我们的边界条件不足以固定内部的自变量数在这种情况下,由于样品搜集的困难,很多条件下搜集的样品不足以固定体系内部自变量的变化。这样情况下有两个途径,一是加大样品,比如为什么美国要测一百万人的遗产密码,我们中国的精准医学计划也要测一百万人,就是说个人体系测样本量远远大于体系覆盖的自变量,但这往往是政府的行为,我们自己的研究组是不可能做这件事的,要有巨大花费。这种情况下当然就要考虑数学建模,把我们的系统变成子系统,使得外界的边界条件和内部自变量能匹配,这就是所谓在大数据处理上,对于组学数据所需要的非常突出的数学分析当中的问题。

有效事件频率低。不仅仅样品得来不易,而样品的分子基础也是各种各样的,所以会带来更多的样品需求层次的问题。因此这就会导致一个非常重要的所谓精准医学当中的科学哲学问题,即何为共同疾病的共同变化以及特异性变化。

上述讲的都是个别基因的变化,但每个基因并不是独立工作的,往往是形成网络,当我们面对进一步的所谓功能分析的问题,精准医学的问题是复杂网络的问题。我们知道生物网络是动态的、有向的,是每个元件做到另外一个元件是定向的;元件不是单一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非线性的,对这样一个动态、有向,不同元件组成的东西,当然是复杂的。

除了这个之外,大家知道我们不仅仅用组学数据还用其它影像学的数据,比如做核磁、CT的数据如何处理,最后是超出学界的问题,如何在全中国的范围内实现数据的有效共享。我们知道现在每个医院里都有数据,如果我们不能在全局上面进行数据共享的话,我们就是在大数据时代做小数据的工作,将来就失掉了大数据的背景和意义。

所以看到在数据分享当中依然存在非常艰难的问题,最后就精准医学的几个概念和大家进行交流,个人认为精准医学是一个重要且值得大家关注的方向,精准医学才刚刚起步,需要我们不断地克服困难,但这些困难恰恰也是我们的机遇,抓住这些机遇,有机会做突出的原创性的重要的工作。


更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

评论