返回 登录
0

专访CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发

随着大数据的深入应用,机器学习已经进入医疗领域。卡耐基梅隆大学(Carnegie Mellon University,CMU)计算机科学学院教授邢波(Eric Xing)正在主持CMU的一个机器学习和医疗中心,并受聘于一家专注于医疗大数据应用与推广的中国企业——医渡云(北京)技术有限公司(以下简称“医渡云”),成为其首席技术顾问,协助其医疗大数据体系的技术脉络梳理。近日,邢波与医渡云CEO孙喆共同接受了CSDN记者的专访,分享了对机器学习发展及其在医疗大数据领域的应用趋势的观点,并解读了他与医渡云公司合作的初衷和前景。

CMU机器学习和医疗中心由UPMC(匹兹堡大学医学中心)和CMU共同投资建设,正在致力于基于自然语言处理,图像和视频分析,计算基因组学以及泛组学等使用多维异质数据源的精准个性化医疗和智慧医院研发,以及包括移动和可穿戴设备,医疗数据隐私安全等应用于医疗行业的大数据技术。邢波认为,要用好大数据,人工智能和机器学习将是最主要的分析手段。预计在未来计算世界,人工智能计算和机器学习会占到全球计算资源上计算任务比重的80%到90%,所以有必要对人工智能和机器学习所需要计算框架和操作性框架重新做针对性的设计——CMU团队开发Petuum,正是基于这样的认识,希望能为人工智能和机器学习运算提供更有效的方式。

同时,邢波表示,算法也需要数据、工程的支持,这不是凭一种赢得接近理想化标准数据集测验比赛的心态就能实现的。就医疗领域而言,他希望医疗机构愿意把数据共享给计算机专家创造一些新的功能,而计算机学家和机器学习学家也要有谦卑的心态,愿意接触实际的问题——真正胜出的系统是胜在最后的整个工程,算法很重要,但不是唯一的东西。与医渡云的合作,就是为了实现机器学习研究与应用的共赢,因为医渡云希望与用最先进的机器学习和人工智能技术来帮助医院提升新型临床、科研及管理能力,这一点与UPMC/CMU的理念吻合。

谈到前沿技术,尽管当前深度学习在数据科学界最为火爆,邢波团队也将深度学习应用于医疗影像数据的理解和挖掘,但他认为未来深度学习仍只是众多机器学习方法论中的一种。在他看来,深度学习面临的一个主要的问题,是大部分人并不很清楚它在数学模型上的显性形式,也就是说从业者其实并不是很清楚所设计的算法是不是真正决定性的,以一种可复制,可延展,可解释,可理论证明的方式导致了问题的解决。他还表示,一些深度学习用例采用堆砌资源获取比传统模型更好的精度的“暴力”方式,并不符合成本效益,也不能产生很好的结果;机器学习平台的构建,应当实现底层系统设计和上层应用的性质有较为细致的对接,需要并行化、容错和减少通讯对机器学习问题精度的损耗,同时又不是简单地增加重复性,或者扩大集群的规模。

此外,针对当前层出不穷的机器学习开源技术,邢波认为,开源的效果具有两面性,开发者不应仅通过技术的发布者来的音量,话语权,或未经严格同行评议的单方宣示来判断开源技术的好坏,而是要看技术是否能满足自己的应用需求,这就需要开发者具备针对同类的技术和产品独立鉴赏的能力,能够进行跟踪、理解原理和进行测试,而不是迷信领袖人物或者是大公司的意见,或者是接受一些媒体的误导。

机器学习与医疗大数据

CSDN:目前CMU机器学习和医疗中心主要做哪些事情?

邢波:研发中心的功能还是做底层技术的研发,基本上先把整个医疗数据智能化的使用做了大致功能和方向的定义,包括:

  1. 人工智能医生和大数据驱动的个性化诊断,护理,治疗。
  2. 智能医院和医院智能化管理。
  3. 穿戴式移动设备和健康数据,和基于此平台的保健,服务,医疗。
  4. 对于基因组和各种各样生物大数据在医疗领域的应用。
  5. 数据安全和数据隐私。

然后在里面部署不同的研发团队,针对不同的任务做早期的研发,并不是说本身是服务的提供者。长期的目标,通过研发产生可商业化的产品,由产品开发人成立公司,UPMC是主要的投资/测试/使用者。

CSDN:其中Petuum技术具体在哪些方向上有应用?

**邢波:**Petuum首先是下一代并行机器学运算的平台和操作系统,它上面的垂直产品包含了机器学习库,包含大概十几种不同的模型和算法,我们主推的几个大的功能模块,其中一个是深度学习在视频和时间序列上的应用,不仅仅是成熟的CNN图象识别,还包括对时间序列数据的处理,如视频的处理还没有很好地解决,Petuum的深度学习模块会在这方面有一些特殊的办法。整个模块是非常通用的,很难说是针对一个特殊的东西来做。

第二个,是自然语言处理,它还是处在预服务阶段,目前并没有在集中精力签署客户来定义具体的功能。我们对自然语言处理做了一个比较通用的设计,比如需要做一个很大的主题模型对文本做含义、Topic的读取,需要对自然文本做word2vector或者document2vector,我们把这些东西都自动化,而且做一个高效的、大规模的计算平台,最终实现自动文本聚类,异常信息探测,新闻编辑,阅读服务等功能。

第三个,是大规模的推荐系统或者预测系统,诸如混合推荐,或者行为预测,或者其他的内容,需要高维稀疏分类器或者高维多点分类器。

基本上这三大模块是我们目前比较专注的,还有其他的一些计划正在实施。

CSDN:您在去年BDTC的演讲中特别提到了Petuum和Hadoop的关系?

**邢波:**Petuum和Hadoop不应该是非此即彼的关系,而是相互补充、共生的关系。这里有两层技术上的含义:

  1. Hadoop或者Spark的源头是基于传统计算的大规模同步并行服务,最适合部署大规模数据库,经典数据特征统计,和检索系统,这不是Petuum的服务重点,这方面Hadoop或者Spark对企业而言是非常重要而优秀的平台。Petuum则针对正在兴起的在人工智能和机器学习计算大量需要的数学优化,概率模型,和高位隐特征系统的求解。这类计算的特点是需要对数据进行极多次,而非单次访问,使用迭代收敛而非解析原理,计算过程和质量可通过目标方程监控。他们对于严格同步和微步纠错的要求较低,但对于数据,参数的存储,分割,访问,通讯,变换,更新方式有较多,复杂要求。

  2. 从实际应用上,不需要做出卸载这个才能装那个的选择,可以在一个平台上共存,可以相互使用对方的资源。并行计算或者大规模计算还有很多需要解决的问题,还没到要做一家独大的时候。

CSDN:像Spark已经关注和Yarn、Mesos等资源管理新项目的集成。

**邢波:**Petuum也同样与Yarn和Mesos都有结合,尽可能使用它们的功能。它们所不能提供的功能,我们会做进一步的开发。我们采取的思路,是尊重整个生态环境,尽可能和其他模块有很好的耦合。

CSDN:回到医疗大数据,Petuum很重视分析,那么未来数据分析中是不是机器学习会成为一种很普遍的技术?

邢波:对,这是我们做Petuum和成立这个公司最主要的基础。进入到现在这个年代,大规模的集群、存储、索引等技术比较完善,数据量越来越大,收集的范围越来越广,数据存储已经不是最主要的问题,而是要把存下来的大数据用好,我认为人工智能和机器学习是最主要的分析手段,在未来计算机的世界里,人工智能计算和机器学习计算是主要的计算形式,我的预期是占到80%-90%,所以我觉得有必要对它所需要计算框架和操作性框架重新做针对性的设计,Petuum是因为这样的缘故被开发出来,以后我希望Petuum有这样比较独特的视角,为机器学习和人工智能运算提供更有效的方式。

冷静看待深度学习与开源技术

CSDN:您相信机器学习算法在未来大数据里占到80%-90%,但现在最火的是深度学习,您认为深度学习未来在机器学习里会占到多大的比例?

邢波:这个数字很难估计。我觉得跟需求以及机器学习学科的整个研究方向演化有很大的关系。深度学习现在可能占到40%、50%,以后它只是机器学习很多方法论中的一种,它可能对某一种问题,比如在语音和图像里,特征抽取有很大的困难,需要高维转换应用,深度学习有比较强的优势。但有很多机器学习并不属于这个范围。即使是在语音和图像的应用里,也不是只用深度学习,图象最后一步分类还要用SVM或其他的分类器,深度学习在语音里也要跟HMM模型结合,它只是代表了一种比较核心的特征或者原始数据的处理方式,并不见得涵盖了所有的机器学习的手段。另外还有很多机器学习的问题完全不用深度学习。我认为要说机器学习,不能再细分说哪个算法独大,因为这是很动态的。

CSDN:业界有观点认为深度学习可能会take over传统的机器学习模型?

邢波:我觉得这种观点是很不科学不专业的,是危险的,我更倾向于不要采取排他性的措词。从纯学术或者纯技术的角度,没有任何一个科学家或者工程师在现在预测某一种技术会在以后独霸一个领域,这在任何一个领域里都没有发生过,如果一个领域就变成一种技术,这个领域就死亡了。机器学习在我看来是数据科学里的数学,是一个基本的方法论,这个方法论里哪一种算法突然变成一个主流,这本身的正面意义都比负面意义要小很多。

CSDN:您怎么看待深度学习现在理论和实践上的缺陷?

邢波:我自己其实很早就做过深度学习的一些基础工作,也亲身目睹经历了这个技术的发展。深度学习只不过是一个古老技术的重新包装,当然它在特定技术环节上有很大的突破,整个的训练规模和模型的规模都变的很大。但理论的基础有很多值得探讨,遗憾的是很多使用者并没有花工夫在这方面做应有的投入。

具体的问题,可以举一两个小例子,这些问题对于理解深度学习为什么work是很重要的。

  1. 大部分人并不清楚深度学习在数学模型上到底是什么样的显性形式,做深度学习只是当做模型形式的设计,通过深度的多层的网络来设计特征之间的关系,或者迭代算法之间操作的流程,但并不是严格当做一个优化问题,并没有把数学形式写出来,虽然大家知道这是一个优化问题。这就造成了算法的盲目性和不可控性。这在工程上可能暂时不是一个致命的问题,但它有一个显然的缺陷--在设计算法的时候,当目标和方程不是显性的,算法是不是解决这个问题还是未知数。

  2. 现在对深度学习结果严格的评估并不成熟。现在深度学习评估基本的方法,有一定的设计与结果间的因果关系,但是并不是唯一对应的关系。比如图像分类,整个算法里刚开始做了很多其他的东西,最后做一个图像的东西,到底是因为前面某一步模型设计好了,还是算法做好了,还是数据应用对了,导致后面很远的一步图像分类做得更好,这并不能产生直接的因果关系。

  3. 算法的丰富程度也非常有限,基本上还是做Back Propagation,或者最近的一些(比如dropout),很有限的几样技术,并不是对它的数学行为、错误界定和收敛速度做过比较认真的分析。

CSDN:Google TensorFlow开源,有人做了Benchmark,它的表现不是很好,显存占用很高,有评论说它是通过堆硬件的方式来取胜的。根据您的经验,机器学习和深度学习系统要节省硬件开销,应当从哪些方面着手做工作?

邢波:这实际上是Petuum积极倡导的思路,我们不想用硬件暴力或者资源堆砌的方式来解决大规模机器学习问题,这个固然可能做好,但首先有成本的问题,另外它不能总是产生很好的结果。我们希望把底层系统设计和上面解决任务的性质有一个比较细致的对接,能够了解到并行化、容错或者通讯里能够减少对机器学习问题精度的损耗,同时又不是通过简单地增加重复性,或者扩大集群的规模做,空间上还是很大的。

机器学习问题,包括容错性、结构性和非均匀收敛性,对系统提供了很独特的机遇,我们当然希望在解决这种大规模集群问题,这些问题能够很好地被研究。TensorFlow或者最近发布的一些其他软件包还不是在这个层面上做,他们的精力还是提供深度学习算法垂直功能本身开源的一些资源,鼓励用户区尝试使用。这对他们公司内部也是很好的反馈渠道,能够检测他们研发的工作,也能增加他们的体验度。我还没有看到一个很系统的、全局性的系统和功能的对接,这不是他们的功能重点,用这个方向评价他们并不是很好。

CSDN:Google TensorFlow和微软DMTK最近相继开源,您认为这说明了什么?

邢波:开源是一个很好的工作方法,使得软件或产品能够有机会服务更大的人群,同时吸引自由开发者加入这个团队。另一方面,小公司、自由开发者,或者学校的资源、话语权和大公司是不一样的;能见度和推广手段上的不对称性,会在开源功能宣示中产生一定的引导性的作用,对公平发布不是有利的。在媒体音量分布不是很均匀的情况下,下层的使用者、开发者的独立判断能力很重要。国内的情况尤其复杂,很多技术媒体对于技术的判断能力并不成熟,他们会倾向于比较大的公司,会无意中增加大公司话语权,从而对公众的客观判断会产生一个比较负面的作用。

CSDN:开发者选择不同开源技术,您认为有什么标准?

邢波:最主要的当然是要摆正需求,国内更重要的是要提升鉴赏力,先知道什么东西好,什么东西不好,形成一个独立的判断。这个鉴赏力不是产生于发布的人是谁,嗓门有多大,而是有能力自己看这个产品,或者测试它,对其他类似的资源和竞争对手有足够的了解,要花一点时间,不光是跟踪,而且要理解一些原理,能够懂得怎么鉴赏一个公司。这是比较长期的一个任务,因为国内在机器学习或者人工智能的教育和舆论环境上还是有很多地方需要完善和进步的,现在传播的理念并不是很理性。比如在国内用Google或者微软的发布内容本身,而不是第三方客观评估,来证明他们发布的东西好,导致循环逻辑,这是让我吃惊的。这一点在国外至少我还没有看到,Facebook上有很多人的评论这些发布,基本上首先持欢迎的态度,但是对于市场的表现都是很冷静的,会通过测评来看哪一部分做得好。

与医渡云合作

CSDN:您如何看待国内外医疗大数据应用的异同?哪些原因促使您选择与医渡云合作?

邢波:医疗大数据的机遇和活动刚刚开始,都是很早的阶段。可能美国的需求开始的更早一些,美国医疗大数据的形态更多样化,各种各样的医疗数据的公司已经存在,提供了数据库的形式和模块,电子医疗数据是非常普遍的存在形式,数据的量非常大,安全、隐私监管的规则也比较全面。但美国还没有形成全国比较统一的优化形式,不同的医疗数据库之间并不是很兼容,对于往下游做医疗数据的应用会遇到非同质和形式的问题。

中国这方面刚刚开始,尚未形成医疗数据的板块,下游的应用能够在技术上执行度变的稍微容易一点。这一块机遇和难点并存,机遇是因为有可能会形成全国统一的,标准化的数据形式,难点就是这种数据的传输、拥有和使用的规则不是很明朗。

医疗大数据应用,技术上的环节是市场面临主要的挑战,这一点美国和中国有不小的区别,美国在高科技和信息科学上是引领者,他有不少成熟的技术,主要的技术引擎是依靠了人工智能和机器学习的手段。比如我们在CMU成立了机器学习和医疗中心,是UPMC给CMU提供了很大的启动经费成立一个学院,给予计算机学家机遇来定义工作的范围和任务,也给予计算机科学家很大的话语权设计任务和目标,这在学术和工程方面的研发力度和深度是相当强劲的,也有很多工作成果发表,形式非常好。

中国的医疗大数据,怎么进行数据分析或者下一步的智能产品化,市场还是空白,至少目前对于怎么定义这些产品、需要什么样的技术,我还没有听到成熟的见解。医渡云是第一个跟我产生深度接触探讨这些问题的公司,并且脱离概念炒作阶段,这对我们有很好的合作机遇。我们希望通过合作,一方面帮助医渡云这样的公司把产品做好。另一方面,希望给国内医疗大数据产业构建一个比较好的市场和科研环境,把任务、目标和技术上的脉络梳理清楚。这是我个人的期望。

CSDN:在您的脉络梳理之下,医渡云采用了哪些新的技术?

邢波:我们正在针对电子医疗数据,包括医生诊断笔记,常规生理病理检测报告,专科数据,图像数据等使用Petuum平台开发自然语言处理、深度学习和其他人工智能功能的软件。对于医渡云,围绕他们所面对的业务需求进行开发,用我们机器学习的软件对接,提供解决方案,在具体数据的形式和问题的定义上,我们正在取得良好进展。

CSDN:除了底层基础平台的梳理,前面提到的智能医生之类应用层技术有哪些规划?

邢波:我们现在的整个合作层面还是很宽的,以应用为主,我们会有对某一种功能比如特定疾病诊断做针对性的研发,这个实际上是我们课题主要切入点,这样可以定义的更严格,也更可评估,自动带动底下平台的开发,而不是先入为主地先用Petuum做平台,然后做什么再说,这是本末倒置的。

医渡云公司内部不仅从应用上,从技术和学术上也提出了很好的问题。一般我们讲机器学习,对任务定义相对比较简单,比如有诊断,诊断翻译成机器学习语言就是分类;所谓特征识别,在机器学习里也有很简单的对应关系。医渡云又提出了相当新的思路,比如怎么来帮助医生构架优良的诊断流程,怎么做很多治疗方案,对疑难病症产生解决方案。这在机器学习里是不存在严格的定义的,到底是什么样的目标还需进一步研究。所以双方合作并不仅仅是简单的低端的应用开发,实际上也包含了很多开放问题的探索,这些探索也会产生比较实际的功能,而不是抽象的问题,这样的合作不仅对我们两边的业务有很好的提升,对于CMU团队的研究和技术的走向也有很正面的影响,为我的工程师和学生的研究提供了更多的机会。

孙喆:我们在影像和治疗方案改进等方面,都跟邢波教授有比较深度的合作。

CSDN:需要CMU团队有专门的算法工程师参与到医渡云的调优工作吗?

邢波:现在具体合作方式还在沟通中,我们都是抱着比较开放的心态,怎么对双方有利怎么做。医渡云对数据的安全采取了相当保守和谨慎的做法,尽可能的设计一个场景,使数据的流通能够最小,使算法流通,能够尽可能的灵活部署,不是要数据找算法、找软件,而是软件找数据,努力地把这方面做好。医疗数据非常敏感,必须得留在医院,这在国内是很现实的问题。医渡云与医院是战略合作关系,为医院提供大数据服务。技术上要开放,但过程中,医渡云团队有一套立体化的数据安全解决方案,并已经搭建一个很好的技术环境,在底层把安全数据和服务的分离做好。

孙喆:医渡云的技术团队大部分来自互联网企业,都是从百度、高德这样的大公司出来的。他们已经有一套很成熟的在工程上应用的技术路径和技术方案,我们最核心的技术方案都是来自本土,而不是直接引用国外的技术空降过来,中国的平台一定是生长于中国,属性是丢不掉的。我们也非常认同这一批互联网公司出来的团队,他们自身的技术能力,本身工程能力就非常强,是一个很好的积淀。邢波教授的定位更多帮我们梳理我们的技术路径,我们也需要从全世界吸收,目前计划将各个子领域中最优秀的技术引进到这个平台上来。

CSDN:如何预估模型迭代频率?目前的数据量能保持模型快速的更新吗?

邢波:机器学习对数据的胃口总是无限的,越多越好,但是并不是只要到了无限才有用,这是一个动态平衡,目前我们计划在建的过程中先使用少量的样本数据,使它找对方向,产生一个有价值的初级结果,然后再把初等的原始算法放到真实大数据平台上,在安全框架之内运行,做进一步的融合,大概两步的解决方式。最简单的当然是一步到位,但是这里有很多实际操作上的考量。

对于机器学习或者软件工程师,这是一个机遇。很多机器学习人的心态是,我发明了一个很好的算法,你要给我数据来验证这个算法,这不是共赢的心态,而是非常单方地把别人当成一个数据提供者。别人价值几百万或者上亿的数据,凭什么给你来验证价值还不明朗、甚至还一文不值的算法?你得先有意愿服务别人的需要,去展示你的理论和模拟结果,而不是什么都还没有干就把数据要过来。

这种共赢的精神在合作里是相当重要的。目前很多研发人员仍怀抱一种通过赢得接近理想化标准数据集测验比赛(比如ImageNet比赛)去展示成就,赢得承认的心态,这固然对机器学习有推动,但是它也给人一种奥运会比赛的错觉,离实际解决问题还很远,而且使人上瘾,自我陶醉。因为在实际生活中像递包或者战场上送信需要的,并不是奥运会的跑步冠军,而是包含诸多复杂局面的应对。机器学习也是要能够按照需要的功能跑,而且达到要求。从医院的角度,我们期望他们有一个开放的心态,有意愿把他们整个儿的数据共享给我们创造一些新的功能。从我们计算机学家和机器学习学家的方向,我也要把这个心态要谦卑,要有意愿接触实际的问题,而不只是接触Benchmark,那样永远赢不了,真正能胜出的系统是在最后的工程,算法很重要,但不是唯一的东西。

采访嘉宾简介

邢波,卡耐基梅隆大学计算机科学学院正教授,匹兹堡大学医学院兼职教授,卡耐基梅隆大学机器学习和医疗中心主任。美国新泽西州立大学分子生物学与生物化学博士;美国加州大学伯克利分校(UC,Berkeley)计算机科学博士。主要研究兴趣集中在机器学习、统计方法论的发展,及大规模计算系统和架构上,以解决在复杂系统中的高维、多峰和动态的潜在世界中的自动化学习、推理以及决策问题。

邢波目前正在进行的研究工作包括:

  1. 统计学习基础,包括针对估测时间或空间变化系数模型,稀疏的结构化输入/输出模型,和非参数贝叶斯模型等的理论和算法;
  2. 在分布式系统或云端,搭建基于工业应用规模的大模型和大数据的并行机器学习的框架;
  3. 针对基因调节、遗传变异和疾病相关性的计算和统计分析;
  4. 基于统计机器学习的用于自然语言、计算机视觉,和数据挖掘的人工智能系统。
评论