返回 登录
0

英伟达深度学习超算亮相HPC China2016 CUDA、cuDNN更新

阅读3202

“如今,人工智能,无处不在。它可以帮助我们更有效的寻找商品,预测病人的生命体征,智能视频监控公共场所……人工智能正促进着各行各业的发展。支持着大规模并行计算的GPU已经成为人工智能发展的重要硬件基础,而深度学习作为实现人工智能场景化的重要技术,需要新型的高性能计算。”——英伟达解决方案与工程架构副总裁Marc Hamilton

HPC China2016全国高性能计算学术年会, 2016年10月27-29日第十二届高性能计算学术年会在陕西西安拉开帷幕。除了HPC领域的学术分享外,本届HPC China几大硬件及软件服务厂商,包含英伟达、联想、英特尔、曙光、华为、戴尔、并行科技等多家计算机硬件、软件服务厂商,都在会议上发布新产品和市场新动向,让人们深入了解高性能计算应用在我们生活中的方方面面。

人工智能的技术进步,正改变所有行业、所有公司以及所有事物。它将要开启的市场能够惠及所有人。但现在,数据科学家与人工智能研究人员在自制的高性能计算解决方案上要花费太多的时间,为了充分实现人工智能和认知的好处,人们需要采用全新的方法来探索底层技术。
图片描述

英伟达解决方案与工程架构副总裁Marc Hamilton

针对英伟达解决方案与工程架构副总裁Marc Hamilton,在主会场与大家分享的《GPU深度学习的高性能计算平台》的主题演讲,会后CSDN记者就英伟达在人工智能领域的布局,以及其在HPC、深度学习方面的业务展开了丰富的讨论。

新Pascal GPU架构和全球首款深度学习超算

当前数据中心融合了巨大的网络基础设施,与众多相互连接的商用 CPU 服务器,可用于处理网络服务等大量交易型工作负载。但面对下一代人工智能和科学应用程序,这些数据中心的效率变得捉襟见肘。因为这些新型应用需要效率超高、速度极快的服务器节点。Tesla P100是英伟达Tesla加速计算平台的最新产品,能为全新级别的服务器提供支持,实现相当于数百个CPU服务器节点的性能。

英伟达DGX-1是全球首款深度学习超级计算机,基于英伟达Tesla P100 GPU而打造,该GPU采用全新的英伟达Pascal GPU架构。它的吞吐量相当于250台CPU服务器及其相应的网络、线缆和机架,如此庞大的吞吐量被囊括到了单个机箱内,可以满足人工智能的近乎无限计算需求。作为首款专为深度学习而设计的系统,英伟达 DGX-1具备充分集成的硬件、深度学习软件以及开发工具,让开发者能够快速而轻松地进行开发,是一款全套系统,包含新一代GPU加速器,吞吐量相当于250台x86服务器。

DGX-1深度学习系统让研究人员和数据科学家能够轻松利用GPU加速计算的威力来打造全新级别的智能机器,使其能够像人类一样学习、观察和感知这个世界。DGX-1可提供史无前例的计算性能来驱动下一代人工智能应用,让研究人员能够在更大更复杂的深度神经网络上大幅缩短训练耗时。

英伟达针对全新计算模式而设计DGX-1的目的是掀起人工智能的革命,让这场革命席卷科学、企业以及日常生活的方方面面。功能强大的深度神经网络正在推动着新型软件的发展,这种软件由海量数据所造就,需要极高的计算性能。

深度学习软件套件——针对开发者的SDK更新

英伟达针对新的GPU计算开发平台进行了一系列的SDK更新。

关于CUDA 8的更新,英伟达并行计算平台的最新版本可以让开发者直接使用 Pascal一系列强大的全新特性,包括统一内存和NVLink。该版本还包括全新的图表分析库nvGRAPH,后者可用于机器人路径规划、网络安全和物流分析,将 GPU 加速的应用扩展到大数据分析领域。

关于cuDNN(CUDA深度神经网络库)v5的更新,可提供Pascal GPU支持、循环神经网络 (用于视频和其他串行数据) 和用于医疗、油气和其他行业的额外增强特性。cuDNN加速领先的深度学习框架,包括Google的TensorFlow、加州大学伯克利分校的Caffe、蒙特利尔大学的Theano 和纽约大学的Torch。这些又驱动Amazon、Facebook 和Google等所用的深度学习解决方案的运行。

英伟达有一整套系统的针对深度学习的SDK,通过这些SDK帮助程序员来开发程序的管理。比如,网上最大的一个数据来源就是视频数据,这一套SDK统一在一个归类里称为DEEPSTREAM。关于VR产品,英伟达有一些支持他的SDK工具包括VR WORKS,它能够帮助内容的制造商或者游戏的制造商,能够更加容易的、便捷的开发出针对VR专门的工具。

DGX-1软件还包括多个应用广泛的深度学习框架的优化版本,即 Caffe、Theano 以及 Torch。此外,DGX-1 还可以访问云管理工具、软件更新以及用于容器化应用程序的资源库。

CUDA和MIC

记者:如何评价Intel的MIC编程平台,CUDA和它的区别是什么?

Marc 回答了CSDN记者就开发者不同硬件架构选择的问题。Intel的MIC是一个硬件的架构,它也是基于多核的,也就是说大概一个处理器有60到70个核。一个GPU处理器,它内部有3千到4千多个核。使用CUDA语言的话,可以让开发者非常轻松的给每一个核进行编程,通过GPU和CPU放在一起来共同工作,可以非常轻松的给它制定出一个8个GPU的服务器。

“从软件编程角度来看,作为程序员的情况来看,他如果写出来的程序,他需要在10万个服务器上跑,这种复杂性和难度,和你只需要在3400个服务器上跑的话,这种复杂性不是可同日而语的,这已经不是难易的差别了。”

用云计算还是GPU服务器?

记者:用云计算的能力,还是说买一台GPU服务器进行计算,哪一个能力更好?

Marc解释说,这个问题不仅限于在GPU这一特别的领域里存在,CPU作为基础的服务器,它所提供的运算能力,也会遇到这个问题。今天所有的公有云,在中国包括阿里云,包括国外的AWS、谷歌或者IBM的云,也都有大量的基于GPU的运算服务。所以针对到深度学习这样一个应用领域上面,到底是该更多的利用云来提供计算服务,还是买一台DGX-1这样一个大型超级计算机来获得这样的计算能力,很大程度上这个解决并不取决于GPU到底好还是不好这个问题,而是取决于很多其他方面的考量,比如说从云端获得服务这样的一种商业模式,是不是适合这家公司的商业模式。

小结

GPU加速器彻底改变了高性能计算行业,目前,基于英伟达GPU的深度学习平台已帮助谷歌、Facebook、阿里巴巴、百度、腾讯、京东等国内外知名企业实现创新研究和应用。从2006年CUDA上市至今,英伟达在高性能计算领域经历了十年的历程,CUDA开发人员已经达到30万,绝大多数的高性能计算均采用GPU加速,这个数量正持续增长。高性能计算和深度学习技术的发展,正在携手并进。


英伟达 DGX-1 系统规格参数:

  • 半精度 (FP16) 峰值性能最高可达 170 Teraflops
  • 8 个 Tesla P100 GPU 加速器,每颗 GPU 16GB 内存
  • NVLink Hybrid Cube Mesh (NVLink 混合立方网格)
  • 7TB 固态硬盘 DL 高速缓存
  • 双万兆以太网,四路 InfiniBand 100Gb 网络连接
  • 3U – 3200W
评论