返回 登录
0

区块链能否助力大数据安全应用?

大数据安全现在已经上升成为国家安全极为关键的组成部分。最近我们正在这方面做探索,比如与金融界合作,尝试将分布式数据库与区块链技术结合在一起,这意味着可以即时发现数据库中的数据进出状况,从而真正保障数据安全。

区块链应用平台的风险防范

从技术背景看,区块链基于分布式网络技术才得以诞生,在金融领域,区块链就是分布式账本。分布式账本总账的特点,将导致金融交易由净额交收变成逐笔交收,它可以24小时全天候运转。这使得金融服务可以离开银行的物理网点直接进入到生活场景。同时也从根本上颠覆改变了金融机构的组织结构和业务结构。因此,现在华尔街的一些金融机构已经公开宣称自己其实是一家科技公司。

区块链作为一种分布式数据管理技术,受到了越来越多的关注。从金融业到政府部门、医疗业、零售业乃至新兴制造业,区块链几乎成了能够创造更多价值的神器。但最近基于区块链技术全球最大众筹项目The Dao被黑客攻击,导致价值6000万美元的360多万以太币被劫持,引起业内震动和高度关注。恰恰是该事件,除了反映出区块链技术整体依然处于测试阶段,去中心化的智能合约根本无法避免技术上的操作风险,和主观上的道德风险等方面问题之外,这个事件最重要的启示还在于:对区块链技术应用平台存在的风险,需建立一套严密追踪规则,以确保大数据应用安全。

区块链技术应用平台的风险到底如何防范? The Dao被攻击事件反映出基于区块链技术应用平台的技术风险可能将长期存在。由于区块链所具有的不可篡改和不可逆性质,一旦遭到黑客攻击,无论是硬分叉还是软分叉的解决方案,其成本都相当高昂。因此,区块链技术在金融等场景的应用上,更需要高度关注潜在的风险,而我们拥有的分布式内存数据库技术,恰恰可以让这样的技术公司帮助制定相应的风控措施和应急预案。

在数字货币的发展中如何突破区块链的技术障碍?区块链是国家发行的加密数字货币的基础设施,也是其发行、流通和结算的技术实施渠道。因此必须建立严谨的发展规划和设计,尽量找到能使区块链现有特征得到充分体现并且能突破区块链发展障碍的运用案例。而减少“试错成本”,是区块链和国家发行数字货币的重要条件。在这方面,我们的分布式内存数据库恰逢其时,能够在数据安全保障方面做出贡献。

分布式结构所具备的技术和经济可行性表明,区块链技术发展至今已经可以通过构建分布式结构体系和参与者共事协议,形成不需要中心的、大规模的数据库系统,所有约定的参与者都参与数据的记录和验证,再通过分布式传播发送给各个节点。即使部分节点受到攻击或损害,也不会影响整个数据库的完整性和信息更新,但任意点的变更都会被各个点记录。

分布式联盟链与计算集群的作用

从区块链技术应用的可行性可以看出,分布式的概念更加贴切准确。中国大型金融机构目前已经建成超高速、大流量、中心化的信息技术系统,在区块链技术应用中,各金融机构共同组建分布式的联盟链,充分利用现有技术,可确保交易速度,实现合规控制的目的。

数据可能会泄露,也可能会透过某种方式渗透进入网络,可以通过排序、机器学习,通过人工干预的半监督学习、深度学习,拼凑出某种完整图景,以探索出并固定住某种经验。人类过去从没做到这一点。机器累积的这种认知能力,将大为提升人类使用知识的能力。

中国大陆做分布式数据库的人很少,而做内存式数据库的几乎根本就没有。上世纪90年代中期以后,中国大陆数据库行业一直为美、德等国外厂商所垄断。当时中国本土众多软件公司所追求的,可能更多的是短期效益,而不愿挣数据库这样的慢钱。再加上数据库本身技术标准严苛,对算法稳定性要求很高,实现难度较大,是一种慢工出细活的领域,中国公司如果起步晚,积累少,在当时肯定就会显得落后,所以这种支撑大数据核心发展的基础技术真的需要国家的大力支持。

两年前我即开始启动流数据库研究,那时国内还没有人提这项研究。因为时势都未到,但它所发生的必要条件均已具备。所以当我们做出这个数据库后,今后将要充分发挥这些必要条件。中美专家包括中国工信部专家都对流数据库在中国国内出现感到惊讶。我们柏睿数据撰写的数据库标准已被国际信息标准化委员会通过,成为国际认定的中国国家级标准,受到国内外同行的充分肯定。同时,国家也在根据这一国际标准制定国家标准,我们国家现在国际大数据标准领域已经拥有自己的发言权,美德日一统标准的时代已彻底成为了过去式。

下一代软件开发技术趋势可能会有很大变化。并行计算今后可能会要求很高,这其实也是我们正在做的事情之一。但对有些概念,国内存在混淆现象。比如我一直坚持说MPP内存数据库,有的人却说这是分布式数据库。其实MPP也是一种分布式,而原则上,MPP是海量并行处理,算是一种分布式,但分布式并不见得是MPP。所谓并行处理是说每个处理单元与其它单元有关联。最近两年,并行计算确实出现了一些语言或软件开发方法,这一趋势比较明显。尤其是当处理的数据量很多,则对之后的影响会很大。这方面,国内积累真的不多。

3年前,我曾认为,理想中一个分布式的MPP海量并行的内存数据库就已足够,我能处理的数据,比如说当时是64G内存有100个节点6个T的数据,就让我觉得很大了。但去年很多用户已开始问我,你们能不能处理256G内存的单节点数据。这个发展真是太快了。

下一个趋势是,单节点可能至少要处理4个T的数据,4个T1000个节点就是4000T。在做好算法,系统稳定的条件下,4个T数据可在数分钟之内处理完毕。这是一个比较漂亮的结果。就硬件而言,CPU自身速度在提高。而分布式计算集群现在越来越大。这在之前是很难预料的。

我们的内存数据库内部测试现在已达到256个节点,下一步可能是512个节点,这是数据库一个比较大的变化趋势。3年前我开始考虑的流数据库,去年这一想法已开始成熟,原以为可能要等候两三年才能出成果。现在看,如果每个人手中的手机云端数据直接进入我的有数百台机器组成的内存池子,进入流数据库,做一些简单查询,或进入分布数据库做非常复杂的分布查询,这些过程都无需落地,只在内存里跑。这是一个比较完整的体系。之后,是深度学习的算法,也存于内存之中,而且要与数据库紧密结合。也就是说,在只要有数据的地方,就有算法围绕着它。今后朝着这个方向才是大数据发展的必然趋势。

区块链大数据安全应用关涉国家战略

从区块链所具有的分布式功能也可以看出,通过构建分布式数据库系统和参与者共识协议,能够保护数据的完整性。而区块链的时间戳功能,可以通过生成一定时间段的信息区块以及区块之间的首尾相连数据链,形成不可伪造的数据。当每个参与者进入区块时加盖时间戳,就能够证明原创性和所有权归属,这必然有利于保护信息的私密性。因为无论谁动过你的奶酪,都会留下痕迹,动你奶酪的人必然会谨慎对待。

虽然区块链技术应用目前还处于实验室阶段,但人们已经迫不及待地希望区块链技术能够提供某种安全保证,以便将复杂的经济生活变得简单易行。比如便捷支付,比如在医疗保健等各种社会服务领域应用区块链技术,可以提高效率,节约成本。尽管区块链技术应用的潜在风险开始暴露,但与此同时,对区块链技术应用风险的管控也越来越受到重视。

从移动互联网到大数据、区块链,当今时代,技术变化的潮流势不可挡,以至于很多人一时竟难以明白和适应。但毫无疑问,区块链正在让大数据汹涌而来。区块链的可信任性、安全性和不可篡改性,正在让更多数据被释放出来。
我们看到,数据的“看过、复制即被拥有”等特征,曾经严重阻碍数据流通。但基于去中心化的区块链,却能够破除数据被任意复制的威胁,从而保障数据拥有者的合法权益。区块链还提供了可追溯路径,能有效破解数据确权难题。有了区块链提供安全保障,大数据将更加活跃涌动。

大数据时代的来临,为众多企业带来了全新的机遇和挑战。随着数据量、数据种类的增多,企业由历史数据分析渐渐过渡到基于多源、海量数据的实时分析。我们都知道商场如战场,谁能在企业运营中做出快速、高效的分析决策,谁就能日益激烈的市场竞争中立于不败之地。RDP通过提供从海量数据存储、分布式内存计算、分布式内存数据库、内存数据分析挖掘以及数据可视化的整套支持,解决了企业在大数据和快数据存储、分析、挖掘领域碰到的各种问题。作为企业级解决方案,可管理性是RDP的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。RDP架构具有高可用性和快速故障恢复能力,HDFS2作为其底层数据持久化存储系统的支撑技术保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;强大、高效的内存数据库复制、持久化功能,保证内存数据安全可靠。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。

当今从事大数据应用者很多,也有很多从事大数据交易的企业,如果能形成合力,整个大数据生态系统能够良性循环,将是一件令人乐观的前景,也将会为中国大数据应用发展积累经验和人才。因此,政府需要在这方面积极加以引导。大数据应用不应只是一种热潮,因为当热潮散去,还会留下什么呢?如果形成生态系统,在数据库和数据处理方面,包括中间件方面,也可能存在基础软件换代升级的问题要解决,以现有技术发展趋势,而这很可能使中国出现一些大的基础软件公司,与甲骨文公司、SAP公司等国际巨头竞争。大家拭目以待!

评论