返回 登录
17

关于区块链,程序员需要了解些什么?

作者简介:曹严明。架构师,现就职于SAP公司咨询服务部,专注于保险业核心系统、电子商务、企业移动应用等解
决方案。曾就职于微软和HCL公司,参与过SQL Server, SharePoint, Visual Studio等产品的研发。
责编:贾维娣 jiawd@csdn.net
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》

如果说比特币是对传统货币的一种颠覆,那么比特币的基础技术——区块链则是对传统编程范式的一种颠覆。区块链技术被看作是一次Paradigm Shift。

也许很多人对 “颠覆”这种说法不以为然,因为现在这个词已经被用滥了(如今哪个好一点儿的词没有被用滥呢?)但是明眼人在匆忙做出”这又是一个噱头”这样的结论之前会谨慎的去了解一下背后的东西。这篇文章的目的就是为一般程序员介绍区块链的一些独特技术,以及这些技术如何运用到一般程序员的项目或者产品的开发过程中。

即使你不想进入全新的区块链应用开发大潮之中,你也会发现区块链相关的底层技术对平日的应用开发有不少启发和借鉴作用。一个新技术的诞生是有它顺应时代的合理性的(黑格尔语”存在就是合理的“)。作为程序员我们应该去了解它的合理性所在之处,取而用之。我们不一定非要用新技术去颠覆一个老应用,但可以用新技术去重塑一个老应用。本篇主要讨论区块链在三个方面的独特性:去中心和去中介,隐私保护,时间戳。

去中心和去中介

1994年凯文•凯利(国内称KK)出版了一本预言式的巨著《失控》,书中充满了关于智慧生命及其社会进化机制的真知灼见。书中提到的很多概念,比如云计算、物联网、网络社区等等,在二十多年后的今天已经成为普遍的事实。“去中心化”是凯文•凯利在书中提出的“九律”中的一条。一个去中心化的系统,没有一个中央的、至上而下的控制主体,而完全是由大量的、相互联结的、看似无组织的小个体构成,这些个体有一定的独立性,可以相互作用,他们自发地形成一个整体以后,由量变引起质变,结果整体的能力、整体的智慧、整体的适应性和灵活性,都大大超过了个体的简单相加。这样的去中心化系统生命力极强,遭到破坏可以自我修复,因而很难被完全摧毁。

互联网就是一个典型去中心化的例子,极强的适应性和抗破坏性是互联网的根本。不过如今的互联网却有了中心化的趋势。中心化的后果见仁见智,对崇尚多种选择的人来说,中心化代表着选择自由的丧失,服务质量的下降,活力的倒退和创新的萎缩。微博做为新一代互联网媒体的翘楚,它的兴起、没落以及再次复兴,从内容的产生和传播来说,就是一个从一开始的去中心化,到由大V们控制的中心化,再到去中心化的历程。总之,只有那些赋予其中每个个体充分发展的自由的系统,那些抗拒中心化趋势的系统,才是生机勃勃、有创新力、能够不断进化的系统。

站在2016-2017年之交,智能机器时代似乎离我们不远了。芯片技术、存储技术、网络技术、移动技术、物联网技术,这些都极大的增强了各种网络终端( edge)的能力,无论这些终端是人、手机、汽车、机器人,或是其他设备。以前由于存储、网络或者计算能力等限制而选择中心化的应用程序设计,现在的程序员则有更大的自由去选择一种去中心化的设计。去中心化的系统更加灵活,更具适应性,更有活力。

另一方面,现实社会中的各种交易活动,由于交易双方缺乏信任、信息不对称、搜寻成本、匹配效率、交易费用等因素,需要有交易双方共同信任的中介参与。比如银行间的跨境支付,中间需要通过SWIFT网络和代理银行,而不能直接进行点对点交易。中介的产生源自于降低交易成本的目的,但是随着新技术的出现和普及,交易双方直接交易成为可能,而且交易成本更低。在这样的情况下中介变得多余了,交易双方通过去中介化来降低交易成本。

去中心和去中介有多种不同层次,可以体现在业务模式方面、业务数据的产生和传播方面、应用系统的架构方面、应用系统的开发、运行、维护、升级方面等等。比特币和区块链是一种比较彻底的去中心和去中介的应用,它包含以下几种去中心和去中介技术:

点对点网络( P2P network)。点对点网络并不是什么新概念,网上的很多文件共享服务和视频直播服务就是用P2P网络协议实现的。 P2P网络是一个对等网络,网络中每个节点的地位相当,没有任何节点处于中央控制的地位,也没有任何节点扮演交易中介的角色;每个节点既是server,又是client;节点可以选择随时加入,随时退出;节点可以选择运行所有的功能( full node),也可以选择运行部分的功能;节点越多,整个系统的运算能力越强,数据安全性越高,抗破坏能力越强。

去中心化数据库,这就是区块链,例如 Bitcoin的分布式总帐。

去中心化应用(Decentralized App, 简称 DApp),例如在Ethereum上运行的智能合约应用。

共识算法。无中心、无中介、无需相互信任的对等网络的节点间需要协调一种共识算法,以便共同维护一个统一的分布式数据库,以及协同工作以保障整个系统的安全性和适应性。有多种共识算法,包括: PoW – Proof of Work 工作量证明、 PoS –
Proof of Stake 权益证明、 DPoS – Delegated Proofof Stake授权权益证明、 PBFT - Practical ByzantineFault Tolerance实用拜占庭容错、 PoET - Proof of Elapsed Time流逝时间量证明等等。

作为一个程序员或者架构师,这些思路和技术有什么帮助呢?你的应用需要去中心或者去中介吗?你的下一个应用需要采用去中心化的架构吗?设计去中心化的架构需要作哪些改变?需要哪些基础设施?在时下这股区块链的淘金热里,已经有很多创业公司准备颠覆传统的中心化应用。几乎所有的应用,都开始有相应的基于区块链技术的去中心化版本。如果你认为目前没有必要或者不可能去中心化,未雨绸缪总是不会错的。

隐私保护

个人隐私信息泄露现在在中国是一个非常严重的现象。盗取、贩卖个人信息已经有完整的黑市产业链,部分互联网征信公司和数据公司,从黑市上购买数据,甚至雇佣黑客去盗取数据。互联网用户普遍意识到个人隐私信息的重要,对隐私保护的要求会更高。程序员有责任从技术上加强个人隐私的保护。

在传统的应用架构设计中,隐私的保护或者安全性设计的优先级并不是很高,现在这种情况必须有所改变,架构师需要提升隐私保护设计的优先级。

区块链应用领域采用了很多密码学的技术,例如哈希算法、加密算法、公钥密码学、默克尔树、和零身份证明。 Bitcoin在保护用户身份方面,它使用哈希过的公钥作为个人账号,这样在交易时隐藏了个人信息。另外,个人账号可以设计成一次性的,每次交易都使用新的账号,这样就很难通过追踪某个账号的交易来推测用户身份。 Bitcoin的总帐是公开的,上面每笔交易记录包含付费账号、收费账号以及转账金额。如果觉得这样的隐私保护还不够的话,另一个数字货币Zcash在Bitcoin之上增加了一些协议,将付费账号、收费账号以及转账金额都隐藏了起来,采用的方法仍然是加密、哈希、默克尔树和零知识证明。

尽管比特币出自于一群无政府主义者之手,但他们秉承的一些诸如保护个人隐私的信念,在这个信息泛滥的互联网时代还是非常可取的。对于你的应用,你是否收集了超越应用需要的个人信息?(保护隐私的最好办法就是不收集它们)在处理交易时,是否可以传递尽可能少的个人身份信息?或者使用一次性账号?在日志中是否可以记录尽可能少的个人身份信息?或者完全不需记录?缓存数据库中的个人信息是否安全?消息传递时不仅采用Session Key加密,是否还可以采用Message Key?如今,哈希算法、公钥加密,默克尔树,这些加密技术唾手可得。程序员应该养成新的习惯,在应用设计中采用各种加密技术保护个人隐私信息,包括个人账户信息,交易信息,浏览信息,日志信息等。

时间戳

传统关系型数据库在设计表时一般会有一个或多个时间戳(timestamp)字段,用来标记一行记录添加或修改时的时间。基本上,这些时间戳是给应用内部使用的。当数据被共享给其他应用时,这些时间戳并没有多大意义,因为时间戳可以伪造。在数据黑市上,一个数据掮客可以将一份银行VIP客户数据进行注水,掺入一半的假数据。一家保险公司为了搅乱市场上竞争对手的视线,故意污染数据,将高净值用户放入骗保用户黑名单,将骗保用户放入高净值用户名单,然后让污染后的数据故意泄露出去。如果每条数据都带有一个真实可信的时间戳(这条数据产生的真实时间点),这样的造假行为就比较难奏效,因为假数据的时间戳一般都是最近的。

以前我们很少关心数据的时间戳,很少去了解这个时间戳对数据的意义,一个原因也许是我们不知道如何用技术去实现这样的时间戳。如果技术上实现这样一个时间戳是完全可行的,那么这个时间戳对我们来说就有了全新的意义。首先,我们有了真正可以信任的历史数据。第二,这些数据因为可信变得更有价值,可以在应用之外被其他应用或者分析工具使用。第三,我们可以基于这些可信的历史记录生成信用。最后,我们真正进入一个信用社会。

想象一下,如果我们想在未来某天证明我们的数据是在今天产生的,我们可以在今天对今天的所有数据进行某种形式的哈希(比如默克尔树),最终得到一个哈希值,然后在第二天的《参考消息》上登一个广告,把哈希值发布出去。明天的《参考消息》就成了我们的时间戳。如果明天我们想做同样的事,我们可以如法炮制,另外有一个关键点,那就是要记得把今天的哈希值也给哈希进去。这样每天的哈希值就包含了以前所有数据的哈希信息。

区块链在P2P网络上通过节点间的共识算法实现了一个分布式的时间戳服务。区块链是在时间上有序的、由记录块(区块)组成的一根链条。一个区块包含两个部分:区块头( block header)和记录部分。区块中的所有记录通过默克尔树( Merkle tree)组织起来,默克尔树根( root)的哈希值做为本区块里所有记录的数字指纹被放入区块头。区块头还包含以下字段:前一个区块头的哈希值(这是前一个区块的数字指纹,也可以看做是指向前一个区块的哈希指针),本区块的时间戳,高度( hight,即从第一个区块开始数本区块是第几个块),以及一些其他信息。系统的共识算法保证了每过固定的一段时间(Bitcoin是大约10分钟),参与整个系统记账的节点会达成共识在区块链上添加下一个新的区块。

时间戳的这种设计,使得更改一条记录的困难程度按时间的指数倍增加,越老的记录越难更改。这是因为,如果改动某个区块里的一条记录,意味着该区块原来的默克尔树根失效了,需要改动区块头,该区块的数字指纹随之失效。又由于下一个区块的区块头包含这个哈希指针,这就意味着下一个区块也需要改动。如此一直下去,直到最新的那个区块。可见要想改动一个区块,必须同时改动该区块后面的所有区块。因为将一个区块放入区块链中需要消耗非常多的资源(资源种类依共识算法的不同而不同,可以是计算力,流逝的时间,拥有的权益等等),随着后面添加的区块越来越多,要想改动某个区块几乎是不可能的。

对一个普通的应用来说,如何实现这样一个时间戳服务呢?我们需要自己创建一个区块链吗?其实没有必要, Bitcoin就是一个很好的时间戳服务,我们可以把哈希值写到Bitcoin的区块链中去。这是一种存在证明( Proof of Existence)。 Factom也提供类似的服务,它收集所有的哈希,每隔10分钟生成一个哈希值,写到Bitcoin的区块链中。

哪些数据需要有时间戳?必须是不能变更的数据,特别适合存档文件。需要现在就考虑实施时间戳吗?这个跟你的数据战略相关。在大数据时代,拥有高质量的数据就是拥有了价值。时间戳可以一定程度上保证数据的可信度,至少这些数据是经过“时间考验”的。

评论