关于分布式系统的知识,可以从大学教科书上找到,许多人还知道Andrew S.Tanenbaum等人在2002年出版的“分布式系统原理与范型”(Distributed Systems:Principles and Paradigms)这本书。其实分布式系统的理论出现于上个世纪70年代,"Symposium on Principles of Distributed Computing(PODC)"和"International Symposium on Distributed Computing(DISC)"这两个分布式领域的学术会议分别创立于1982年和1985年。然而,分布式系统的广泛应用却是最近十多年的事情,其中的一个原因就是人类活动创造出的数据量远远超出了单个计算机的存储和处理能力。比如,2008年全球互联网的网页超过了1万亿,按平均单个网页10KB计算,就是10PB;又如,一个2亿用户的电信运营商,如果平均每个用户每天拨打接听总共10个电话,每个电话400字节,5年的话费记录总量即为0.2G×10×0.4K×365×5=1.46PB。除了分布式系统,人们还很难有其他高效的手段来存储和处理这些PB级甚至更多的数据。另外一个原因,其实是一个可悲的事实,那就是分布式环境下的编程十分困难。