大数据处理学习分享

分布式系统与海量数据

大数据需要特殊的技术,以在可容忍的时间内有效地处理海量数据。适用于大数据的技术栈非常广泛,涵盖了底层存储、计算调度到上层分析等多个维度。

核心技术主要包括:大规模并行处理(MPP)数据库、数据挖掘引擎、分布式文件系统(DFS)、分布式数据库、云计算平台,以及高可扩展的存储系统和互联网基础设施。

在数据存储与计算中,最小的基本单位是 bit(比特)。随着数据量的爆炸式增长,存储单位也在不断延伸。按顺序从小到大的完整单位链条如下:

bit Byte KB MB GB TB PB EB ZB YB BB NB DB