大数据需要特殊的技术,以在可容忍的时间内有效地处理海量数据。适用于大数据的技术栈非常广泛,涵盖了底层存储、计算调度到上层分析等多个维度。
核心技术主要包括:大规模并行处理(MPP)数据库、数据挖掘引擎、分布式文件系统(DFS)、分布式数据库、云计算平台,以及高可扩展的存储系统和互联网基础设施。
在数据存储与计算中,最小的基本单位是 bit(比特)。随着数据量的爆炸式增长,存储单位也在不断延伸。按顺序从小到大的完整单位链条如下:
bit ➔
Byte ➔
KB ➔
MB ➔
GB ➔
TB ➔
PB ➔
EB ➔
ZB ➔
YB ➔
BB ➔
NB ➔
DB