存储计算中心

存储计算中心是数据加工处理的核心单元,充当整个蓝鲸平台的“数据CPU”角色,结合数据仓库的标准和规范,让多源数据变成数据资产。本系统遵循计算考级的模式进行设计和开发。基于Hadoop技术框架体系,采用MPP架构实现超大规模分布式的计算存储集群,支持MR(map/reduce)以及RDD(弹性分布式数据集);同时采用虚拟的分布式文件系统HDFS,实现集群层面的分层存储的多备份、高可用架构。

Module

产品模块

Framework

数据仓库总体技术框架

Method & Route

存储计算实现方法及技术路线

  • 计算靠近存储

  • 分层存储

Features

系统特色

  • 集群平滑扩容

    集群支持水平平滑扩容,热加载新节点,并可动态平衡节点上的数据

  • 虚拟分布式文件系统

    集群以虚拟分布式文件系统方式隔离底层文件系统实现,支持多样化的底层文件系统

  • 分层存储

    支持依据数据热度和新旧程度将数据的不同备份放置在不同的存储介质中,在提高IO性能的同时降低存储成本

  • 多类型数据文件格式支持

    支持多种数据文件格式,支持高性能文件格式,可使用如parquet,orc,carbondata等格式的文件,提高存储和计算的效率