一站式为区域教育用户提供数据汇聚管理、数据加工计算、数据仓库建设、数据共享开放、数据应用支撑五方面技术能力和管理抓手。

Structure

平台架构

数据采集/介入数据存储/计算数据管理/监控数据应用/展示

Functions

平台功能

  • 离线采集接入:

    具体可分为全量、增量和半增量三种类型,通过平台ETL抽取组件,将业务数据从各类数据源(MySQL、Oracle、MongoDB等)按照一定的时间频率,自动离线抽取并导入数据仓库。具体适用于对数据导入实时性要求不高或静态数据源的场景,例如将某教学场景中上个月的所有数据导入数据仓库用于数据分析。

    实时/准实时采集接入:

    基于大数据实时采集技术和框架,将关系型业务库中的增量数据和APP日志实时导入到大数据环境,实现增量实时和准实时的数据接入,具体延迟控制在秒级范围,适用于对数据导入实时性要求高,且业务快速增长的业务场景。

    采集

  • 利用有关数据技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。主要数据清洗的类型包括:

    残缺数据
    这一类数据主要是一些应该有的信息缺失,如用户的基础信息缺失、用户行为数据的时间缺少、业务系统中主表与明细表不能匹配等。对缺少的数据根据业务规则和相关信息补全后才写入数据仓库,如果判断为无效数据可以标记删除。

    错误数据
    这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。

    重复数据
    对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户方确认并整理、标记。

    清洗

  • 基于Hadoop技术框架,利用HDFS(Hadoop Distributed File System),通过分布式服务器集群,以空间换时间,实现大数据的高效存储。HDFS的优势如下:
     a.高容错性:.数据保存多个副本,.数据丢的失后自动恢复。
     b.适合批处理:.移动计算而非移动数据,数据位置暴露给计算框架。
     c.适合大数据处理:GB、TB、甚至PB级的数据处理,百万规模以上的文件数据,10000+的节点。
     d.可构建在廉价的机器上:通过多副本存储,提高可靠性,提供了容错和恢复机制。

    存储

  • 基于数据汇聚和数据计算框架,利用通过相关技术手段和建模方法论,实现具体教育教学业务和管理需要的模型。具体模型包括以下两种:数据模型和分析模型。其中:
    数据模型:围绕教育主题式数据仓库需要,通过SQL脚本,结合业务规则和场景,对主题相关业务数据表和维度表,完成数据加工处理和数据表关联过程,最终实现某一业务主题的数据模型,并形成一定的数据分区划分,便于业务场景分析和数据挖掘应用;

    分析模型:分析模型是基于存储的数据,通过数据分析和探索,发现聚合数据本身的关联和相关性。具体建模的过程包括以下几个步骤:数据准备、执行探索性数据分析、建立初始模型、模型迭代构建。

    建模

  • 通过建设大数据平台和相关技术能力,完成本地数据仓库构建和数据汇聚、加工,针对客户已处理的高质量数据,通过数据交换共享工具,实现向上、向下与其他组织数据仓库层面的共享和交换(例如:区域教育局的教育类数据可以向上与政府智慧城市共享,可以向下与各类学校进行数据访问);另外,针对构建的大数据技术能力,也可以作为共享的对象,授权给下级组织和单位共同使用。
    实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重 复劳动和相应费用,而把精力重点放在开发新的数据应用系统上。

    共享

  • 基于数据处理结果,通过百量级的丰富数据图形模版和插件,借助于图像化手段和图形、图像处理、计算机视觉技术、UI工程化设计和交互设计,将数据分析和数据管理的效果进行可视化展示。数据可视化一直是数据链中的“最后一公里”,实现数据可触摸和可感知,是决定数据分析和数据应用的直接成效的形象工程;也是数据辅助决策的主要形式和手段。

    展示

Core Scene

核心应用场景