企业级数据基础建设解决方案

企业面临的挑战

企业的应用系统最早会以部门为单位,在其需求基础上设计和完成部门核心业务的数据库系统,如财务、销售及库存等系统。当发现这些分散的业务数据库仍不能满足企业对信息获取的需求时,就迫切的需要实施一个全企业范围内覆盖各业务部门的企业级数据(仓)库或大数据平台,并基于统一的平台进行数据分析挖掘及应用。

大数据时代,海量半结构化、非结构化数据爆炸式增长,如何管理好这些数据并不断的发掘其中的价值,是企业的当务之急,也是企业的长期战略。

已有的数据管理系统如何与新架构下的大数据平台共存,实现数据的统一管理和使用,并不断演进和优化数据管理架构是所有企业要面临的问题。

解决方案

IDEADATA根据行业特点和企业现状,提供完美的企业级数据(仓)库(大数据平台)解决方案,可以根据实际现状科学的选择技术架构进行实施。可选用传统架构为基础的平台建设,也可以选择一步到位hadoop架构或者传统架构和hadoop进行混搭的架构进行建设。同时支持从传统架构到hadoop架构和混搭架构的迁移和过度路线解决方案。

方案一:基于传统数据库或MPP架构

Ø  体系结构

企业级数据(仓)库引擎:建立各种主流的企业级数据(仓)库产品基础之上,包括:DB2OracleMicrosoft SQLServerSybase等传统数据库;或者Teradata等MPP数据仓库等

ETL工具:数据来源,获取,清洗和转换工具,具有功能如下:去掉操作型数据库中的不需要的数据;统一转换数据的名称和定义;计算汇总数据和派生数据;估计遗失数据的缺省值;调节源数据的定义变化。

DSS/OLAP/数据挖掘工具:目前主流的DSS/OLAP/数据挖掘工具,对存储在企业级数据(仓)库(EDW)和数据集市(DM)内的数据进行深入的分析和探索,寻找企业感兴趣的信息,支持企业决策分析过程。

Ø  设计步骤:

根据决策主题设计企业级数据(仓)库结构,在设计过程中应保证企业级数据(仓)库的规范化和体系各元素的必要联系。主要包括:

1)定义主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。

2)定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。

3)确定事实数据粒度,在确定了量度之后,我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况。考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最小。

4)确定维度,维度是指分析的各个角度。例如我们希望按照时间,或者按照地区,或者按照产品进行分析,那么这里的时间、地区、产品就是相应的维度。基于不同的维度,我们可以看到各量度的汇总情况,也可以基于所有的维度进行交叉分析

5)创建事实表,在确定好事实数据和维度后,我们将考虑加载事实表。在公司的大量数据堆积如山时,我们想看看里面究竟是什么,结果发现里面是一笔笔生产记录,一笔笔交易记录… 那么这些记录是我们将要建立的事实表的原始数据,即关于某一主题的事实记录表。我们的做法是将原始表与维度表进行关联,生成事实表。

6)元数据的抽取与管理,对个业务系统的数据定义,数据间的关系,数据的流向等统一抽取到企业级数据(仓)库平台,统一管理。它不仅是企业级数据(仓)库的文档资料,供管理、维护人员使用,而且亦可供用户查询,以便更好地了解企业级数据(仓)库结构,提高使用效率。

方案二:基于Hadoop架构

IDEADATA大数据平台解决方案全面基于SPARKHADOOP2.0,包括分布式内存分析/挖掘引擎,实时在线数据库,流处理引擎,满足数据存储和统计挖掘两大层面的需求。提供从数据存储、分布式计算、数据分析挖掘以及数据可视化和管理工具的整套支持,完善解决企业在GBPB级数据分析领域碰到的各种问题。

Ø  一站式数据存储平台

通过内存计算技术、高效索引、执行计划优化和高度容错的技术,能够处理从GBPB的数据,并且在每个数量级上,都能比现有技术和传统架构提供更快的性能;企业和客户不再需要混合架构,不需要孤立的多个集群。一站式的数据存储平台可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。

Ø  一站式资源管理平台

在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间资源配置和动态共享,灵活支持多部门多应用在统一平台上平滑运行。

Ø  一站式数据分析平台

支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,无需切换平台或架构即可完成复杂的任务。

Ø  一站式管理平台:

作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。

方案三:混搭架构

IDEADATA的混搭架构解决方案实现已有的数据管理系统与新架构下的大数据平台共存,实现数据的统一管理和使用,同时支持从传统架构到混搭架构的迁移和过度路线解决方案,包括传统数据库+Hadoop以及MPP+Hadoop等。