大数据基础平台iTDH

产品概述

Transwarp Data Hub(简称 TDH)是国内落地案例最多的一站式Hadoop发行版, 是国内外领先的大数据基础软件,比开源Hadoop2版本快10倍到100倍。 TDH应用范围覆盖各种规模和不同数据量的企业。通过内存计算、高效索引、 执行优化和高度容错的技术,使得一个平台能够处理10GB100PB的数据, 并且在每个数量级上都能比现有技术提供更快的性能;企业客户不再需要混合架构,  TDH可以伴随企业客户的数据增长, 动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

Transwarp Data Hub 包含四大产品:

·          Transwarp Hadoop 企业版

·          Transwarp Inceptor 分布式内存分析引擎

·          Transwarp Hyperbase 分布式实时在线处理引擎

·          Transwarp Stream 流处理引擎

产品定位

Ø  一站式数据存储平台

 TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群, TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。

Ø  一站式资源管理平台

 TDH在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间资源配置和动态共享,灵活支持多部门多应用在统一平台上平滑运行。

Ø  一站式数据分析平台

 TDH支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。

Ø  一站式管理平台

 TDH作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。

 

产品构架

1434349598491019471.png

优势特点

Ø  超快的执行速度

Transwarp Inceptor采用专有的高效列式内存存储格式和为内存优化的Apache Spark计算引擎,相比广泛使 用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,Transwarp Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数据存储层上的优化,使得TDH性能全面领先开源Apache Hadoop 2.5,SQL支持完整程度和性能大幅领先Cloudera Impala,比主流MPP数据库快1.5到10倍。

Ø  完整的SQL支持

 TDH目前支持SQL2003,正在实现更复杂的PL/SQL语法,包括存储过程、函数、游标等功能。 TDH同时支持完整的HiveQL语法,并对这些SQL语法进行了扩展,对执行计划进行了大量优化。SQL支持的完整程度比性能更加重要,大量的数据仓库/数据集市应用中都采用了较为复杂的SQL2003语法,没有这些语法支持,要想把现有应用迁移到Hadoop上来是不可行的。  TDH更完整的SQL支持使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量。

Ø   超强的数据分析功能

将大数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式和趋势,以便展开进一步的分析及决策已经变得越来越重要。 TDH通过分布式的内存列式存储和优化的高速执行引擎来支持交互式SQL查询, 使得实时和交互式分析变成可能。  TDH同时支持R统计引擎, 最新版本的 TDH除了支持通过R访问HDFS或者Hyperbase中的数据外, 还支持访问存储在Inceptor分布式内存中的数据。Inceptor同时内置了常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用。 新版本同时支持R命令行以及图形化的R Studio执行R语言程序来访问 TDH中的数据,从而使得 iTDH成为在大数据的数据挖掘和可视化应用领域的利器。  TDH包含了经过高度优化的专有图算法,可高速分析关联关系网络等图数据。此外, TDH还集成了机器学习算法库Mahout,包含了聚类分析、 分类算法、频度关联分析和推荐系统在内的常用机器学习算法。

Ø  与数据分析生态系统的强力整合

TDH非常重视与数据分析生态系统的整合以提高系统的易用性。 TDH与现有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表; 数据可视化不仅可将最终分析结果展示给用户, 还可以帮助数据分析师来进行数据探索来发现和解决新问题。 TDH支持多种可视化及报表生成工具,包括Tableau、SAP Business Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。 虽然有些工具也支持Apache Hadoop,但只有高性能的 TDH才真正使得交互式地探索大数据成为现实

Ø  完备的企业级解决方案

TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是 TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。 TDH架构具有高可用性和快速故障恢复能力,HDFS2.5做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS 2.5的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。