• Transwarp Data Hub(TDH)

    是国内落地案例最多的一站式hadoop大数据平台,性能比开源hadoop2还快数十倍,通过内存计算、高效索引、执行优化和高度容错等技术,TDH一个平台即能处理10GB到100PB的数据,企业不再需要MPP或混合架构

  • 产品概述

    一站式数据存储平台

    TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。

    一站式资源管理平台

    TDH在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间资源配置和动态共享,灵活支持多部门多应用在统一平台上平滑运行。

    一站式数据分析平台

    TDH支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。

    一站式管理平台

    TDH作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。

     Transwarp's Distribution for Apache Hadoop 企业版具有五层架构,不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。

    数据存储层:基于HDFS2.5, 支持Erasure Code资源管理层:基于YARN,支持同时运行多个计算框架计算引擎层:采用Map/Reduce2完成离线计算任务分析挖掘层:支持批量SQL统计, R语言和Mahout数据集成层:使用Sqoop和Flume支持数据迁移和采集

    Transwarp Inceptor 内存分析引擎提供大数据的高速交互式SQL统计

    更快的性能:比Apache Hadoop快10倍到100倍,比MPP快2倍到10倍更强SQL支持:兼容Oracle PL/SQL和HiveQL语法BI和报表工具:支持Tableau,SAP BO, Oracle OBIEE超高扩展能力:线性扩展,支持GB到PB数据的快速处理超强稳定性:经过验证的稳定版本,7x24小时不间断运行

    Transwarp Hyperbase 实时在线数据处理引擎以Apache HBase为基础,是企业建立高并发的在线业务系统的最佳选择

    支持数据类型:支持结构化、半结构化和非结构化数据高速处理能力: 延时在数毫秒到数百毫秒级,上亿并发OLAP和批量统计: 支持高速的OLAP统计和SQL离线批处理

    Transwarp Stream 实时流处理引擎以Apache Spark为基础提供强大的流处理能力

    更强的表达能力:支持DAG计算模型丰富的输出方式:HBase,告警页面,实时展示页面广泛的应用场景:传感器网络处理,服务监控,反作弊

    Transwarp Discover 机器学习引擎提供R语言挖掘

    更好的易用性:支持R语言 , 易用性好更强的挖掘能力:并行化实现大量常用机器学习算法,集成多个机器学习算法库丰富的行业模型:提供文本分析、交易反欺诈、风险分析、推荐系统等多个行业模型

    技术优势

    Apache Hadoop是针对大规模分布式数据而开发的软件框架,已经成为企业管理大数据的基础支撑技术。然而开源Hadoop仍然面临一些挑战:首先,尽管性能上Apache Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Apache Hadoop架构之上;最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。

    有鉴于此,星环科技从企业应用角度出发,针对性地对Apache Hadoop进行了系列技术开发,形成了适应企业级应用的TDH平台,从而使这一理论框架更能满足各类企业用户的要求。

    超快的执行速度

    Transwarp Inceptor采用专有的高效列式内存存储格式和为内存优化的Apache Spark计算引擎,相比广泛使 用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,Transwarp Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数据存储层上的优化,使得TDH性能全面领先开源Apache Hadoop 2.0,SQL支持完整程度和性能大幅领先Cloudera Impala,比主流MPP数据库快1.5到10倍。

    支持SQL2003,存储过程和分布式事务

     

    星环TDH目前支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;支持绝大部分PL/SQL语法,包括存储过程、函数、游标、逻辑控制、异常处理、包等功能,可以实现数据仓库业务中复杂数据分析。TDH还支持对数据的增删改操作,并通过分布式事务处理保证数据增删改查过程中的原子性和一致性。 TDH包含多级优化器和代码生成器,对SQL生成执行计划进行了大量优化,保证批量处理业务在Inceptor上有非常好的性能。TDH更完整的SQL支持、存储过程以及事务处理功能,使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量

    超强的数据分析功能

    将大数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式和趋势,以便展开进一步的挖掘及决策已经变得越来越重要。Discover支持R交互式数据分析引擎同时内置了大量常用机器学习算法的分布式实现,可以与R语言中的数千个算法混合使用,可高速分析现有平台中的海量数据。Discover还提供了包括文本分析、交易反欺诈、风险分析、推荐系统、故障检测在内的多个行业解决方案,使得用户可以基于Discover平台快速地基于自身业务系统构建解决方案。超高的易用性和对数据挖掘算法的全面覆盖使Discover成为在大数据的数据挖掘和可视化应用领域的利器。结合Discover高效快速的数据挖掘能力与TDH对主流可视化和BI工具的支持,星环科技可以帮助客户将新的大数据应用轻松融合进原有业务中,通过对真实场景全量数据的学习和挖掘,为客户产生更多价值

    与数据分析生态系统的强力整合

    TDH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表; 数据可视化不仅可将最终分析结果展示给用户, 还可以帮助数据分析师来进行数据探索来发现和解决新问题。TDH支持多种可视化及报表生成工具,包括Tableau、SAP Business Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。 虽然有些工具也支持Apache Hadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实

    完备的企业级解决方案

    TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性和快速故障恢复能力,HDFS2.5做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS 2.5的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等

All Posts
×