- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2019-12-13来源:Ebpay浏览数:804次
数据的价值和作用在企业内受到了越来越多的关注,每个企业都可以尝试构建自己的大数据平台,积累数据资产。以 Hadoop、Spark 为代表的开源大数据处理框架开展日新月异。如何选择最适合自己的大数据平台组件,打造自己的大数据平台已经成为企业的迫切需求。
Ebpay作为数据全生命周期产品厂商,数据分析、数据治理产品独领风骚,其在数据存储领域也有一席之地。Ebpay旗下PetaBase-i是基于开源Hadoop 2.0 平台基础上开发的、具有软件著作权的国产分布式实时大数据平台产品,可为超大规模数据管理给予实时数据采集转换和计算存储的功能,用于支撑准实时数据仓库系统、敏捷BI系统,为用户给予一套灵活易用的大数据平台解决方案。
PetaBase-i实时计算平台包含4层:
第一层是采集层,负责从外部数据源中摄取各类数据,包括:结构化和半结构化数据,数据的接入方式既支持顺利获得sqoop等ETL工具跑批也支持顺利获得Flume实时采集。
第二层是数据存储层,负责整个平台的非结构化/半结构化数据和结构化数据存储。其中,hdfs负责存储归档的海量历史数据,使用数仓模型进行组织,形成面向主题的、集成的、稳定的且随时间不断变化的数据集合。为其上计算层给予数据支持。PetaBase-i使用了一种嵌套的列式存储和高效压缩技术,显著降低了存储空间的要求。近实时数据统一存储在kudu中,以兼顾随机查询和实时更新的混合需求。
第三层是计算层,融合了MapReduce、spark、impala等分布式计算框架,给予实时和离线混合计算模型。
第四层是服务层,包括:数据存储、数据ETL、数据检索、实时计算、流数据采集等,为应用层给予计算访问接口和服务。
架构图
PetaBase-i整套软件是构建在Hadoop软件栈之上的,具体包括:
1、定位混合计算场景
集成MapReduce、Spark、impala等多种计算框架,利用YARN资源管理做统一管理,可在海量数据集上同时进行离线计算和流式处理。满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
2、实时/离线一体化处理
PetaBase-i借鉴了现在影响最深刻的大数据处理架构Lambda,将变化的数据并行写到批和流处理系统内,将不同的计算逻辑分别在流和批系统中实现,并且在查询阶段合并流和批的计算视图并展示给用户。
3、弹性扩展
PetaBase-i很好的继承了Hadoop可扩展性的优点,随着集群节点数的扩充,其查询并发能力将随节点数增加而增大。而查询的响应时间,也会随着节点数的增多而缩短。
4、高可用和高容错性
PetaBase-i可配置为高可用的部署模式,即架设两台管理节点,一台处于活动状态,别一台处于待命状态。待命主节点实时监听活动主节点,当活动主节点失效时,系统即时将备用主节点切换为活动主节点,达到整个系统高可用的目的。容错性方面,基于HDFS文件数据块多副本分布存储的特性,同一个数据块有多个副本存放到不同的数据节点上,保证某个数据节点失效的情况下,其它数据节点上仍然有可用的数据块。PetaBase-i还给予查询负载均衡功能,可以将查询请求分摊到不同的集群节点上执行,从而使不同的客户端访问不同的集群节点,达到负载均衡的目的。
5、高效的数据压缩与存储
PetaBase-i支持一种嵌套的列式数据存储模型。列式存储和行式存储相比具有以下优势:
6、高性能分布式计算框架
PetaBase-i使用了与传统并行计算系统不一样的分布式计算架构,具有更优异的计算性能。提交到PetaBase-i的SQL查询由查询计划器进行解析,生成执行计划树,执行计划树由若干计划任务分片节点组成。每个计划分片节点代表一个执行节点以及相关的操作(比如:聚集、数据交换、数据扫描、Join、合并、排序等操作),并被分发到任务分片对应的PetaBase-i数据节点上并行执行。
7、丰富的数据访问接口
PetaBase-i给予多种应用程序接口,包括JDBC、ODBC、CLI、Thrift等。PetaBase-i除了兼容SQL-99标准,还支持大部分SQL-2003标准。PetaBase-i的SQL语法基本同Hive SQL兼容,语法上同其它数据库SQL语法大体一致,其它数据库的从业人员可以平滑的过渡到PetaBase-i上进行数据分析工作。
8、灵活的数据采集方式
PetaBase-i给予了一个产品化的实时流数据集成加工套件。这个工具给予丰富的通信协议接口 ,最大化地简化采集作业,对实时流数据的数据集成和数据加工处理可快速实施,无需写代码,顺利获得可视化配置执行流处理作业。PetaBase-i还给予了JDBC/ODBC接口,能支持几乎所有的通用ETL工具产品。
9、便捷的可视化运维管理
PetaBase-i给予基于Web的控制台界面,以监控仪表盘形式,对PetaBase-i数据库信息、集群CPU、内存、磁盘空间、数据库会话以及节点状态进行实时监控。
PetaBase-i Web控制台给予Hadoop集群及PetaBase-i集群节点管理功能,可以集中的对数据库集群进行整体控制,资源监控,也可以对单个节点进行管理,分析各节点资源使用情况,进行会话管理等。
PetaBase-i Web控制台给予类PL/SQL Developer IDE的数据库管理功能,可以在Web界面上完成在命令行界面进行的大部分操作,还给予一些额外的高级特性,包括建库、建表、SQL查询编辑器、执行计划、导入、导出、数据复制等。
10、超强的查询性能
PetaBase-i架构于Hadoop之上,采用MPP架构,及优化的列存储格式,结合存储分区、分布式缓存等技术,并针对特定SQL和函数进行性能优化,充分利用集群多节点的计算能力和内存,能支持复杂的多表JOIN,总体性能相比Hive有数倍甚至上百倍提升。
11、高度集成的工程化产品
PetaBase-i具有更高的软件集成度,集成了Hadoop生态系统的多种基础软件,无需额外安装。这些集成化的组件和功能,从整体上节省软件开销,降低使用和运维门槛,方便、有效的保证大数据库系统的落地部署,工程化实施。
结语:作为具有创新性的实时大数据平台,PetaBase-i能够帮助各个行业的企业在海量的数据中洞察更多隐藏的商业价值。Ebpay作为大数据时代的参与者、助力者,会持续在数字化转型的道路上为企业披荆斩棘、保驾护航。