1 硬件平台大数据分析平台需要进行 PB 级数据的读取、写入,需要进行数据挖掘模型的大规模运算,需要进行预测结果的发布,对底层基础硬件的磁盘 IO 和运算速度要求很高,同时需要满足分布式、动态扩展的要求,因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

2 平台软件
操作系统软件采用 Red Hat,
数据采集采用 Flume-NG, 海量
数据存储及分布式计算采用Hadoop,
数据清洗采用 Hive,数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中。
采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。
采用 Hadoop 构建 PB 级大数据平台,给予海量数据存储和分布式计算。
采用 Hive 做为数据清洗引擎,给予 PB级数据预处理、加工、整合服务。
采用 Spark R 组件,Spark R 给予了 Spark中弹性分布式数据集的 API,用户可以在集群上顺利获得 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。
采用 HBase 技术可以给予海量数据的高效发布。
3 大数据挖掘模型开发
数据采集存储模块:DPI、业务侧、网元侧数据顺利获得文件接口方式发送到 Flume-NG 集群,Flume-NG 顺利获得 memory 数据传输方式,将接收到的数据实时的顺利获得 hdfs 方式汇聚到大
数据分析平台。
数据清洗模块:顺利获得编写 HQL 脚本对数据进行清洗、转换,形成特征宽表。
数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用。
分析结果发布:模型应用的结果集存储在HBase 中,第一时间需要在 HBase 中新建存储结果集的 HBase 表,顺利获得 Map Reduce 生成 HFile文件,然后顺利获得 Bulk Load 方式入库。数据的调用顺利获得 HBase API 实现,数据的展现顺利获得ECharts 技术实现。
(部分内容来源网络,如有侵权请联系删除)