Spark企业级实战:知名手机厂商用户行为实时分析系统

基于知名手机厂商线上项目需求进行讲解,快速提升Spark项目经验,解决手机应用实时分析、实时查询。涵盖大数据实时计算一体化的处理流程,包括Flume,Kafka,spark-streaming和Hbase等。
使用本地图片

链接详情:http://www.dajiangtai.com/course/20.do

1. 课程介绍

1、基于知名手机厂商线上项目需求进行讲解,快速提升Spark项目经验,解决手机应用实时分析、实时查询需求。

2、涵盖大数据实时计算一体化的处理流程,包括Flume采集不同来源不同类型的日志(用户行为日志,Nginx日志等等),Kafka消息队列缓存数据并提供高并发的处理以及供后续多种系统消费数据,spark-streaming根据业务需求实时计算数据,Hbase用来存储大数据量和低延迟的访问。

3、特别注重企业级Spark项目开发的系统性、完整性,拒绝小demo小案例,提升视野与高度。

2. 课程视频及源码获取联系方式

收集整理了人工智能和大数据方面的项目实战类的视频教程,需要视频请加微信(BigDataAI007) 如本站没有您想要的视频,请微信联系,可以帮您拿到课程。

使用本地图片

2.1 项目总体介绍和背景

项目总体介绍和背景

1、项目背景

2、总体业务要求

3、难点分析

技术框架

a.大数据工具的选择,包括HDFS、HIVE、SPARK、KAFKA、HBASE、PHOENIX、ZEPPELIN等工具。

b.数据实时处理阶段技术拓展Storm

系统要求以及开发的重点和难点
Java,hadoop YARN,Flume,Kafka,Spark-streaming,Hbase

Hadoop YARN:分布式文件存储系统、资源管理平台,负责spark-streaming的文件存储和资源分配

Flume:实时收集、过滤、聚合各种日志数据

Kafka:分布式高并发消息队列,负责缓存Flume采集的数据并为下游的各种计算提供高并发的数据处理

Spark-streaming:基于内存的高吞吐量实时流式计算

Hbase:亿级行百万列并可毫秒级查询的数据库,可快速查询我们的计算数据

2.2 数据流处理

1、数据实时处理阶段技术拓展Storm

2、Spark Streaming实用项目解决方案

3、Spark Streaming项目中性能调优

2.3 总体要求

1、业务系统很多,如何实时聚合日志并对业务侵入性很小,这么多的系统的日志格式肯定都不一样,统一聚合后如何区分日志;

2、数据量很大如何达到高并发,让处理速度远高于写入速度

3、如何分布和处理数据才能对后续的系统减少压力,比如处理好的数据写入hbase,如何减少写次数;

4、我们的系统是大数据和业务系统紧密结合的,那么在大数据大量用户的情况下如何做到低延时;

2.4 模型建立及整体解决方案

1、业务系统很多,如何实时聚合日志并对业务侵入性很小,这么多的系统的日志格式肯定都不一样,统一聚合后如何区分日志;

2、数据量很大如何达到高并发,让处理速度远高于写入速度

3、如何分布和处理数据才能对后续的系统减少压力,比如处理好的数据写入hbase,如何减少写次数;

4、我们的系统是大数据和业务系统紧密结合的,那么在大数据大量用户的情况下如何做到低延时;