在2014年以后,大数据领域内掀起了一股强劲的Apache Spark学习和应用的浪潮。Apache Spark以内存计算为核心,以其通用,快速和完整的生态圈等特点,正在逐步取代速度较慢的hadoop,越来越多的应用在了企业中。ADHOC SQL查询,流计算,数据挖掘,图计算,R语言,一个又一个功能强大的组件使得越来越多的spark爱好者和企业界意识到,只要掌握一门spark技术,就能够为大多数的企业遇到的大数据的应用场景提供明显的加速。
学习Spark,成为一名合格的Spark工程师,使得每个致力于大数据行业的人,不仅能得到技术上的提升,也为个人的薪资带来了巨大的提升空间。
本教程从最基础的Spark介绍开始,介绍Spark的各种部署模式以及动手进行搭建,然后逐步介绍其中RDD的计算模型,创建和常用的操作,以及其中一些分布式计算,RDD持久化,容错,shuffle机制,共享变量等内容。
而后在RDD的基础上,讲解SparkSQL的子框架,介绍dataframe,使用场景,创建方法,对parquet等文件格式和不同类型的数据源的支持,对hive的兼容和整合,以及对传统数据库的JDBC的支持,和thriftserver的部署等。再配合一些实战动手的实验来加深对dataframe的理解和应用。
然后,讲解sparkstreaming的子框架,介绍DSTREAM的概念,使用场景,数据源,操作,容错,性能调优,还有与kafka的集成。
最后以2个项目来实际带学习者到开发环境中去动手开发,调试,一些基于SparkSQL,SparkStreaming,kafka的实战项目,加深大家对Spark应用开发的理解。其中简化了企业里的实际业务逻辑,加强对错误调试的分析和思路上的启发,使得学习者更容易掌握Spark的开发技巧。
课程讲师12年开始从事hadoop领域技术研究,14年专职从事spark技术研究与开发,目前在企业里从事spark相关工作,同时负责企业的内训,主讲spark部分。在14年夏做为Hadoop培训讲师,曾参与过广州汇丰银行的高级Hadoop课程(Hbase,Spark)培训,并与该企业中的一些学员互留联系方式并保持长期技术上的联系。曾参与EASYHADOOP社区14年11月活动,演讲《spark介绍及SPARKSQL应用》,获得学员和与会者的好评并有长期的技术层面联系。
教程试看及完整大纲目录如下,对IT编程、大数据、数据分析、人工智能感兴趣的朋友们可以访问北风网官网或关注小编了解更多哦!也可以加群131322610一起分享学习跟多开发经验资料。
内容 | 培训大纲 | 实战 |
第一讲_spark简介 | Ø spark介绍 Ø Spark与hadoop的比较 Ø Spark的使用场景介绍 Ø spark软件栈 Ø 动手搭建一个最简单的spark集群 Ø 运行例子程序SparkPi | 实战:单节点的spark部署和运行SparkPi |
第二讲_spark部署模式介绍 | Ø Spark部署模式OverView Ø Spark启动过程详解 Ø Spark集群部署之Standalone Ø Spark集群部署之Spark on Yarn Ø Spark集群部署之Spark on Mesos | 实战:完全分布式的spark standalone和spark on yarn模式的动手实战 |
第三讲_spark集群硬件,开发语言和java版本的选择 | Ø spark集群硬件配置 Ø spark开发的语言选择 Ø Java版本的选择 | |
第四讲_spark的rdd及其操作介绍 | Ø RDD介绍及创建 Ø RDD的操作 Ø RDD函数传递 Ø 闭包 Ø shuffle介绍 Ø RDD的持久化 Ø 共享变量 Ø 常用transformation和action的API介绍 Ø 在spark-shell里动手实战wordcount及常用API Ø Scala介绍 | 实战:动手在Sparkshell中编写wordcount和linecount,以及动手实验常用的RDD操作。 |
第五讲_SparkSQL及DataFrame讲解 | Ø SparkSQL简介 Ø SparkSQL之DataframeSave&Load Ø SparkSQL之Dataframe介绍及创建 Ø SparkSQL之DataframeParquet Ø SparkSQL之DataframeJson&HiveTables Ø SparkSQL之DataframeJDBC&PerformanceTuning&Cli&ThriftServer | 实战:Sparksql的Dataframe创建,配置,SparkSQL连接hive,及ThriftServer. |
第六讲_SparkStreaming和DStream介绍 | Ø SparkStreaming的demo和介绍 Ø DStream和DataSource Ø DStream的Transformation和output Ø DStream持久化,checkpoint,以及和DataFrame的交互 Ø SparkStreaming应用的部署和监控 | 1) Spark Streaming应用的监控与分析 |
第七讲_SparkStreaming性能调优,容错和Kafka集成 | Ø SparkStreaming的性能调优 Ø SparkStreaming的容错 Ø SparkStreaming与Kafka的集成 | |
第八讲__SparkSQL项目实战之文本比对 | Ø 开发SparkSQL应用的雏形和定义dataframe Ø 数据清洗 Ø 业务逻辑的实现和保存数据处理结果 Ø 开发SparkSQL应用调度程序,实现多文本并行 Ø SparkSQL应用的参数化,提高可配置性 Ø SparkSQL应用部署到集群中,调试 Ø 编写简单的shell脚本,调试及查阅JIRA Ø 集群和SparkSQL应用参数的调整 Ø SparkSQL应用schedular模式介绍和性能调优 | 实战:在spark上开发一个文本比对的SparkSQL的应用 |
第九讲_SparkStreaming+ SparkSQL+Kafka 项目实战开发 | Ø kafka简介,安装和集群搭建 Ø kafka实战 Ø 多组件部署模式的设计与思考 Ø SparkStreaming+kafka应用运行日志的分析 Ø 开发基于direct模式的SparkStreaming应用 Ø SparkStreaming应用的参数设置 Ø SparkStreaming应用部署调试 Ø SparkStreaming与SparkSQL结合 Ø Kafka集群升级与connect的探索 Ø 开发自定义的Kafka producer,完成整个应用 |
推荐阅读:太原热线
-
小胖机器人AI双教引热潮,亮相第77届中国教
10月12日, 由中国教育装备行业协会主办,山东省教育厅、青岛市人民政府承办的第77届中国教育装备展示会在青岛世博城国际展览中心召开。做为国内教育机器人品牌,小...
2019-10-17 -
中国移动成为今年世界互联网大会唯一一家通信运
10月20日,第六届世界互联网大会将在浙江乌镇正式拉开帷幕,这将是乌镇举办世界互联网大会的第六个年头。今年有11家企业成为本届大会的合作伙伴,其中中国移动浙江公...
2019-10-17 -
爱奇艺“潮”前走,明年上这些“菜”
一年一度的爱奇艺营销盛会——爱奇艺iJOY“悦享会”又在魔都上海举办。面对国内外各种经济压力,很多人都说“今年太难了”,各家广告主口袋里的预算变得更加宝贵,投放...
2019-10-17 -
小米猫耳朵全面屏专利曝光,萌萌哒,这样的审美
今年的小米没有坐以待毙了,不是一如往常的专注于手机的极致性价比,还有线上线下的营销趋势,而是更多地拿出自己的核心技术,开提升自己品牌的知名度和权威性,小米MIX...
2019-10-17 -
培养AI人才 2019百度之星决赛获奖者玩转
随着AI行业的快速发展,优秀的年轻AI人才不断涌现。百度作为中国人工智能人才培养业界领军者,一直积极向学界输送教育资源,为其提供必备的“弹药与干粮”。10月15...
2019-10-17 -
北极星1已量产,售145万元,纯电续航150
Polestar 1翻译中文意为北极星1。1957年沃尔沃试图推出一款跑车,能够在美国和欧洲市场上与其他品牌跑车竞争的产品。1960年9月首台P1800跑车正式...
2019-10-17 -
攻占5亿下沉市场用户,京东双十一用这两招,拼
超级百亿补贴千亿优惠、12亿件低价好物、2亿件反向定制产品、PLUS会员至少省90亿元……10月15日,11.11京东全球好物节启动发布会在北京举行。此次京东1...
2019-10-17 -
想前瞻未来世界?或许你应该2019中关村论坛
世界首款包裹表面的有机液晶显示器、实时3D面部表情捕捉技术、仿生自主攀爬检测机器人…..在2019中关村论坛重要内容的中关村国际前沿科技成果展上,微软、英特尔、...
2019-10-17