Spark大數(shù)據(jù)處理與案例分析高級工程師實戰(zhàn)培訓其它上課時間:
培訓對象:
各地政府云計算物聯(lián)網(wǎng)產(chǎn)業(yè)相關負責人,各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人
培訓內(nèi)容:
課程收益:
課程目標本課程將為大家全面而又深入的介紹Spark相關內(nèi)容導讀“Spark”大數(shù)據(jù)實時處理-基于Spark的大數(shù)據(jù)實時處理及應用技術培訓北京2016-4-20(3天)
Spark生態(tài)系統(tǒng)(BDAS項目)已經(jīng)發(fā)展成一個,包含多個子項目的集合,包括SparkSQL、SparkStreaming、GraphX、MLlib等,基于Spark的大數(shù)據(jù)實時處理及應用技術課程從大數(shù)據(jù)實時處理技術以及Spark實戰(zhàn)的角度,結(jié)合理論和實踐,全方位地介紹Spark大數(shù)據(jù)實時處理工具的原理和內(nèi)核,包括Spark大數(shù)據(jù)計算框架、運行架構、設計模型和數(shù)據(jù)管理策略,及Spark在業(yè)界的應用。
課程大綱:
培訓大綱(3天課程)
模塊一Spark生態(tài)介紹
Mapreduce、storm和spark模型的比較和使用場景介紹
Spark產(chǎn)生背景
Spark(內(nèi)存計算框架)
SparkSteaming(流式計算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
DlinkDB介紹
parkR介紹
模塊二Spark安裝部署
Spark安裝簡介
Spark的源碼編譯
SparkStandalone安裝
Spark應用程序部署工具spark-submit
Spark的高可用性部署
模塊三Spark運行架構和解析
Spark的運行架構
基本術語
運行架構
SparkonStandalone運行過程
SparkonYARN運行過程
Spark運行實例解析
SparkonStandalone實例解析
SparkonYARN實例解析
模塊四Sparkscala編程
Scala基本語法與高階語法
Scala基本語法
Scala開發(fā)環(huán)境搭建
Scala開發(fā)Spark應用程序
使用java編程
使用scala編程
使用python編程
比較Standalone與YARN模式下的優(yōu)缺點
模塊五Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
RDD的特點、操作、依賴關系
Spark應用程序的配置
Spark的架構
spark的容錯機制
數(shù)據(jù)的本地性
緩存策略介紹
寬依賴與窄依賴
模塊六Spark數(shù)據(jù)挖掘
Mllib的介紹
graphX核心原理
tableoperator和graphoperator區(qū)別
vertices、edges和triplets介紹
構建一個graph
SparkR原理
SparkR實戰(zhàn)
模塊七SparkStreaming原理和實踐
SparkStreaming與Strom的區(qū)別
Kafka的部署
Kafka與SparkStreaming的整合
SparkStreaming原理
Spark流式處理架構
DStream的特點
Dstream的操作和RDD的區(qū)別
帶狀態(tài)的transformation與無狀態(tài)transformation
SparkStreaming的優(yōu)化
SparkStreaming實例
Streaming的容錯機制
streaming在yarn模式下的注意事項
對于需結(jié)合第三方存儲機制的與流式處理方案
文本實例
網(wǎng)絡數(shù)據(jù)處理
Kafka+SparkStreaming實現(xiàn)日志的實時分析案例
模塊八Spark的優(yōu)化
序列化優(yōu)化——Kryo
Spark參數(shù)優(yōu)化實戰(zhàn)
Spark任務的均勻分布策略
Partitionkey傾斜的解決方案
Spark任務的監(jiān)控
GC的優(yōu)化
SparkStreaming吞吐量優(yōu)化
SparkRDD使用內(nèi)存的優(yōu)化策略
Spark在使用中的感想分享
模塊九Spark的數(shù)據(jù)源
Spark與HDFS的整合
HDFSRDD原理和實現(xiàn)
Spark與Hbase的整合
Spark與Cassendera整合
HbaseRDD的分區(qū)讀取
HbaseRDD的原理和實現(xiàn)
SparkparallelismRDD的工作機制
模塊十SparkStreaming應用及案例分析
SparkStreaming產(chǎn)生動機
SparkStreaming程序設計
(1)創(chuàng)建DStream
(2)基于DStream進行流式處理
SparkStreaming容錯與性能優(yōu)化
(1)SparkStreaming容錯機制
(2)如何對sparkStreaming進行優(yōu)化
SparkStreaming案例分析基于SparkStreaming的用戶標簽系統(tǒng),內(nèi)容包括項目背景,項目架構以及實施方法
模塊十一典型項目案例實戰(zhàn)
基于spark日志分析
個性化推薦系統(tǒng):帶你揭開其神秘面紗
在線投放引擎
揭開淘寶點擊推薦系統(tǒng)的神秘面紗
淘寶數(shù)據(jù)服務架構—實時計算平臺培訓師介紹:
張老師:
阿里大數(shù)據(jù)高級專家,國內(nèi)資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經(jīng)驗。
近年主要典型的項目有:
某電信集團網(wǎng)絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構建游戲云(WebGameDaas)平臺項目等。
課程對象各地政府云計算物聯(lián)網(wǎng)產(chǎn)業(yè)相關負責人,各類IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。
對于懷有設計疑問和問題,需要梳理解答的團隊和個人