首页 首页 下载资源 数据资源 Spark 查看内容

课程介绍《Spark 大数据平台》,资源教程下载

木马童年 2020-9-21 14:39 48 0

课程名称课程介绍《Spark 大数据平台》,资源教程下载课程目录第一周 Spark生态系统概述与编程模型 Spark生态系统概述 回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介 缓存策略介绍 transforma ...

课程介绍《Spark 大数据平台》        本课程内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践Spark SQL,基于Spark的机器学习,图计算,Techyon,Spark的多语言编程以及SparkR的原理和运行。面向研究Spark的学员,它是一门非常有学习指引意义的课程。时间:共10周-------------------课程目录-------------------第一周 Spark生态系统概述与编程模型    Spark生态系统概述    回顾Hadoop MapReduce    Spark运行模式    RDD    Spark运行时模型简介    缓存策略介绍    transformation    action    lineage    容错处理    宽依赖与窄依赖    集群配置第二周 深入Spark内核    Spark术语解释    集群概览    核心组件    数据本地性    常用RDD    任务调度    DAGScheduler    TaskScheduler    Task细节    广播变量    累加器    性能调优第三周 Spark on Yarn & Spark as a service    Spark on Yarn原理    Spark on Yarn实践    JobServer架构    JobServer API介绍    JobServer配置与部署第四周 Spark Streaming原理与实践    DStream    数据源    无状态transformation与有状态transformation    checkpoint    容错    性能优化第五周 Shark与Spark SQL    Shark数据模型    Shark数据类型    Shark架构    Shark部署    缓存(分区)表    SharkServer    Shark与Spark结合    Spark SQL架构    Parquet支持    DSL    SQL on RDD    Hive支持    UDF    JDBC Server第六周 Machine Learning on Spark    LinearRegression    K-Means    Collaborative Filtering第七周 Spark多语言编程    Python简介    PySpark API    使用Python编写Spark程序    Spark with Java第八周 图计算GraphX    现存的图计算框架    Table Operators    Graph Operators    GraphX设计第九周 Tachyon原理与实践    Tachyon原理与架构    Tachyon实践第十周 SparkR    SparkR原理介绍    安装配置与运行

课程名称

课程介绍《Spark 大数据平台》,资源教程下载

课程目录

第一周 Spark生态系统概述与编程模型    Spark生态系统概述

    回顾Hadoop MapReduce

    Spark运行模式

    RDD

    Spark运行时模型简介

    缓存策略介绍

    transformation

    action

    lineage

    容错处理

    宽依赖与窄依赖

    集群配置

第二周 深入Spark内核

    Spark术语解释

    集群概览

    核心组件

    数据本地性

    常用RDD

    任务调度

    DAGScheduler

    TaskScheduler

    Task细节

    广播变量

    累加器

    性能调优

第三周 Spark on Yarn & Spark as a service

    Spark on Yarn原理

    Spark on Yarn实践

    JobServer架构

    JobServer API介绍

    JobServer配置与部署

第四周 Spark Streaming原理与实践

    DStream

    数据源

    无状态transformation与有状态transformation

    checkpoint

    容错

    性能优化

第五周 Shark与Spark SQL

    Shark数据模型

    Shark数据类型

    Shark架构

    Shark部署

    缓存(分区)表

    SharkServer

    Shark与Spark结合

    Spark SQL架构

    Parquet支持

    DSL

    SQL on RDD

    Hive支持

    UDF

    JDBC Server

第六周 Machine Learning on Spark

    LinearRegression

    K-Means

    Collaborative Filtering

第七周 Spark多语言编程

    Python简介

    PySpark API

    使用Python编写Spark程序

    Spark with Java

第八周 图计算GraphX

    现存的图计算框架

    Table Operators

    Graph Operators

    GraphX设计

第九周 Tachyon原理与实践

    Tachyon原理与架构

    Tachyon实践

第十周 SparkR

    SparkR原理介绍

    安装配置与运行

数据源 数据模型 Spark
0