- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
- 课程概览
- 授课讲师
- 课程大纲
- 实验列表
华为大数据-2020
通过HCNA-Big Data认证,将证明您已经系统掌握常用且重要的大数据组件技术原理与架构,能够运用华为大数据解决方案FusionInsight HD进行海量数据的导入和导出、分布式文件系统HDFS的基础操作、分布式数据库HBase客户端及表操作、分布式数据仓库Hive的常用HQL语句查询,以及了解典型场景的综合应用
课程概览
内容包括但不限于:大数据行业与技术趋势介绍;HDFS分布式文件系统、MapReduce分布式离线批处理计算引擎和Yarn资源协调、Spark2x基于内存的分布式计算、HBase分布式NoSQL数据库、Hive分布式数据仓库、Streaming分布式流计算引擎、Loader数据转换、Flume海量日志聚合、Kafka分布式消息订阅系统、ZooKeeper集群分布式协调服务等11个常用且重要的大数据组件技术原理与架构,华为大数据解决方案产品FusionInsight HD及成功案例介绍;基于独立大数据组件的实战演练以及大数据综合应用实战。
课程大纲
- 第1章大数据行业与技术趋势
-
    第1节 大数据时代
-
    第2节 大数据的应用领域-华为大数据解决方案
- 第2章HDFS技术原理
-
    第1节 HDFS概述及应用场景-HDFS系统架构
-
    第2节 关键特性介绍
- 第3章MapReduce和YARN技术原理
-
    第1节 MapReduce和YARN基本介绍、功能与架构
-
    第2节 YARN的资源管理和任务调度与增强特性
- 第4章Spark2x技术原理
-
    第1节 Spark概述、原理与架构
-
    第2节 Spark原理与架构、在FusionInsight中的集成情况
- 第5章HBase技术原理
-
    第1节 HBase基本介绍
-
    第2节 HBase功能与架构
-
    第3节 HBase关键流程、HBase华为增强特性
- 第6章Hive技术原理
-
    第1节 Hive概述、功能与架构
-
    第2节 Hive功能与架构、基本操作
- 第7章Streaming技术原理
-
    第1节 Streaming简介与系统架构
-
    第2节 关键特性介绍与StreamCQL介绍
- 第8章Flink技术原理
-
    第1节 Flink概述、原理与技术架构
-
    第2节 Flink原理与技术架构、在FusionInsight HD中的集成情况
- 第9章Loader技术原理
-
    第1节 Loader简介与作业管理
- 第10章Flume技术原理
-
    第1节 Flume简介、架构、关键特性及应用举例
- 第11章Kafka技术原理
-
    第1节 Kafka简介、架构与功能
-
    第2节 Kafka架构与功能、关键流程
- 第12章ZooKeeper集群分布式协调服务
-
    第1节 ZooKeeper简介-与组件的关系
- 第13章FusionInsight HD解决方案介绍
-
    第1节 FusionInsight概述与特性介绍
-
    第2节 FusionInsight HD 成功案例
实验列表
- 实验名称01_使用命令行访问HDFS
- 实验描述在本练习中,您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件
- 实验名称02_使用Apache Spark探索DataFrames
- 实验描述在本练习中,您将使用Spark shell处理DataFrames。 您将从在浏览器中查看和书签Spark文档开始。然后启动Spark shell并将一个简单的JSON文件读入DataFrame。
- 实验名称03_使用DataFrames模式
- 实验描述在本练习中,您将使用DataFrames处理结构化帐户和移动设备数据
- 实验名称04_用DateFrame查询分析数据
- 实验描述在本练习中,您将使用DataFrame查询分析帐户和移动设备数据。
- 实验名称05_使用RDD
- 实验描述在这个练习中,您将使用Spark shell来处理RDD。
- 实验名称06_使用RDD转换数据
- 实验描述在本练习中,您将转换RDD中的数据。
- 实验名称08_用SQL查询表和视图
- 实验描述在本练习中,您将使用Catalog API来探索Hive表并创建通过执行SQL查询来进行dataframe。 使用Catalog API在默认的Hive数据库中列出表,并查看accounts表的模式。对accounts表执行查询,并检查结果 DataFrames。基于accountdevice CSV文件创建一个临时视图,并使用它将该表与accounts表连接起来。
- 实验名称09_使用Scala中的数据集
- 实验描述在本练习中,您将使用web日志数据探索数据集。 创建一个帐户ID/IP地址对的RDD,然后基于该RDD创建一个新的产品数据集(case类对象)。比较类型化和非类型化转换的结果,以更好地理解DataFrames和数据集之间的关系。 注意:这些练习只在Scala中进行,因为数据集不在Python中定义。
- 实验名称10_探索查询执行
- 实验描述在这个练习中,您将探索Spark如何执行RDD和DataFrame/数据集的查询。 首先,您将使用Spark shell和Spark应用程序UI。然后您将探索Catalyst是如何执行DataFrame和Dataset查询
- 实验名称11_持久化数据
- 实验描述在这个练习中,您将探索DataFrame持久化。
- 实验名称15_使用Apache Sqoop导入数据到HDFS
- 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
- 实验名称16_使用Apache Sqoop导出数据到MySQL
- 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
- 实验名称13_收集Web服务器使用Apache Flume的日志
- 实验描述在本练习中,您将运行一个Flume代理将web日志数据从本地目录摄取到HDFS。 Apache web服务器日志通常存储在运行服务器的本地机器上的文件中。在本练习中,您将通过将提供的web日志文件放入本地spool目录中来模拟Apache服务器,然后使用Flume来收集数据。 在使用假脱机目录源之前,本地目录和HDFS目录都必须存在。
- 实验名称12_制作和使用Apache Kafka消息
- 实验描述在本练习中,您将使用Kafka的命令行工具创建一个Kafka主题。您还将使用命令行生成器和使用者客户机来发布和读取消息。
- 实验名称14_从Flume发送消息给Kafka
- 实验描述在本练习中,您将在网关节点上运行Flume代理,它将从本地spool目录中获取web日志,并将每一行作为消息发送给Kafka主题。 Flume代理被配置为向前面创建的weblog主题发送消息。
节数 | 上课时间 | 星期一 | 星期二 | 星期三 | 星期四 | 星期五 | 星期六 | 星期天 |
---|---|---|---|---|---|---|---|---|
第1节 | 08:00 - 08:40 | |||||||
第2节 | 09:00 - 09:40 | |||||||
第3节 | 10:00 - 10:40 | |||||||
第4节 | 11:00 - 11:40 | |||||||
第5节 | 14:00 - 14:40 | |||||||
第6节 | 15:00 - 15:40 | |||||||
第7节 | 16:00 - 16:40 | |||||||
第8节 | 17:00 - 17:40 |
天数 | 上课日期 | 上课时间 | 内容 |
---|