在线
询问

免费
试听

线上线下
随时学

会员
订阅

顶部

全部课程> 华为大数据-2020

华为大数据-2020

  • 24课时(建议每周学习0小时)
  • 自主模式

已有4742人报名学习

  • 课程概览
  • 授课讲师
  • 课程大纲
  • 实验列表
    华为大数据-2020
  • 课程概览
  • 授课讲师
  • 课程大纲
  • 实验列表

通过HCNA-Big Data认证,将证明您已经系统掌握常用且重要的大数据组件技术原理与架构,能够运用华为大数据解决方案FusionInsight HD进行海量数据的导入和导出、分布式文件系统HDFS的基础操作、分布式数据库HBase客户端及表操作、分布式数据仓库Hive的常用HQL语句查询,以及了解典型场景的综合应用

课程概览
内容包括但不限于:大数据行业与技术趋势介绍;HDFS分布式文件系统、MapReduce分布式离线批处理计算引擎和Yarn资源协调、Spark2x基于内存的分布式计算、HBase分布式NoSQL数据库、Hive分布式数据仓库、Streaming分布式流计算引擎、Loader数据转换、Flume海量日志聚合、Kafka分布式消息订阅系统、ZooKeeper集群分布式协调服务等11个常用且重要的大数据组件技术原理与架构,华为大数据解决方案产品FusionInsight HD及成功案例介绍;基于独立大数据组件的实战演练以及大数据综合应用实战。
授课讲师
课程大纲
  • 第1章大数据行业与技术趋势
  •     第1节 大数据时代
    视频名称:1.1_大数据时代.mp4
  •     第2节 大数据的应用领域-华为大数据解决方案
    视频名称:1.2_大数据的应用领域-华为大数据解决方案.mp4
  • 第2章HDFS技术原理
  •     第1节 HDFS概述及应用场景-HDFS系统架构
  •     第2节 关键特性介绍
  • 第3章MapReduce和YARN技术原理
  •     第1节 MapReduce和YARN基本介绍、功能与架构
  •     第2节 YARN的资源管理和任务调度与增强特性
  • 第4章Spark2x技术原理
  •     第1节 Spark概述、原理与架构
  •     第2节 Spark原理与架构、在FusionInsight中的集成情况
  • 第5章HBase技术原理
  •     第1节 HBase基本介绍
  •     第2节 HBase功能与架构
  •     第3节 HBase关键流程、HBase华为增强特性
  • 第6章Hive技术原理
  •     第1节 Hive概述、功能与架构
  •     第2节 Hive功能与架构、基本操作
  • 第7章Streaming技术原理
  •     第1节 Streaming简介与系统架构
  •     第2节 关键特性介绍与StreamCQL介绍
  • 第8章Flink技术原理
  •     第1节 Flink概述、原理与技术架构
  •     第2节 Flink原理与技术架构、在FusionInsight HD中的集成情况
  • 第9章Loader技术原理
  •     第1节 Loader简介与作业管理
  • 第10章Flume技术原理
  •     第1节 Flume简介、架构、关键特性及应用举例
  • 第11章Kafka技术原理
  •     第1节 Kafka简介、架构与功能
  •     第2节 Kafka架构与功能、关键流程
  • 第12章ZooKeeper集群分布式协调服务
  •     第1节 ZooKeeper简介-与组件的关系
  • 第13章FusionInsight HD解决方案介绍
  •     第1节 FusionInsight概述与特性介绍
  •     第2节 FusionInsight HD 成功案例
实验列表
  • 实验名称01_使用命令行访问HDFS
  • 实验描述在本练习中,您将练习使用HDFS、Hadoop分布式文件系统。您将使用HDFS命令行工具来操纵HDFS中的文件
  • 实验名称02_使用Apache Spark探索DataFrames
  • 实验描述在本练习中,您将使用Spark shell处理DataFrames。 您将从在浏览器中查看和书签Spark文档开始。然后启动Spark shell并将一个简单的JSON文件读入DataFrame。
  • 实验名称03_使用DataFrames模式
  • 实验描述在本练习中,您将使用DataFrames处理结构化帐户和移动设备数据
  • 实验名称04_用DateFrame查询分析数据
  • 实验描述在本练习中,您将使用DataFrame查询分析帐户和移动设备数据。
  • 实验名称05_使用RDD
  • 实验描述在这个练习中,您将使用Spark shell来处理RDD。
  • 实验名称06_使用RDD转换数据
  • 实验描述在本练习中,您将转换RDD中的数据。
  • 实验名称08_用SQL查询表和视图
  • 实验描述在本练习中,您将使用Catalog API来探索Hive表并创建通过执行SQL查询来进行dataframe。 使用Catalog API在默认的Hive数据库中列出表,并查看accounts表的模式。对accounts表执行查询,并检查结果 DataFrames。基于accountdevice CSV文件创建一个临时视图,并使用它将该表与accounts表连接起来。
  • 实验名称09_使用Scala中的数据集
  • 实验描述在本练习中,您将使用web日志数据探索数据集。 创建一个帐户ID/IP地址对的RDD,然后基于该RDD创建一个新的产品数据集(case类对象)。比较类型化和非类型化转换的结果,以更好地理解DataFrames和数据集之间的关系。 注意:这些练习只在Scala中进行,因为数据集不在Python中定义。
  • 实验名称10_探索查询执行
  • 实验描述在这个练习中,您将探索Spark如何执行RDD和DataFrame/数据集的查询。 首先,您将使用Spark shell和Spark应用程序UI。然后您将探索Catalyst是如何执行DataFrame和Dataset查询
  • 实验名称11_持久化数据
  • 实验描述在这个练习中,您将探索DataFrame持久化。
  • 实验名称15_使用Apache Sqoop导入数据到HDFS
  • 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
  • 实验名称16_使用Apache Sqoop导出数据到MySQL
  • 实验描述在本练习中,您将使用Sqoop将MySQL中的表导入HDFS。
  • 实验名称13_收集Web服务器使用Apache Flume的日志
  • 实验描述在本练习中,您将运行一个Flume代理将web日志数据从本地目录摄取到HDFS。 Apache web服务器日志通常存储在运行服务器的本地机器上的文件中。在本练习中,您将通过将提供的web日志文件放入本地spool目录中来模拟Apache服务器,然后使用Flume来收集数据。 在使用假脱机目录源之前,本地目录和HDFS目录都必须存在。
  • 实验名称12_制作和使用Apache Kafka消息
  • 实验描述在本练习中,您将使用Kafka的命令行工具创建一个Kafka主题。您还将使用命令行生成器和使用者客户机来发布和读取消息。
  • 实验名称14_从Flume发送消息给Kafka
  • 实验描述在本练习中,您将在网关节点上运行Flume代理,它将从本地spool目录中获取web日志,并将每一行作为消息发送给Kafka主题。 Flume代理被配置为向前面创建的weblog主题发送消息。
节数上课时间星期一 星期二星期三星期四 星期五星期六星期天
第1节08:00 - 08:40
第2节09:00 - 09:40
第3节10:00 - 10:40
第4节11:00 - 11:40
第5节14:00 - 14:40
第6节15:00 - 15:40
第7节16:00 - 16:40
第8节17:00 - 17:40
天数上课日期上课时间内容

课程名称:
华为大数据-2020
课程现价:
0
支付方式:
支付宝支付
微信支付
确认支付
支付剩余时间: 15:00
视频试听
购买课程
当前课程仅限高级会员学习!
成为会员
取消