慕课-南宁理工学院

大数据技术原理与应用_厦门大学

课程类型：选修课

发布时间：2020-12-30 08:39:08

主讲教师：

课程来源：

建议学分：3.00分

课程编码：mk000492

课程介绍

课程目录

教师团队

{1}--第0讲课程介绍

[1.1.1]--课程介绍视频（6分钟）

"(1.2.1)--本讲配套讲义PPT-第0讲课程介绍"

{2}--第1讲大数据概述

[2.1.1]--大数据时代（9分钟）

[2.2.1]--1.2大数据概念和影响（11分钟）

[2.3.1]--1.3大数据的应用（6分钟）

[2.4.1]--1.4大数据的关键技术（6分钟）

[2.5.1]--1.5.1云计算（12分钟）

[2.5.2]--1.5.2物联网（8分钟）

"(2.6.1)--本讲配套讲义PPT-第1讲-大数据概述"

{3}--第2讲大数据处理架构Hadoop

[3.1.1]--2.1.1Hadoop简介（11分钟）

[3.1.2]--2.1.2Hadoop不同版本（11分钟）

[3.2.1]--2.2Hadoop项目结构（10分钟）

[3.3.1]--2.3.1Hadoop安装之前的预备知识（9分钟）

[3.3.2]--2.3.2Hadoop的安装和使用详解（13分钟）

[3.4.1]--2.4Hadoop集群的部署和使用（13分钟）

"(3.5.1)--本讲配套讲义PPT-第2讲-大数据处理架构Hadoo"

{4}--第3讲分布式文件系统HDFS

[4.1.1]--3.1分布式文件系统HDFS简介（7分钟）

[4.2.1]--3.2HDFS相关概念（14分钟）

[4.3.1]--3.3HDFS体系结构（6分钟）

[4.4.1]--3.4HDFS存储原理（12分钟）

[4.5.1]--3.5.1HDFS读数据过程（13分钟）

[4.5.2]--3.5.2HDFS写数据过程（6分钟）

[4.6.1]--3.6HDFS编程实践（15分钟）

"(4.7.1)--本讲配套讲义PPT-第3讲-分布式文件系统HDFS"

{5}--第4讲分布式数据库HBase

[5.1.1]--4.1HBase简介（14分钟）

[5.2.1]--4.2HBase数据模型（13分钟）

[5.3.1]--4.3HBase的实现原理（14分钟）

[5.4.1]--4.4HBase运行机制（14分钟）

[5.5.1]--4.5HBase应用方案（12分钟）

[5.6.1]--4.6HBase编程实践（8分钟）

[5.7.1]--4.7HBase常用JavaAPI及应用实例（14分钟）

"(5.8.1)--本讲配套讲义PPT-第4讲-分布式数据库HBase"

{6}--第5讲NoSQL数据库

[6.1.1]--5.1NoSQL概述（17分钟）

[6.2.1]--5.2NoSQL与关系数据库的比较（9分钟）

[6.3.1]--5.3.1键值数据库和列族数据库（10分钟）

[6.3.2]--5.3.2文档数据库、图数据库以及不同数据库比较分析（8分钟）

[6.4.1]--5.4.1CAP理论（6分钟）

[6.4.2]--5.4.2BASE和最终一致性（9分钟）

[6.5.1]--5.5从NoSQL到NewSQL数据库（4分钟）

[6.6.1]--5.6文档数据库MongoDB （13分钟）

"(6.7.1)--本讲配套讲义PPT-第5讲-NoSQL数据库"

{7}--第6讲云数据库

[7.1.1]--6.1云数据库概述（13分钟）

[7.2.1]--6.2云数据库产品（5分钟）

[7.3.1]--6.3.1UMP系统概述（4分钟）

[7.3.2]--6.3.2UMP系统架构（22分钟）

[7.3.3]--6.3.3UMP系统功能（12分钟）

[7.4.1]--6.4.1Amazon和云计算的渊源（4分钟）

[7.4.2]--6.4.2AmazonAWS （18分钟）

[7.4.3]--6.4.3AmazonAWS平台上的云数据库（5分钟）

[7.5.1]--6.5微软云数据库SQLAzure （5分钟）

[7.6.1]--6.6云数据库实践（11分钟）

"(7.7.1)--本讲配套讲义PPT-第6讲-云数据库"

{8}--第7讲MapReduce

[8.1.1]--7.1.1分布式并行编程（9分钟）

[8.1.2]--7.1.2MapReduce模型简介（8分钟）

[8.2.1]--7.2MapReduce的体系结构（6分钟）

[8.3.1]--7.3MapReduce工作流程（11分钟）

[8.4.1]--7.4Shuffle过程原理（17分钟）

[8.5.1]--7.5MapReduce应用程序执行过程（5分钟）

[8.6.1]--7.6实例分析：WordCount （8分钟）

[8.7.1]--7.7MapReduce的具体应用（7分钟）

[8.8.1]--7.8MapReduce编程实践（17分钟）

"(8.9.1)--本讲配套讲义PPT-第7讲-MapReduce"

{9}--第8讲数据仓库Hive

[9.1.1]--8.1数据仓库概念（7分钟）

[9.2.1]--8.2Hive简介（21分钟）

[9.3.1]--8.3SQL转换成MapReduce作业的原理（15分钟）

[9.4.1]--8.4.1Impala简介（5分钟）

[9.4.2]--8.4.2Impala系统架构（7分钟）

[9.4.3]--8.4.3Impala查询执行过程（6分钟）

[9.4.4]--8.4.4Impala与Hive的比较（4分钟）

[9.5.1]--8.5.1Hive安装与基本操作（11分钟）

[9.5.2]--8.5.2Hive应用实例WordCount （10分钟）

"(9.6.1)--本讲配套讲义PPT-第8讲-数据仓库Hive"

{10}--第9讲Hadoop再探讨

[10.1.1]--9.1Hadoop的优化与发展（13分钟）

[10.2.1]--9.2.1HDFSHA （8分钟）

[10.2.2]--9.2.2HDFSFederation （10分钟）

[10.3.1]--9.3.1MapReduce1.0的缺陷（4分钟）

[10.3.2]--9.3.2YARN设计思路（4分钟）

[10.3.3]--9.3.3YARN体系结构（16分钟）

[10.3.4]--9.3.4YARN工作流程（5分钟）

[10.3.5]--9.3.5YARN框架与MapReduce1.0框架的对比分析（5分钟）

[10.3.6]--9.3.6YARN的发展目标（9分钟）

[10.4.1]--9.4.1Pig （10分钟）

[10.4.2]--9.4.2Tez （8分钟）

[10.4.3]--9.4.3Spark和Kafka （5分钟）

"(10.5.1)--本讲配套讲义PPT-第9讲-Hadoop再探讨"

{11}--第10讲Spark

[11.1.1]--10.1.1Spark简介（11分钟）

[11.1.2]--10.1.2Spark与Hadoop的对比（6分钟）

[11.2.1]--10.2Spark生态系统（9分钟）

[11.3.1]--10.3.1基本概念和架构设计（8分钟）

[11.3.2]--10.3.2Spark运行基本流程（6分钟）

[11.3.3]--10.3.3RDD概念（12分钟）

[11.3.4]--10.3.4RDD特性（5分钟）

[11.3.5]--10.3.5RDD的依赖关系和运行过程（13分钟）

[11.4.1]--10.4SparkSQL （5分钟）

[11.5.1]--10.5Spark的部署和应用方式（7分钟）

[11.6.1]--10.6.1Spark安装和启动SparkShell （5分钟）

[11.6.2]--10.6.2SparkRDD基本操作（60分钟）

[11.6.3]--10.6.3Spark应用程序（9分钟）

"(11.7.1)--本讲配套讲义PPT-第10讲-Spark"

{12}--第11讲流计算

[12.1.1]--11.1.1数据的处理模型（8分钟）

[12.1.2]--11.1.2流计算概念与典型框架（8分钟）

[12.2.1]--11.2流计算处理流程（7分钟）

[12.3.1]--11.3流计算的应用（5分钟）

[12.4.1]--11.4.1Storm简介（6分钟）

[12.4.2]--11.4.2Storm设计思想（10分钟）

[12.4.3]--11.4.3Storm框架设计（11分钟）

[12.5.1]--11.5SparkStreaming、Samza以及三种流计算框（14分钟）

[12.6.1]--11.6.1编写Storm程序（19分钟）

[12.6.2]--11.6.2安装Storm的基本过程和实例（11分钟）

"(12.7.1)--本讲配套讲义PPT-第11讲-流计算"

{13}--第12讲图计算

[13.1.1]--12.1图计算简介（13分钟）

[13.2.1]--12.2Pregel简介（4分钟）

[13.3.1]--12.3.1有向图和顶点（7分钟）

[13.3.2]--12.3.2Pregel的计算过程（7分钟）

[13.3.3]--12.3.3Pregel实例（14分钟）

[13.4.1]--12.4.1定义Vertex基类（6分钟）

[13.4.2]--12.4.2消息传递机制和Combiner （6分钟）

[13.4.3]--12.4.3Aggregator、拓扑改变和输入输出（7分钟）

[13.5.1]--12.5.1Pregel的执行过程和容错性（13分钟）

[13.5.2]--12.5.2Worker、Master和Aggregator （12分钟）

[13.6.1]--12.6Pregel的应用实例——单源最短路径（19分钟）

[13.7.1]--12.7Hama的安装和使用（5分钟）

"(13.8.1)--本讲配套讲义PPT-第12讲-图计算"

{14}--第13讲大数据在不同领域的应用

[14.1.1]--13.1大数据应用概览（14分钟）

[14.2.1]--13.2.1推荐系统概述（13分钟）

[14.2.2]--13.2.2基于用户的协同过滤（UserCF）（11分钟）

[14.2.3]--13.2.3基于物品的协同过滤（ItemCF）（9分钟）

[14.2.4]--13.2.4UserCF算法和ItemCF算法的对比（4分钟）

[14.3.1]--13.3大数据在智能医疗和智能物流领域运用（8分钟）

"(14.4.1)--本讲配套讲义PPT-第13讲-大数据在不同领域的应用"