全力打造全国高校大数据教学示范班级
厦门大学研究生课程
《大数据处理技术Spark》2018班级主页
全面系统讲解Spark技术及其编程方法
(扫一扫手机访问本主页)
(图 授课现场)
(图 期末考试现场)
课程简介
课程名称:《大数据处理技术》
课程性质:校级研究生选修课
课程难度:入门级,零基础(课程采用林子雨编著的入门级精品教材,丰富的教材配套资源帮助学生实现“零基础”学习大数据)
授课教师:林子雨
开课学期:2018年春季学期(2月到6月)
课程学时:每周2节,共16周,32学时,2学分
上课教室:海韵教学楼201教室
教师简介
示范班级
林子雨主讲厦门大学研究生课程《大数据处理技术》是“高校大数据课程公共服务平台”重点打造的示范班级,全程严格执行“林子雨精品大数据公开课六大质量标准”,旨在努力打造高校大数据教学实践标杆。
示范班级全程践行O2O教学理念,提供线上线下完整教学服务,学生在获得良好现场教学体验的同时,可以通过班级网站获得全方位课程指导和服务。示范班级标准元素包括:班级主页、标准教室、精心备课、精彩讲解、优雅形象、标准音质、完整服务等。
公告板
教学大纲
厦门大学研究生课程教学大纲
(2)积极践行O2O教学理念,努力提升教学水平,在大数据课程教学方面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、技术资料等全方位、一站式免费服务,帮助学生更好学习大数据课程。
林子雨,赖永炫,陶继平.Spark编程基础,人民邮电出版社.
1 第1章 大数据技术概述
大数据的基本概念、关键技术和代表性软件 2
2 第2章 Scala语言基础
Scala语言概述
Scala基础 2
3 第2章 Scala语言基础
面向对象编程基础 2
4 第2章 Scala语言基础
函数式编程基础 2
5 第3章 Spark的设计与运行原理
Spark简介、运行架构、RDD的设计与运行原理、部署模式 2
6 第4章Spark环境搭建和使用方法
Spark的基本安装方法,如何在spark-shell中运行代码以及如何开发Spark独立应用程序
7 第4章Spark环境搭建和使用方法
Spark集群环境搭建,在集群上运行Spark应用程序 2
8 第5章 RDD编程
RDD编程基础、键值对RDD、 数据读写、WordCount程序解析 2
9 第5章 RDD编程
RDD编程综合案例 2
10 第6章 Spark SQL
Spark SQL简介、DataFrame、读写Parquet 2
11 第6章 Spark SQL
通过JDBC连接数据库、连接Hive读写数据 2
12 第7章 Spark Streaming
流计算概述、Spark Streaming、DStream操作概述、输入源 2
13 第7章 Spark Streaming
转换操作、输出操作 2
14 第8章 Spark Mllib
Spark MLlib简介、机器学习工作流、特征抽取、转化和选择、分类与回归 2
15 第8章 Spark Mllib
聚类算法、推荐算法、机器学习参数调优 2
16 Spark编程综合案例 2
期末考试
合计 32
教学进度表
2.1 Scala语言概述
2.2 Scala基础
5.1 RDD编程基础5.2 键值对RDD5.3 数据读写
5.4 综合案例
6.1 Spark SQL简介6.2 DataFrame概述6.3 DataFrame的创建6.4 DataFrame的保存6.5 DataFrame的常用操作6.6 从RDD转换得到DataFrame6.7 使用Spark SQL读写数据库
7.1 流计算概述7.2 Spark Streaming7.3 DStream操作概述7.4 基本输入源
7.5 高级数据源7.6 转换操作7.7 输出操作7.8 Structured Streaming
8.4 分类与回归
期末复习说明
授课视频
讲义PPT下载
课后作业
课程教材
拓展学习
林子雨编著《大数据技术原理与应用(第2版)》(人民邮电出版社2017年2月正式出版发行第2版,京东、当当各大网店热销书籍),侧重于介绍大数据技术的实现原理,编程实践内容较少,该教材定位为入门级大数据教材,以“构建知识体系、阐明基本原理、开展初级实践、了解相关应用”为原则,旨在为读者搭建起通向大数据知识空间的桥梁和纽带,为读者在大数据领域深耕细作奠定基础、指明方向。教材系统论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、大数据处理架构Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
详细学习如何安装运行各种大数据软件以及如何进行初级编程实践,包括Hadoop、HDFS、HBase、MapReduce、Spark、MongoDB等安装、操作、编程指南。帮助学生“零基础、零障碍”学习大数据技术。
采用2000万条用户购物数据集,案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。案例适合高校大数据教学,可以作为学生学习大数据课程后的综合实践案例。