大数据时代,数据汹涌来袭,如何在大量的数据流中,获得有用的数据,这就需要掌握一系列数据挖掘的技术,本课程的目标是通过对数据挖掘与数据仓库技术的理论、方法与结合实际案例的讨论学习,向学习对象传授利用这些技术解决实际问题的思路与方法。
课程首先介绍数据挖掘与数据仓库的主要概念、方法及其特点,使学习对象理解这些特点在数据处理与分析中的作用,具体内容包括理解数据,学习掌握如何进行数据集的概念描述、关联分析、分类、聚类等数据挖掘处理的基本技能与方法,了解数据仓库的基本数据模型与使用特点;结合应用案例,基于典型的数据挖掘方法,讨论解决问题的思考与分析过程,强化学习对象面对实际分析问题时的解决问题能力;了解数据挖掘的主要理论体系和相关技术,学习经典挖掘算法及其与之相关的应用案例,并学会使用一款简单易用的modeler数据挖掘软件。
(一) 数据仓库与数据挖掘概述 (2学时)
1、为什么要数据挖掘
2、数据挖掘的应用示例
3、数据挖掘方法简介
4、数据挖掘与其他学科的关系
5、商务智能的三大块
6、常用数据挖掘工具简介
(二)数据仓库技术与数据仓库开发模型 (2学时)
1、数据仓库的概念
2、数据仓库存储的数据模型
3、数据仓库的体系结构
4、数据仓库应用的抽取、转换和装载
5、数据仓库开发模型
6、数据仓库的生成
7、数据仓库的使用和维护
8、数据仓库的粒度、聚集和分割
9、元数据
(三) 联机分析处理(OLAP)技术 (2学时)
1、从OLTP 到 OLAP
2、OLAP 的基本概念
3、多维分析的基本分析动作
4、OLAP 的数据组织
5、OLAP 的体系结构
6、OLAP 工具及评价
7、Codd 关于 OLAP 产品的十二条评价准则
(四)、 数据挖掘的原理与技术 (4学时)
1、知识发现的过程
2、数据挖掘的方法和技术
3、数据挖掘的知识表示
(五) 数据的获取和管理 (4学时)
1、数据仓库的数据获取
2、数据管理
3、系统管理
4、数据的预处理
5、数据质量的多维度量
6、数据预处理的主要方法
(六) 定性归纳 (4学时)
1、基本概念
2、数据泛化
3、属性相关分析
4、挖掘概念对比描述
5、挖掘大数据库的描述型统计信息
(七) 关联挖掘 (4学时)
1 基本概念
2 单维布尔逻辑关联规则挖掘
3 多层关联规则挖掘
4 多维关联规则挖掘
5 关联规则聚类系统(ARCS)
6 关联规则其它内容
(八) 聚类分析 (4学时)
1、什么是聚类分析
2、聚类分析中的数据类型
3、主要聚类算法的分类
(九)时间序列分析与分类和预测 (2学时)
1、分类的基本知识
2、决策树分类
3、支持向量机分类
4、KNN(K-Nearest Neighbor)分类
5、Bayes分类
6、预测的基本知识
7、回归预测
8、广义线性GenLin模型预测
9、支持向量机预测
(十)综合实验(信用卡数据的挖掘) (4学时)