数据结构复习
1、数据挖掘概念数据挖掘利用各种方法,从海量数据中提取出潜在的对决策有价值的信息的过程内涵:数据探索过程对象:海量数据方法:各种方法目的:辅助预测、决策2、数据挖掘的理论基础:数据库、数据仓库、机器学习、神经网络、人工智能3、SPSS Modeler的核心操作是-- 管理数据流4、数据流由多个节点构成、有方向,数据在各个节点间流动5、组成数据流的最小单元-- 节点6、超节点概念:由多个节点集成在一
1、数据挖掘概念
数据挖掘利用各种方法,从海量数据中提取出潜在的对决策有价值的信息的过程
内涵:数据探索过程
对象:海量数据
方法:各种方法
目的:辅助预测、决策
2、数据挖掘的理论基础:数据库、数据仓库、机器学习、神经网络、人工智能
3、SPSS Modeler的核心操作是-- 管理数据流
4、数据流由多个节点构成、有方向,数据在各个节点间流动
5、组成数据流的最小单元-- 节点
6、超节点概念:由多个节点集成在一个节点中形成
7、超节点作用:便于浏览和管理
8、SPSS Modeler 的数据组织形式:变量为列,样本为行 的二维表形式
9、SPSS Modeler 通过源选项不同 以下不同文件类型的读数据节点实现读取多种形式的数据:
文本(变量文本、固定文本)、excel文件、统计文件、数据库(通过ODBC方式)
10、SPSS Modeler 非源选项下主要节点名字和作用
如类型、合并、追加、排序、筛选、导出、汇总、分级、表格等节点
类型节点:定义变量类型、取值范围及角色说明
导出节点:新变量生成,通过运算在原始数据基础上生成新变量(新字段)
追加节点:数据纵向合并,实现记录增加
合并节点:数据横向合并,实现变量增加
分级化节点:数据的离散化,实现分组
排序节点:按升序或降序对单个变量或多个变量数据排序
选择节点:按条件对样本数据进行筛选
表格节点:数据浏览,实现数据输出查看
11、SPSS Modeler 的建模类主要节点和作用
C5.0节点、C&T树节点、类神经网络节点
作用:
C5.0节点:建立C5.0算法的决策树模型
C&T树节点、类神经网络节点:建立分类回归树算法的决策树模型
12、数据挖掘往往从数据基本分析开始,通常包含反映变量分布的集中趋势和离散程度
13、描述集中趋势统计量有:平均值、众数、中位数等
14、描述离散程度统计量有:方差、标准差、极差等
15、相关系数:反映两个数值型变量的线性相关程度
r的绝对值大小,可以说明现象之间相关关系的紧密程度
-1<= r <= 1
r为正 表示正相关、r为负 表示负相关
|r| = 0 r 不相关 |r| < 0.3 弱相关
0.5<|r|<= 0.8 中度相关 |r|>0.8 高度相关
16、数据的图形表示法:
散点图-- 两个数值型变量的相关趋势
折线图-- 时间序列数据特征
分布图-- 两个分类变量数据特征
网状图-- 两个或多个分类变量相关特性及分布特征
圆饼图-- 占比特征
17、压缩样本 是数据精简的方式之一,主要借助概率抽样,随机抽取样本
18、样本集划分(分割)概念和目的
样本集分割是将全部样本数据,按一定比例随机划分为两个样本子集,分别称为训练样本集和测试样本集
目的使预测模型具有一般性和稳定性,预测精度更高
19、RFM分析的概念
RFM分析是指对用户最近一次消费、消费频率、消费金额的分析,是对客户分类最重要的三个指标
20、因子分析概念
因子分析是一种减少变量个数、降低数据维度的多元统计分析方法
21、无监督的数据分组,也称为无指导分组
对数值型变量分组时,不考虑分组结果对其变量的影响
22、无监督数据分组 分组方法:
组距分组、分位数分组、单变量值分组、均值标准差分组
23、有监督的数据分组,也称有指导分组
对数值型变量分组时,应考虑分组结果对其变量的影响
24、有监督的数据分组方法:
熵分组或MDLP熵分组
25、信息量的测度指标-- 信息熵
26、MDLP 的熵分组的测度指标是信息熵和信息增益
27、计算信息增益的方法:确定样本总数、确定输出变量情况,公式、代入、计算
28、分类预测
通过归纳提炼现有数据中目标数据和输入变量的取值规律,建立分类预测模型,用于对未来新数据的预测
29、模型中的自变量在SPSS Modeler中称为输入变量,模型中的因变量称为输出变量或目标变量
30、在数据挖掘中分类预测的两种主要经典算法:决策树算法、神经网络算法
31、决策树的特点
决策树体现对样本不断分组的过程
决策树分为分类树和回归树
决策树体现输入变量和目标变量取值的逻辑关系
32、决策树的核心问题
第一 决策树的生长, 利用训练样本集建立决策树
第二 决策树的剪枝, 利用测试样本集精简决策树
33、决策树分为分类决策树和回归决策树
34、分类树:输出变量是二分类或多分类变量所建立的决策树 分类预测
35、回归树:输出变量为数值型变量所建立的决策树 数值预测
36、决策树C5.0算法 挑选信息增益最大分组
37、分类回归树 可以建立分类树也可以建立回归树
38、人工神经网络由相互连接的神经元(处理单元或节点)组成点和边连接而成
39、神经网络的重要元素-- 神经元或节点
40、神经网络节点由加法器和激活函数组成
41、神经网络的连接包含层间连接和层内连接
42、人工神经网络建立的一般步骤
数据准备-- 确定网络结构-- 确定网络权值
43、神经网络输入变量的取值范围通常在 0至1 之间
44、人工神经网络的主要模型
B-P反向传播网络、径向基函数网络
45、B-P反向传播网络是一种前馈式的多层感知机
感知机是一种最基本的神经网络模型
46、径向基函数网络也是一种前馈式网络,只包含三层网络结构
47、神经网络可实现多目标变量的预测,是解决多目标预测的好策略
更多推荐



所有评论(0)