基本步骤:

1 数据清理

2 数据集成

3 数据选择

4 数据变换

5 数据挖掘

6 模式评估

7 知识表示

数据的属性有哪些:

1 标称属性:可以说成是事物的名称 例如 头发的颜色:棕色,红色,褐色等

2 二元属性:用 0或1 表示,又称布尔属性

3 序数属性: 第一,第二,第三,A,B,C,D,等级之类的,序数之间没有明确的差值

4 数值属性:有两种 (1).区间标度属性,比如温度15°和30°,差了15°,但是你不能说30°是15°的2倍 (2)比例率属性,比如100美元是1美元的100倍

5 离散属性与连续属性

数据的表述:

1 中心趋势度量:可以用到 (1)均值 (2)中位数 (3) 众数

均值:所有数据加起来求平均

加权平均: 所有数据乘以他的权重,求和,在除以他的权重和

中位数:递增排序后,中间的那个数,如果是偶数个,则为中间两个的平均值

众数:数据中出现最多的数

中列数:数据中最大数和最小数的和值得平均

中列数可以看出数据是正倾斜还是负倾斜(在中位数的左边还是右边)左正右负

度量数据散布:

1 极差,四分位数,方差,标准差,和四分位极差

极差:最大和最小数的差

四分位数:数据中第25%(Q1) 50%(Q2)  75%(Q3),可以把数据分成四分,使得每部分是数据的四分之一。

四分位极差:IQR=Q3-Q1

方差:(数据的平均值减去数据中的每一个值)的平方,然后求和,再除以数据的个数

标准差:方差开平方

                    

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐