数据挖掘之回归分析综述

史赵锋

(长春理工大学   信息与计算科学系)

摘要:数据挖掘中回归分析方法是建立复杂对象外特性模型的一类重要方法.此文对现有各种回归方法进行了综述.采用一个统一的目标函数来解释各种回归方法,并以此为基础,系统介绍了各种回归分析方法(包括常见的主成分分析法和部分最小二乘法(PLS))的意义、结构、算法、特性及其相互关系.

关键词: 简单线性回归, 多元线性回归,非线性回归

引言:数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。其中回归分析就是数据挖掘方法中统计方法算法之一,它就是用回归方程来表示变量间的数量关系

一.回归分析的概念。

回归分析(regression analysis) ,一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系。

回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系,后者反映变量间的严格依存性,而前者则表现出一定程度的波动性或随机性,对自变量的每一取值,因变量可以有多个数值与之相对应。在统计上研究相关关系可以运用回归分析和相关分析(correlation analysis)。

当自变量为非随机变量、因变量为随机变量时,分析它们的关系称回归分析;当两者都是随机变量时,称为相关分析。回归分析和相关分析往往不加区分。广义上说,相关分析包括回归分析,但严格地说。两者是有区别的。具有相关关系的两个变量ξη,它们之间既存在着密切的关系,又不能由一个变量的数值精确地求出另一变量的值。通常选定ξ=xη的数学期望作为对应ξ=xη的代表值,因为它反映ξ=x条件下η取值的平均水平。这样的对应关系称为回归关系。根据回归分析可以建立变量间的数学表达式,称为回归方程。回归方程反映自变量在固定条件下因变量的平均状态变化情况。相关分析是以某一指标来度量回归方程所描述的各个变量间关系的密切程度。相关分析常用回归分析来补充,两者相辅相成。若通过相关分析显示出变量间关系非常密切,则通过所建立的回归方程可获得相当准确的取值。

通过回归分析可以解决以下问题: 1.可建立交量间的数学表达式――通常称为经验公式。 2.利用概率统计基础知识进行分析,从而可以判断所建立的经验公式的有效性。 3.进行因素分析,确定影响某一变量的若干变量(因素)中,何者为主要,何者为次要,以及它们之间的关系。

具有相关关系的变量之间虽然具有某种不确定性,但是,通过对现象的不断观察可以探索出它们之间的统计规律,这类统计规律称为回归关系。有关回归关系的理论、计算和分析称为回归分析。

二.回归分析的应用。

回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题。回归分析是一种非常有用且灵活的分析方法,其作用主要表现在以下几个方面:

(1) 判别自变量是否能解释因变量的显著变化----关系是否存在;

(2) 判别自变量能够在多大程度上解释因变量----关系的强度;

(3) 判别关系的结构或形式----反映因变量和自变量之间相关的数学表达式;

(4) 预测自变量的值;

(5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。


三.回归分析的步骤, 流程。

第一步是确定要进行预测的应变量。 然后,集中于说明变量,进行多元回归分析。 多元回归分析将给出应变量与说明变量之间的关系。 这一关系最后以公式(模型)形式给出,通过它预测应变量的未来值。

回归分析可以分为简单线性回归分析和多元线性回归分析,非线性回归数据分析。

(一)简单线性回归分析

仅有一自变量与一因变量,且其关系大致上可用一直线表示

如果发现因变量Y和自变量X之间存在高度的正相关,可以确定一条直线的方程,使得所有的数据点尽可能接近这条拟合的直线。简单回归分析的模型可以用以下方程表示:

bx

其中:Y为因变量,a为截距,b为相关系数,x为自变量。

(二)多元线性回归分析

多元线性回归是简单线性回归的推广,指的是多个因变量对多个自变量的回归。其中最常用的是只限于一个因变量但有多个自变量的情况,也叫多重回归。多重回归的一般形式如下:

b1X1 b2X2 b3X3 +……+ bkXk

a代表截距, b1,b2,b3,……,bk为回归系数。

(三)非线性回归数据分析

对于线性回归问题,样本点落在空间中的一条直线上或该直线的附近,因此可以使用一个线性函数表示自变量和因变量间的对应关系。然而在一些应用中,变量间的关系呈曲线形式,因此无法用线性函数表示自变量和因变量间的对应关系,而需使用非线性函数表示。

数据挖掘中常用的一些非线性回归模型,列出如下。

(1)渐渐回归模型:

             Y=a+b*e(的-rX次方)+E

(2)二次曲线模型:

            Y=a+b1X+b2X(的2次方)+E

(3)双曲线模型:

              Y=a+b/X+E

由于许多非线性模型是等价的,所以模型的参数化不是惟一的,这使得非线性模型的拟合和解释相比与线性模型复杂得多。在非线性回归分析中估算回归参数的最通用的方法依然是最小二乘法。

四.总结。

回归分析作为数据挖掘中的统计方法之一,在科研,商业方面都有广泛的应用;通过这种方法可以确定,许多领域中各个因素(数据)之间的关系,从而可以通过其用来预测,分析数据。


Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐