数据挖掘之回归分析

数据挖掘之回归分析综述史赵锋（长春理工大学信息与计算科学系）摘要：数据挖掘中回归分析方法是建立复杂对象外特性模型的一类重要方法.此文对现有各种回归方法进行了综述.采用一个统一的目标函数来解释各种回归方法,并以此为基础,系统介绍了各种回归分析方法(包括常见的主成分分析法和部分最小二乘法(PLS))的意义、结构、算法、特性及其相互关系.关键词：简单线性回归, 多元线性回归，非线

TechChan

15652人浏览 · 2014-06-30 15:21:49

TechChan · 2014-06-30 15:21:49 发布

数据挖掘之回归分析综述

史赵锋

（长春理工大学信息与计算科学系）

摘要：数据挖掘中回归分析方法是建立复杂对象外特性模型的一类重要方法.此文对现有各种回归方法进行了综述.采用一个统一的目标函数来解释各种回归方法,并以此为基础,系统介绍了各种回归分析方法(包括常见的主成分分析法和部分最小二乘法(PLS))的意义、结构、算法、特性及其相互关系.

关键词：简单线性回归, 多元线性回归，非线性回归

引言：数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展，人们积累的数据量急剧增长，动辄以TB计，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。其中回归分析就是数据挖掘方法中统计方法算法之一，它就是用回归方程来表示变量间的数量关系

一．回归分析的概念。

回归分析(regression analysis) ,一个统计预测模型，用以描述和评估应变量与一个或多个自变量之间的关系。

回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系，后者反映变量间的严格依存性，而前者则表现出一定程度的波动性或随机性，对自变量的每一取值，因变量可以有多个数值与之相对应。在统计上研究相关关系可以运用回归分析和相关分析（correlation analysis）。

当自变量为非随机变量、因变量为随机变量时，分析它们的关系称回归分析；当两者都是随机变量时，称为相关分析。回归分析和相关分析往往不加区分。广义上说，相关分析包括回归分析，但严格地说。两者是有区别的。具有相关关系的两个变量ξ和η，它们之间既存在着密切的关系，又不能由一个变量的数值精确地求出另一变量的值。通常选定ξ=x时η的数学期望作为对应ξ=x时η的代表值，因为它反映ξ=x条件下η取值的平均水平。这样的对应关系称为回归关系。根据回归分析可以建立变量间的数学表达式，称为回归方程。回归方程反映自变量在固定条件下因变量的平均状态变化情况。相关分析是以某一指标来度量回归方程所描述的各个变量间关系的密切程度。相关分析常用回归分析来补充，两者相辅相成。若通过相关分析显示出变量间关系非常密切，则通过所建立的回归方程可获得相当准确的取值。