Python数据挖掘学习--01基本模块介绍以及环境安装
一、数据挖掘介绍 数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术
一、数据挖掘介绍
数据挖掘利用了来自如下一些领域的思想:
(1) 来自统计学的抽样、估计和假设检验,
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛,并且是众多应用的技术基础。
• 导入和可视化数据
• 数据分类
• 使用回归分析和相关测量法发现数据之间的关系
• 数据降维以压缩和可视化数据带来的信息
• 分析结构化数据
每个主题都会提供代码实例,它们基于Python数据分析和处理的类库:numpy,matplotlib,sklearn和networkx等
二、相关环境以及安装包
1、安装
安装方式一般有两种:
环境windows,打开cmd
1、网络安装
pip install numpy
2、下载安装
通过安装包安装
pip install C:\Users\Administrator\Desktop\所需\numpy-1.13.1+mkl-cp35-cp35m-win_amd64.whl
2、后续开发所使用的模块
(1)numpy模块
numpy可以高效处理数据、提供数组支持、很多模块都依赖他,比如pandas、scipy、matplotlib都依赖他,所以这个模块是基础。
numpy+mkl
(2)pandas模块
pandas是后续中用得最多的一个模块,主要用于进行数据探索和数据分析。
(3)scipy模块
scipy主要进行述职计算,同事支持矩阵运算、并提供了很多高等数据处理功能,比如积分,傅里叶变换、微分方程求解等。
(4) matplotlib
作图模块,解决可视化问题
(5) statsmodels
这个模块主要用于统计分析
(6) Gensim
这个模块主要用于文本挖掘
(7) keras
深度学习使用
注意:
更多推荐
所有评论(0)