忙碌总是好的~


背景

本章主要记录一下各个语言的数据挖掘包及相关博客,便于以后调用,慢慢完善

数据库连接

类别 Python R
MySQL mysql-connector-python RMysql

Python数据分析工具

扩展库 简介
Numpy 提供数组支持,以及相应的高效处理函数
Scipy 提供矩阵支持,以及矩阵相关的数值计算模块
Matplotlib 强大的数据可视化工具、作图库
Pandas 强大、灵活的数据分析和探索工具
StatsModels 统计建模和计量经济学:描述统计、统计模型估计和推断
Scikit-Learn 支持回归、分类、聚类等强大的机器学习库
kera 深度学习库、用于建立神经网络模型以及深度学习模型
Genism 用于文本题型库、文本挖掘常用
Scikit-Learn

官网: http://scikit-learn.org/stable/
api: http://scikit-learn.org/stable/modules/classes.html
user guide: http://scikit-learn.org/stable/user_guide.html
优秀博客: http://www.jianshu.com/p/516f009c0875

类别:六大类

Classification 分类 
Regression 回归 
clustering 聚类 
Dimensionality reduction 降维 
Model selection 模式选择 
Preprocessing 预处理 

安装包模块(0.16):

__check_build
cluster 聚类
covariance 协方差
cross_decomposition 交叉降维
datasets 数据集
decomposition 降维
ensemble 集成学习
externals 模型持久化
feature_extraction 特征提取
feature_selection 特征选择
gaussian_process 高斯过程
linear_model 线性模型
manifold 流形学习
metrics 度量
mixture 混合
neighbors 邻居
neural_network 神经网络
preprocessing 预处理
semi_supervised 半监督学习
svm
tests 测试
tree 决策树
utils
Scipy

官方文档: https://docs.scipy.org/doc/scipy/reference/
子模块形式组织,大体模块1

子模块         描述
constans        物理和数学常数
cluster         聚类算法
fftpack         快速傅立叶变换程序
integrate       集成和常微分方程求解器
interpolate     拟合和平滑曲线
io              输入和输出
linalg          线性代数
maxentropy      最大熵法
ndimage         N维图像处理
odr             正交距离回归
optimize        最优路径选择
signal          信号处理
sparse          稀疏矩阵和以及相关程序
spatial         空间数据结构和算法
special         特殊函数
stats           统计上的函数和分布
weave           C/C++ 整合(integration)
pandas

官网: http://pandas.pydata.org/pandas-docs/stable/
博客教程: http://python.jobbole.com/85742/
http://blog.csdn.net/yhb315279058/article/details/50226027

numpy

官网: http://www.numpy.org/

matplotlib

官网: http://www.labri.fr/perso/nrougier/teaching/matplotlib/
博客
简单例子:http://phddreamer.blog.163.com/blog/static/18993409620135394944504/
中文教程:http://www.tuicool.com/articles/jquuyij

R

参考:http://jingyan.baidu.com/article/c33e3f48f6ac20ea14cbb55f.html
分为4类:测、分类、聚类和关联参考
* 预测:连续因变量

stats包 lm函数,实现多元线性回归

stats包 glm函数,实现广义线性回归

stats包 nls函数,实现非线性最小二乘回归

rpart包 rpart函数,基于CART算法的分类回归树模型

RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点

adabag包 bagging函数,基于rpart算法的集成算法

adabag包 boosting函数,基于rpart算法的集成算法

randomForest包 randomForest函数,基于rpart算法的集成算法

e1071包 svm函数,支持向量机算法

kernlab包 ksvm函数,基于核函数的支持向量机

nnet包 nnet函数,单隐藏层的神经网络算法

neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法

RSNNS包 mlp函数,多层感知器神经网络

RSNNS包rbf函数,基于径向基函数的神经网络
  • 分类:离散因变量
stats包 glm函数,实现Logistic回归,选择logit连接函数

stats包 knn函数,k最近邻算法

kknn包 kknn函数,加权的k最近邻算法

rpart包 rpart函数,基于CART算法的分类回归树模型

adabag包bagging函数,基于rpart算法的集成算法

adabag包boosting函数,基于rpart算法的集成算法

randomForest包randomForest函数,基于rpart算法的集成算法

party包ctree函数,条件分类树算法

RWeka包OneR函数,一维的学习规则算法

RWeka包JPip函数,多维的学习规则算法

RWeka包J48函数,基于C4.5算法的决策树

C50包C5.0函数,基于C5.0算法的决策树

e1071包svm函数,支持向量机算法

kernlab包ksvm函数,基于核函数的支持向量机

e1071包naiveBayes函数,贝叶斯分类器算法

klaR包NaiveBayes函数,贝叶斯分类器算分

MASS包lda函数,线性判别分析

MASS包qda函数,二次判别分析

nnet包nnet函数,单隐藏层的神经网络算法

RSNNS包mlp函数,多层感知器神经网络

RSNNS包rbf函数,基于径向基函数的神经网络
  • 聚类:
Nbclust包Nbclust函数可以确定应该聚为几类

stats包kmeans函数,k均值聚类算法

cluster包pam函数,k中心点聚类算法

stats包hclust函数,层次聚类算法

fpc包dbscan函数,密度聚类算法

fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类

fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数

mclust包Mclust函数,期望最大(EM)算法
  • 关联规则:
arules包apriori函数,Apriori关联规则算法

数据挖掘 2

回归
类别 Python R PySpark Java
普通最小二乘法回归(ols) statsmodels.ols、sklearn.linear_model.LinearRegression ….. ….. …..

参考博客:
[1] http://blog.csdn.net/nkwangjie/article/details/17503941
[2] http://www.cnblogs.com/SandyKid/p/6142610.html

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐