机器学习(1.机器学习概述、数据集的组成以及机器学习的特征工程)

什么是机器学习？机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测为什么需要机器学习解放生产力、解决专业问题、提供社会便利机器学习应用场景自然语言处理、无人驾驶、计算机视觉、推荐系统、、、机器学习在各领域带来的价值领域：医疗、航空、教育、物流、电商。。。。目的：让机器学习程序替换手动的步骤，减少企业的成本也提高...

还是那个同伟伟

1155人浏览 · 2019-06-07 16:05:16

还是那个同伟伟 · 2019-06-07 16:05:16 发布

什么是机器学习？

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

为什么需要机器学习

解放生产力、解决专业问题、提供社会便利

机器学习应用场景

自然语言处理、无人驾驶、计算机视觉、推荐系统、、、

机器学习在各领域带来的价值

领域：医疗、航空、教育、物流、电商。。。。

目的：让机器学习程序替换手动的步骤，减少企业的成本也提高企业的效率

机器学习的数据集组成

1.数据来源,以及存放方式

从历史数据当中获取规律？这些历史数据是怎么样的格式？

1.大多数以文件的形式（csv文件..）, 因为mysql有性能瓶颈、读取速度遭到限制，数据大的时候很费时间

2. 格式不太符合机器学习要求的数据格式

2.读取数据的工具

Python中很强大的模块 pandas:读取工具、numpy(数据计算模块，计算速度非常快,因为释放了Python中的GIL)

3.可用数据集

Kaggle特点：1、大数据竞赛平台 2、80万科学家   3、真实数据   4、数据量巨大

UCI特点：1、收录了360个数据集   2、覆盖科学、生活、经济等领域       3、数据量几十万

scikit-learn特点：1、数据量较小  2、方便学习

网址：

Kaggle网址：https://www.kaggle.com/datasets

UCI数据集网址： http://archive.ics.uci.edu/ml/

scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

4.特征值-目标值

特征值： 就是DataFrame中的列索引，

目标值： 很据特征值得到的结果值，就为目标值，（就是想要做的事情的目的的分类）