机器学习之监督与非监督算法

pan_mlpan

2403人浏览 · 2021-03-23 21:50:40

pan_mlpan · 2021-03-23 21:50:40 发布

机器学习

1、概念

学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

机器学习有下面几种定义：

（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

（2）机器学习是对能通过经验自动改进的计算机算法的研究。

（3）机器学习是用数据或以往的经验，以此优化计算机程序的性能标准

Tom 定义的机器学习是，一个好的学习问题定义如下，他说，一个程序被认为能从经验 E 中学习，解决任务 T，达到性能度量值 P，当且仅当，有了经验 E 后，经过 P 评判，程序在处理 T 时的性能有所提升。我认为经验E 就是程序上万次的自我练习的经验（在下棋训练中，任务 T 就是下棋。性能度量值 P 呢，就是它在与一些新的对手比赛时，赢得比赛的概率）

2、算法

目前存在多种不同类型的学习算法。主要的两种类型被我们称之为监督学习和无监督学习。
机器学习的算法分为监督学习算法和非监督学习算法。是否有监督，就看输入数据是否有标签。输入数据有标签，则为有监督学习，没标签则为无监督学习。

（1）监督学习

给计算机一个带有标签的数据集，让计算机进行给出想要的结果与确切的结果。

主要分为以下两类，回归与分类。

1.线性回归算法

线性回归算法通常用来构建一个预测模型。例如，根据房子年限、房屋面积这两个特性，来预测房屋价格，就可以构建一个线性回归算法。利用已有的数据训练模型，再用训练好的模型预测新的房价。

如果有一个输入x，对应一个输出y，就可以构建一个一维现行回归模型，通常表现为一条直线或取现，当给定一个x值时，对应可以求出y值。当有多个特征共同影响y值时，就可以构建一个多元的线性回归模型。

2.逻辑回归算法

逻辑回归算法用来进行对数据的分类。它和线性回归算法类似，不同之处在于，输出值y是给定的几类。最常见的是分成两类，如好和坏。使用逻辑回归算法，可以根据输入数据的特征，判断该条数据的输出是哪一类的。

（2）非监督学习

给计算机一个数据集，预先是不知道该数据集的具体情况，对于监督学习里的每条数据，我们已经清楚地知道训练集对应的正确答案。而非监督学习则不是这样，只是给数据集让计算机自行处理，给出处理后的结果。主要分为以下几种：

1.Kmeans聚类

聚类是一种非监督学习，它和分类的不同之处在于，分类是有标签的，而聚类是无标签的。分类的结果是知道哪个好哪个坏，而聚类是根据特性，将相似的事物聚集到一起，不考虑它们的好坏。
Kmeas算法是聚类算法中的一种，可以根据输入的特性，将一些数据聚集为成任意多个类别。Kmeas算法使用距离的远近来聚集一类数据。