我们人类总是不断地从过去的经验中学习。
例如看云识天气,就是人们通过长期的观察和经验的积累,根据云彩云朵的形状,厚度,颜色,移动方向等的变化,总结出他们和天气之间的关系,并且把这些经验编成谚语和口诀来预测以后的天气。

我们去看病的时候,也总是更加信任那些老大夫,这也是因为我们认为他们有更多的经验。

其实在日常的生活学习和工作中,我们对待很多事情的看法,做事情的方式方法,很多也都是基于之前的经验做出的反应,那么计算机是否也能够基于经验作出判断呢?答案是肯定的。
在这里插入图片描述

机器学习

机器学习:通过算法,使机器能够从大量的数据中学习规律,从而能够对新的数据做出识别,或者对未来进行预测。
在这里插入图片描述

在这个表中记录了商品房的价钱。我们知道,商品房的价钱跟很多因素都有关系,例如面积,户型,地段,当地的经济情况等等。为了简单起见,在这个例子中,我们假设房价只和面积有关。

这里一共有16条记录,每条记录中包括房屋面积和对应的房价,我们现在想卖一套100平方米的房子,可以在这张表中查到93万元左右,是比较合理的报价。

现在假设我们有一套120平方米的房子,但是在这个表中没有120平方米的数据,那么应该报价多少比较合理呢?很容易想到,我们可以根据其他相近的面积近似的估计出这个面积的房价。和它比较相似的面积是124平方米,在稍微远一点,还有114,138的,那么应该怎样综合应用这些信息来尽可能合理地估计出这个120平方米的房价呢?

首先第1步我们可以根据这个表中的数据做出房屋面积和房价之间的散点图。
在这里插入图片描述
这里x轴是面积,y轴是房价。图中的每一个点对应销售表中的一条记录,因此一共有16个点。现在观察这些点的分布,可以发现它们大致上是一种线性的分布,我们可以试着去找一条直线,使他尽可能去靠近这些数据,也就是说这条线尽可能经过比较多的点,或者和所有点的距离尽可能的接近。所找到的这条直线就可以反映出房屋面积和房价之间的规律,如果以后再出现新的面积,就可以根据这条直线来估计房价。
在这里插入图片描述
例如现在要估计120平方米房子的房价,只要找到横坐标120,在这条直线上对应的点,这个点的纵坐标就是对应的房价,这样我们就实现了对未知房价的估计。可以看出来大概是110万元左右。

在这个过程中最重要,最关键的一步是是找到这根直线,它是我们能够预测未来的关键。这条直线称为模型,通过这些已知的数据点找到这根直线的过程称作拟合,也就是机器通过数据进行学习的过程。
在这里插入图片描述

在平面直角坐标系中,直线的定义是y=wx+b,参数w和b确定了这条直线就被唯一。因此寻找这条直线的问题,就转换为寻找参数w和b。

我们来总结一下机器利用数据进行学习的过程,

  • 第1步建立模型,假设房价和面积之间存在线性关系,y=wx+b直线的参数,w和b未知
  • 第2步学习模型就是根据销售记录确定直线的参数,w和b
  • 第3步预测或识别使用上一步得到的这根直线,根据面积计算

房价在这三步中最关键的就是第2步。

学习算法

学习算法:从数据中学习到模型的算法

机器学习实际上是引出了一种新的编程范式。

在经典的程序设计中,我们是首先确定好规则,然后将数据和规则作为输入,通过程序计算给出答案。

在这里插入图片描述
机器学习是通过学习算法从数据中学习模型的过程。

有了学习算法,我们把数据提供给他,他就能够从这些数据中学习到模型,然后我们就可以使用这个得到的模型进行预测和识别。
在机器学习中,被用来学习的数据成为数据集或样本,即我们前面介绍的波士顿房价数据及鸢尾花数据集,手写数字数据集,就是一些被整理好的可以用来训练模型的数据集。在这里插入图片描述

监督学习

在这里插入图片描述
数据集中的每一条记录称为样本,样本由属性和标记组成。

属性也称为特征,反映样本的表现或者性质

标签,是预测或者分类的结果,例如房价鸢尾花品种都是标记。

这种有标记的数据集进行的学习,成为监督学习。监督就是对数据的学习,和标记之间的映射关系,也就是模型在监督学习中,模型也称为假设或者学习器,通常用一个估计函数来表示学习到的模型,应该尽可能地逼近真实存在的规律,这个真实存在的规律称为ground truth,我们把它翻译为真相或者真实。

监督学习可以分为回归问题和分类问题。

  • 回归:预测连续值,例如房价
  • 分类:预测离散值,例如鸢尾花分类,识别手写数字

这个图描述了监督学习的过程
在这里插入图片描述
首先给出样本集,学习算法会根据样本集自动归纳和总结样本的属性和标记之间的关系,从而找到输入和输出之间的映射模型,得到一个估计函数之后就可以使用这个函数对没有见过的新数据进行预测或者分类,输出结果。

无监督学习

除了监督学习,还有无监督学习。无监督学习是在样本数据没有标记的情况下,挖掘出数据内部蕴含的关系。

例如这里有一些样本
在这里插入图片描述
他们没有标记,我们不知道他们是什么,但是我们可以根据这些点之间的距离把它们分为三类,这就是聚类。

  • 聚类,就是把相似的东西聚在一起,也就是物以类聚,人以群分聚类。
    并不关心这一类是什么,因此不需要标记,只要能够对抽取出的特征计算距离就可以了
  • 距离描述了特征值之间的相似度。
    对于同样的样本抽取出来的特征不同,聚类的结果也会不同,比如我们对同学们进行聚类,按照年龄,身高,性别,籍贯,专业进行聚类,结果也是不一样的。
    在这里插入图片描述
    这是我们学习过的鸢尾花的例子,假设现在这个数据集没有标记,我们仅仅根据鸢尾花花瓣的长度和宽度也可以对他们进行聚类。

在这里插入图片描述

这是第1类,花瓣比较短比较窄
在这里插入图片描述

这是第2类,花瓣比较宽大

那么那么在这一大类里面,是不是还包括有不同的品种,在没有标记的情况下就不太好区分了。

在这里插入图片描述

在有标记的数据中,我们知道这里还包含了两种不同的类别。有标记的数据需要人工标记,成本很高。因此,数据量非常的有限。而在我们日常生活和生产过程中积累了大量的无标记数据,数据量是远远多于有标记数据的,为了更好的利用这些数据,就出现了半监督学习。

半监督学习

  • 将有监督学习和无监督学习相结合的学习方法
  • 它可以综合使用大量的没有标记的数据和少量的标记的数据来共同学习,这样就可以充分的发挥有标记数据和无标记数据各自的优势,得到更高的效率和精度。因此这种方法现在也正受到越来越多的重视

机器学习的发展和应用

机器学习是人工智能领域中的一个分支,从历史上看机器学习是人工智能中发展最快的分支之一,也是现阶段最活跃最重要的一个分支。在人工智能发展的早期阶段,符号学习是机器学习的主流。然而在现实世界中很多问题,都无法用符号精确的定义和表示,然后去建立精确的模型。

20世纪80年代到90年代,统计机器学习横空出世,比起过去基于人工规则的专家系统,它在很多方面都显示出极大的优越性,迅速压倒并且取代了符号学习的地位成为了机器学习的主流方向。可以这样认为从早期的符号学习发展到统计,积极学习,反映了人工智能,从纯粹的理论研究和模型研究发展到以解决现实生活中的实际问题为目的的应用研究。

这些年来随着移动计算和物联网的迅速发展,在各个领域都产生和积累了海量的数据,如何解释分析和处理这些数据,从中抽取到有价值的信息也变得越来越重要。其实,能够从已有的数据出发,抽取出其中有价值的信息,彰显数据背后的规律,实现大规模的数据识别分类和预测

在日常生活中,推荐系统,购物网站,垃圾邮件过滤,物流配送,汉字输入,美图工具,天气预测,这些场景中都有机器学习软件的存在。
在这里插入图片描述
在商务领域越来越多的公司也开始使用机器学习软件分析数据,辅助商业决策,预测市场等。
在这里插入图片描述
在医疗卫生领域,机器学习被用来辅助诊疗,手术检测疾病等。
在这里插入图片描述
在教育领域,机器学习可以应用于自动改卷,学生行为建模,预测学习表现,学习知识和评测以及资源推荐等方面。
在这里插入图片描述
机器学习的应用可以说已经无处不在了。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐