最近研究密码体制识别,分类器是其中重要的一环,最近实现了几个分类算法,记录一下以备不时之需。

机器学习

百度百科对机器学习的定义:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
我的理解就是通过对大量的输入数据进行训练,得到一个拟合度较高的模型,并使模型掌握数据中蕴含的潜在规律,用以对再次输入的新数据进行更精准的预测或分类。
机器学习中的两个问题:分类和回归。(这一系列主要关于分类)
分类问题可以分为三种学习方法:

监督学习

监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知样本不断的学习和训练,拟合模型,再对新的数据进行预测。比如手机识别垃圾短信,电子邮箱识别垃圾邮件,都是通过对一些历史短信、历史邮件做垃圾分类的标记,对这些带有标记的数据进行模型训练,然后获取到新的短信或是新的邮件时,进行模型匹配,来识别此邮件是或是不是,这就是监督学习下分类的预测。
简单来说,监督学习中,训练集样本的特征和标签都是已知的,通过判断特征和标签的关系训练模型。

监督学习难点是获取具有目标值的样本数据成本较高,成本高的原因在于这些训练集的要依赖人工标注工作。

无监督学习

区别于监督学习,无监督学习的样本数据没有目标值,即没有标签,所以无监督学习的重点工作是分析样本特征的内在关系和规律。无监督学习常用与聚类(k-means)。除此之外,无监督学习也适用于降维,无监督学习比监督学习好处是数据不需要人工打标记,数据获取成本低。

半监督学习

半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用。半监督学习的分类是在无标签样本的帮助下训练有标签样本,从而获得比只用有标签样本训练得到更优的分类精度。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐