数据挖掘

1. 最近邻分类器

1.1 学习方法的演变

  • 积极学习方法
  • 消极学习方法
    • rote分类器
    • 最近邻分类器

1.2 基本思想

如果它走路像鸭,叫得像鸭,那么它很可能是鸭。

计算测试样例的k个最近的训练样例,根据k个最近邻的训练样例的类别来确定测试样例的类别。

  • 最近邻分类器的要素:
    • 训练样例
    • 距离度量
    • k值的选取

1.3 最近邻分类器的特征

  • 基于实例学习,不需要学习模型
  • 测试样例的开销很大,
  • k值太小易受到噪声干扰,k值太大容易
  • 分类边界像蜂窝状

1.4最近邻分类器的优缺点

  • 优点
    • 最近邻是一种非参数的分类技术,简单直观,易于实现
    • 是一种在线技术,新数据可以直接加入数据集而不必进行重新训练
  • 缺点
    • 当样本不平衡时

1.5 最近邻分类器的改进:K-D树

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐