模式识别:将事物归类

根据模式之间的距离函数来判别分类

交叉熵是一种计算两个统计距离的方法

模式是通过统计数据集得来

训练过程:通过调整参数使得预测函数的计算结果与真实结果一致(监督学习)

预测过程:将等测物体的参数传入已经调整好参数的预测函数,然后看输出结果跟哪个模式的距离最小

查找距离最小的方法:softmax()

计算两组分布的距离的方法:交叉熵


    调整参数?使预测和真实结果的误差最小

    如何调整?反向传播算法

    误差最小?损失函数

    真实结果?用事先标识好的数据进行训练

    预测函数?要设计的分类器

    距离最小?softmax 


分阶段:

1.原始数据的获取和预处理;

    requests/BeautifulSoup/scrapy/xpath/lxml/

2.特征齐提取与特征选择;

    numpy/pandas/matplotlib/scipy/

3.分类或聚类;

    tensorflow/

4.后处理;

    pandas/sqlite3

其它:tempfile/configparser


Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐