数据挖掘与机器学习概论
数据挖掘与机器学习本章主要介绍课程概论,没有正式课程什么是大数据维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据库;或者从小数据开始,但数据每年增长60%Gartner:大数据的四个V:Volume(数据量巨大)、Vatiety(种类和来源多样化)、Velocity(分析处理速度快)、
数据挖掘与机器学习
本章主要介绍课程概论,没有正式课程
什么是大数据
维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合
IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据库;或者从小数据开始,但数据每年增长60%
Gartner:大数据的四个V:Volume(数据量巨大)、Vatiety(种类和来源多样化)、Velocity(分析处理速度快)、Value(价值密度低,商业价值高)
另外IBM有大数据5V特征定义,增加了一个Veracity(真实性)
大数据的影响
在思维方式的方面,大数据完全颠覆了传统的思维方式:
1、全样而非抽样
2、效率而非精确
3、相关而非因果
在社会发展方面,大数据决策逐渐成为了一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。
在就业市场方面,大数据的兴起使得数据科学家成为热门职业
在人才培养方面,大数据的兴起,将在很大程度上改变中国高效信息技术相关专业的现有教学和科研体制
什么是机器学习
维基百科:机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动学习的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以是实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习与数据挖掘的关系
学习前需要具备的知识
高数部分
1、函数的单调性、奇函数、偶函数
2、数列的极限
3、函数的连续性
4、函数的导数、微分、一阶导数、二阶导数
5、牛顿莱布尼茨公式(定积分)
6、泰勒级数展开式
7、常微分方程
8、偏微分
9、函数的极大值和极小值
线性代数
1、矩阵、行列式、向量
2、矩阵的秩、矩阵的可拟条件
3、求解矩阵的特征值、特征向量
4、与单位矩阵相关的性质、矩阵的转置
5、范式(一范式、二范式)
6、距离公式:欧式、马氏、汉明距离
概率论与数理统计
1、排列、组合
2、期望、方差
3、几个重要的分布:正态分布、泊松分布、二项分布
4、极大似然估计
5、贝叶斯问题
6、马尔可夫问题
图论(离散属性与数据结构)
1、数组、向量
2、图(点、边,权重)、最短距离*(dijkstra算法)
3、树:二叉树、树的遍历(前序、中序、后序)
更多推荐
所有评论(0)