自计算机问世以来,人类一直尝试赋予计算机思想,让计算机变得更智
能,使它能够理解我们说的话,看懂我们的表情,还能够帮助我们处理复杂的
事 情 。 为 此 , 一 个 专 门 的 学 科 诞 生 了 , 即 人 工 智 能 ( Artificial
Intelligence)。如今,人工智能已经成为计算机科学的一个重要分支,它主
要研究智能的实质,并提出一种模拟人类思考的方式。该领域的研究对象包括
机器人、语音识别、图像识别、自然语言处理和专家系统等。
从20世纪50年代起,人工智能的发展进入第一阶段推理期,当时的人工智
能通过赋予计算机一种简单的逻辑推理能力使它变得智能。在当时,计算机已
经能够证明一些简单的数学定理,但远没有达到真正智能的标准。20世纪70年
代,人工智能的发展进入了第二阶段知识期。在这个时期出现了大量的专家系
统,很多科学家尝试将人类的知识教给计算机,这有点像中学生的“题海战
术”。但人类产生的知识量巨大,计算机没有办法全部学会,因此人工智能的
发展很快就遇到了瓶颈。
无论在推理期还是知识期,计算机都是按照人类设定的规则和总结的规律
运作的,没有办法做到举一反三。如果只教会计算机做题,?没有教会它解题
的思路,则?次遇到别的题目时它仍旧不会。于是一些学者想到,如果教会计
算机学习的方法,让它能够自我学习,问题不就迎刃而解了吗?因此,机器学
习(Machine Learning)的概念应运而生,人工智能终于进入“机器学习
期”。
对人类来说,“学习”是指一个人通过观察、模仿、理解、实践等手段获
得知识或技能的过程。父母亲会不断地和婴儿说话,婴儿则通过模
仿“?”和“说”的方式逐渐学习语言。我们从小阅读书籍、模仿字帖写字,
通过“?”“说”“读”“写”四种方式掌握使用、书写汉字的技能,这些都
是学习的过程。
机器学习,顾名思?,就是让计算机也能像人类一样学习,通过观察和训
练,发现事物规律,从而获得分析问题、解决问题的能力。我们对比一?人类
学习和机器学习两个过程,人类学习汉字时需要用的书籍、字帖对于计算机来
说相当于输入数据(Data),人类通过“听”“说”“读”“写”等不同的方
式掌握使用汉字的能力,机器则通过某种学习算法(Learning Algorithm)去
学习这些输入数据。最后人类把使用汉字称为一种技能(Skill)。对于计算
机来说从这些数据中发现规律就是它的技能。通常,我们把机器学习的结果叫
作模型(Model)。图1-1展示了人类学习与机器学习的对比。

 技能是运用知识和经验执行一定活动的能力。计算机通过学习,可以帮助
我们做数据分类、轨迹预测、重要因子识别等事情。例如,根据基金的历史表
现和对大盘的数据分析,预测明年众多的基金中哪些能够获得高收益;从茫茫
人海中准确识别出每个人的容貌等。
从事过资?或电商行业的产品经理经常会提到“个性化推荐”技术,淘宝
在很早之前就把这项技术应用到了产品设计中。如图1-2所示,我们每次打开
手机淘宝,看到的淘宝首页的广告栏及推荐板块的内容都不一样,并且很可能
会惊喜地发现这些东西正好是我们想要的。

  • 机器学习三要素

怎么让计算机知道用户当?最想要买什么商品呢?要实现这个功能,需要
具备三个方面的条件,如图1-3所示。

1. 数据
若想让计算机能够理解用户在想什么,首先要让计算机去观察这个用户在
电商网站上都做了些什么,买了些什么。它需要观察的数据包括用户看了哪些
商品,会点进哪些商品的?情页浏览,在哪些商品页面上停留的时间比较长,
买了哪些商品等。这些历史数据中蕴含了绝大部分人的购买规律、生活状
态,计算机甚至可以根据这些 数据生成用户画像 。这些数据像一座金矿一
样静静地等待被挖掘,而我们希望计算机能够通过自主学习的方式,把其中的
规律挖掘出来,以便将来面对新的用户和商品时,就能预测哪些商品会受到哪
类用户的欢迎。
2. 学习算法
算法是机器学习数据的一种策略 ,就像“?”“说”这种人类的学习方
法一样,可以帮助模型理解数据。然而算法都有一定的局限性,因此面对不同
的数据、不同的目的,需要选择不同的算法。例如,预测客户当?想购买的商
品,建立用户的画像或者分析客户的购买决策因素,需要使用不同的算法。机
器学习算法有很多,常见的有逻辑回归、贝叶斯分类、决策树、随机森林等,
这些算法我们在后面章节会?细介绍。
3. 模型
进行一系列的训练之后,计算机就能学得一个预测模型,?次用户登录进
来时就能根据其历史行为做出判断,在首页推荐其想要购买的商品。同时也能
做到面对新的用户和商品时,预测哪些商品会受到哪类用户的欢迎,让用户感
觉该网站能够想其所想。
讲到这里,部分读者可能会有这样的疑问:我们通过人工的方法也能掌握
这些规律,在没有机器学习之前我们也一直在做类似的事情,那为什么需要机
器学习呢?
还是以淘宝为例,2017年“双11”的交易额突破了1682亿元,14万个品牌
共投入1500万种商品参与到“双11”活动中。如此庞大的数据量已经远远超出
了人类能够处理的能力范围,我们很难在短时间内从错综复杂的数据中找到蕴
藏其中的规则,做出准确的判断。何况这些数据还是结构化的交易类数据,处
理起来已经如此困难,更不用说现代企业每日决策所依赖的数据中有80%的数
据为非结构化数据了。
对企业来说,商品的交易数据、运输成本、库存管理、历史定价、服务成
本、支持成本等数据仅仅是每日做决策时所需的结构化数据的几个主要来源。
而非结构化的数据,如社交媒体、邮件记录、通话记录、客户服务、技术支持
记录、物联网的传感数据、竞争对手和合作?伴的定价信息、供应链跟踪数据
等以指数级增长的数据,其中常常会蕴含对优化推荐销售更具有指导意?的预
测模型,而这些数据正是当今企业所忽视的,也是我们很难去总结和应用的数
据。
但机器学习很善于处理这类问题,因为它会不断地学习并改善模型的表
现。机器学习算法本质上是迭代、持续学习的,并且会寻找最优的输出结果。
每出现一次误算,算法都会吸取教训并改正错误,然后开始?一次数据分析的
迭代计算。计算过程以毫秒为单位,其可以异常高效地优化决策和预测输出。
机器学习可以对大量数据进行分析并获得规律,然后利用规律对未知数据进
行预测。它不但能从数据中看到人类能看到的规律,更重要的是能在更短的
时间内发现人类看不到的规律,我想这就是机器学习最大的应用价值 。
在医学领域,机器学习通过图像识别技术,已经实现了让计算机自动识别
肿瘤细胞,帮助医生快速进行医学诊断;在制造业领域,通过强化学习的方式
自动检测产品缺陷,提高出品率,帮助企业加快生产周期,降低生产成本;在
金融领域,利用神经网络技术可以避免传统程序化交易因为无法根据实时发生
的市场变动调整算法,从而造成资产损失的风险。在零售、安防、航空、互联
网等其他不同领域,机器学习都有广泛的应用,它已经使我们的生活产生了巨
大的变化。作为产品经理,更要学习各种算法的实现原理,知道实现机器学习
的必要条件,从而懂得在后续工作中需要重点关注哪些方面的内容,以便运用
机器学习解决问题。 

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐