返回 登录
0

AlphaGo赢了第一局,但机器学习泛化能力仍待提高

上了数以千计的CPU和上百的GPU,AlphaGo在与李世石的挑战赛中赢了第一局。除了算法的设计,这还是计算的胜利,用DeepMind公司研究负责人David Silver的话说,职业棋手在考虑下一手布局时,每秒可以考虑到100种可能的棋路,但AlphaGo每秒可以考虑到10万种棋路,计算速度也比人类更快。

那么,在机器学习一端呢,程序员们怎么说呢?

图片描述

李理:面对顶尖高手,AlphaGo只有残局搜索速度的优势

李理,出门问问NLP工程师

没想到第一局AlphaGo就取得胜利,作为对人工智能感兴趣的码农,我既感到高兴又不免有些伤感。高兴是因为我们可以“创造”出比我们自己“聪明”的机器,伤感就像教拳击的师傅看到徒弟的水平已然超过自己,不免有“老了,不中用了”的感叹。另外还有那么一点点失落和担忧:那些花边新闻不再会有我的出现了,失落之感油然而生。而且这孩子太天真,以后很容易被社会上不好的人带坏。

但这是大势所趋,不可避免,长江后浪推前浪,人工智能会在很多领域超过人类,这是我们不得不承认的事实,但是我们还是不愿意承认这个残酷的事实。力量比不过机器我们比“智能”,计算比不过我们比逻辑,象棋比不过我们比围棋,……,突然有一天我们发现找不到这样的事情了,我们做何感想?我认为这一天迟早会来的,但希望再我的有生之年不会到来(但我们做人工智能不就是希望这一天的到来吗?)。也许是我们的世界观太过狭隘,我们应该欢呼这一天的到来?

当然我觉得这一天还是离我们很遥远的,而且也不是太坏的事情,我们想象中的外星人都是来毁灭地球的,是不是因为我们的文化都是强调竞争而不是协作呢?从某个角度来说,确实处处是矛盾:老板赚得多员工赚得少,码农月新高农民辛苦一年报酬少,农民把动物的家园从森林砍成耕地,蜜蜂窃取花的糖分……。

但是换个角度来看,整个地球是一个协作的生态系统,植物把太阳能变成动物能吸收的食物,老板通过对外宣传来推广我们的产品和协调我们的长短期计划。马龙通过程序交换信息从而更好的帮助人类实现商品交换……。

从某种意义上讲,机器智能也是人类智能的一部分。比如我们通过各种工具来扩展我们的能力,用机器来增加力量,用汽车飞机来提高速度,用望远镜和显微镜来提高视觉能力,这是“非智能”的工具。但是竹木简,造纸术和计算机磁盘扩展了我们的“记忆”。记忆能力在中国是非常看重的能力,很多“天才”,都是记忆力超出常人,我们认为一个小孩聪明,经常会说他六岁就能背诵唐诗三百首。这可能是因为中国作为一个几千年的农业国家,很多都是经验的积累,因此记忆能力至关重要。但是到了现代,人脑外部的存储已经很方便了,再过分强调记忆力就容易培养死记硬背的书呆子了(用机器学习术语就是过拟合)。

但是我们还是认为人类是特殊的,比如有情感,比如有灵感,比如有抽象能力,能通过有限推广到无限(比如数学里的极限),……。这些能力不管是被上帝赋予的还是人类“生下来就有的”(那第一个人怎么获得这么bug的技能的呢?),反正我们就认为其它“东西”是不可能拥有的。(虽然我个人认为人类没有任何特殊的能力,就不展开讨论了)

我们假设有一项特殊能力只有人类会有,那么我们就不可能制造出类似甚至超过人类的机器,那很好吗?我们失去了这项非常重要的创造力!反过来看,如果我们承认人类没有特殊之处,那么之前有可能我们能有这样的能力(通过人类甚至人类加机器的努力)。

扯得太远,我们还是回到围棋和AlphaGo上面。现在AlphaGo已经全面超越人类了吗?我个人认为还不见得。我在大学的时候写过一个简单的黑白棋(othello,reversi)程序,写得很一般,尤其是开局的估值函数。玩过黑白棋的同学可能都知道,开局时要尽量占据边和角,中间棋子太多反而不好。我的这个黑白棋程序开局不行,但是到了还剩20步棋时它就能穷举所有可能了。我一般和它下时会让它弹出一个对话框告诉我当前电脑计算出来的最优结果。经常是开始得分是-20(这表示我如果下的完美,我最终比电脑多20个子),但下着下着就变成-16、-8……,最后常常被翻盘。

从昨天AlphaGo的表现来看,包括柯洁在内的很多人都认为电脑开局还行,但偶尔有些小问题,中局较差,而残局很恐怖。而李世石也是类似风格(之前好像有个李昌镐更是这样?)。但比残局计算,李世石可能是人类中的高手,但计算机更胜一筹。所以柯洁认为自己对AlphaGo的胜率会比李世石高。我比较认同这个看法。

从围棋原理来分析,开局其实人类离“上帝”差得太远,也许我们今天觉得很好的布局定势其实是个大坏棋也不一定。更多的是靠以往的经验,比如水平差不多的人下棋,走这个定势就比那个胜率更高一些,我们就认为这个好一些。目前AlphaGo对于开局也是靠人类高手学习出来的对局库学习出来的Value Network,当然开局也有MCTS的搜索,但从开局模拟对局到游戏结束需要的时间更多,可能性也更多,所以“看起来”电脑的布局更像是“背棋谱”,也就是很像人类高手的走法。从人类的策略来说,开局是非常关键的。因为神经网络需要大量训练数据,超一流棋手的对局少,所以AlphaGo只能学到一流高手的棋感,而开局MCTS的帮助就没有那么大。

而到了残局,虽然MCTS不是穷举,但是由于搜索的速度加快,从而模拟对局变多,从概率上来看趋近最优解,而人类高手总有算错算漏的可能性,所以这是劣势。而中局就比较复杂,需要平衡搜索和局面判断,我认为AlphaGo借助搜索能稍微超过一流高手但会弱于顶尖高手甚至可能出现明显的弱手。所以也是李世石需要下的强硬并扩大先手的地方。

但还是那个老问题,人类残局会算错,即使从棋理上应该获胜的棋也可能下输,尤其是如果心理压力大的情况下计算更容易出错,而计算机就不会(这也是为什么情感不是智能生物必须的一个论据)。就像常昊跟李昌镐下棋,到了后面就是下不过,不服都不行。所以今天的比赛至关重要,如果输了那就基本0:5了,而赢了的话很可能4:1。

总结一下(希望被再次打脸)我个人的观点和对李世石的建议:开局选择自己最拿手的,能用超一流棋手的棋感拉来和一流棋手的差距,中局稳打稳扎,利用机器的小失误扩大领先,残局计算要控制好情绪,不要优势就放弃(劣势也顽强一点吧,虽然看起来是无谓的垂死挣扎,电脑不会给你任何机会的),另外可以考验一下电脑应付打劫的能力,这个更多靠“抽象和泛化”,少量的训练数据深度学习应该还是学不出来的。

李理对AlphaGo的更多解读:
AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(一)
AlphaGo对战李世石谁能赢?两万字长文深挖围棋AI技术(二)

张峥:AlphaGo无破绽,问题在于机器学习

张峥,上海纽约大学计算机科学教授、前微软亚洲研究院副院长

仔细读过AlphaGo,没觉得有什么破绽。在自己左右手互搏中的计算价值那部分为了效率用了“快棋”策略,可能粗糙些,但下得多可以弥补。有网友提出的和李世石比赛会“偷招”这个倒不用担心,五局的样本对机器没用,它不靠这个,靠的是工程上高效率、策略上粗枝大叶但大方向正确。

AlphaGo胜利的概率是100%,只不过不见得是这次。“毛病”还是机器学习的老毛病。表现在:

  • 无法总结规律,或者说无法吐出一套规整自洽的规律;
  • 泛化能力差,无法在复盘中举一反三,即便告诉它哪步走错了,恐怕它也不知道为啥,只是一气儿死磕到撞了南墙才完事。

田渊栋:增强学习还有很长的路

田渊栋,Facebook

在AlphaGo中,增强学习(Reinforcement Learning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在AlphaGo中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(Supervised Learning)以训练出更好的模型。在这方面增强学习还有很长的路要走。

本段著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:田渊栋
链接:AlphaGo的分析
来源:知乎

周志华:

周志华,国际人工智能学会成员、南京大学计算机系教授

围棋AI迟早会战胜人类。但仅凭深度学习+强化学习+蒙特卡洛树搜索等老技术,似乎很难达到人类顶尖棋手的水准。

AlphaGo的未来

  1. 挑战《星际争霸》。
    谷歌研究员透露开发AlphaGo的DeepMind公司总裁正考虑将人工智能目标转移到游戏上,并以星际争霸作为开始项目。星际争霸的玩家除了视觉观察之外还需要理解一些其他问题,AlphaGo要面对的挑战是和围棋在不同层面的。

  2. 解决更多的通用问题。

    • David Silver:AlphaGo属于通用程式,人们可以使其学习医疗数据,掌握治疗方法,并可以利用它制造出做各种杂务的家用机械人。
    • 田渊栋:与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。
    • 周志华:算法无法直接复用于其他领域,但算法精神可以应用。

责编:周建丁(zhoujd@csdn.net)

评论