摘要:去年,时任微软全球执行副总裁沈向洋在 2019 世界人工智能大会上宣布,微软亚洲研究院开发出了世界上最强的 " 麻将 AI" —— Suphx,并在国际知名专业麻将平台 " 天凤 " 上荣升十
去年,时任微软全球执行副总裁沈向洋在 2019 世界人工智能大会上宣布,微软亚洲研究院开发出了世界上最强的 麻将 AI —— Suphx,并在国际知名专业麻将平台 天凤 上荣升十段,其实力超越该平台公开房间顶级人类选手的平均水平。
游戏是人工智能算法研究的重要试验田,其环境的复杂性和信息的不确定性是机器学习的最佳训练场。
那么麻将 AI 到底有哪些难点?Suphx 在游戏 AI 领域的跨越性突破具体是如何实现的?麻将 AI 落地的最终目的又是什么?在 2020 世界人工智能大会上,《每日经济新闻》记者尝试从微软亚洲研究院方面找到答案。
用麻将 AI 破译非完美信息博弈
微软亚洲研究院副院长潘天佑向记者表示: 大家都知道下围棋的 AlphaGo,牌类游戏相对棋类来说更为困难,而牌类游戏中最复杂的就是中国人的麻将,麻将中蕴含太多不确定因素,但我们的研究员就接受了这样的挑战。
微软亚洲研究院副院长刘铁岩和他的团队是麻将 AI 算法的开创者。
想要训练 AI,把麻将真正打好是一件很困难的事情。 刘铁岩表示,象棋和围棋虽然看起来很难,但其实都是完美信息博弈,也就是说对手的所有信息我们都一览无余。这种情况下,AI 可以通过它强大的计算力来枚举各种可能性,从而找到制胜的策略。
而麻将则完全不同,充满了随机性和不确定性。首先玩家只知道自己手里的 13 张牌和之前打出去的牌,却无法知道别人的手牌和没有翻出来的底牌。牌局中存在着大量不可知的隐藏信息,因此麻将属于非完美信息博弈。
海量不可见的隐藏信息使得 AI 很难挖掘出从已知牌面到最优策略之间的逻辑链路,在非完美信息博弈中,麻将属于非常复杂的类型。 刘铁岩举了一个例子,麻将牌有 136 张,在开局时的排列组合是 6 人德州扑克的 10 的 90 次方倍;开局后一个玩家的手牌确定了,但他看不到其他三个玩家的手牌,这些隐藏信息有高达 10 的 48 次方种可能。
巨大的状态空间和隐藏信息及其带来的不确定性使 AI 模型很难使用传统的蒙特卡罗数搜索算法。刘铁岩表示,但从另一角度而言,一旦成功可能会让 AI 具备前辈们没有的新智能。
微软亚洲研究院的研究员是一群好奇心很强的人,在这种好奇心的驱动下,我们不断探索未知,寻求答案,因此决定通过麻将 AI 来破解非完美信息博弈。 微软亚洲研究院首席研究员秦涛表示,团队采用的是基于强化学习的自我博弈技术,使得 AI 能够自我学习,自我提高。
目的是解决高度复杂的现实问题
棋盘游戏是人类智能的体现,游戏 AI 成为机器智能寻找突破的阵地。在过去的 30 年里,AI 在象棋、围棋等游戏中都逐步战胜了人类。但 AI 真的已经如此聪明了吗?
秦涛说: 可能大家不太相信,其实我们这帮研究员都是麻将菜鸟。但是我们也能训练出非常厉害的麻将 AI。
在训练过程中,刘铁岩团队利用隐藏的信息,从 上帝视角 对 Suphx 进行了线下指导。 正是因为有太多的隐藏信息,所以我们引入了一个‘上帝视角’,它知道所有的完美信息,可以利用这个完美信息下的最优打法来指导 Suphx 的学习过程。另一方面,完美信息也可以告诉 AI,一个牌局的输赢是因为打得好,还是因为牌面的运气好,这样可以提供更有效的学习方向。
经过一段时间的线下训练,Suphx 可以在专业麻将平台与人类玩家进行线上实战,实战中因为手牌和底牌千变万化,因此 Suphx 也需要随机应变。于是,刘铁岩团队又提出了动态自适应技术,使得 Suphx 能够在牌局中随时调整策略,决定何时进攻何时防守,提高胜算。
在微软亚洲研究院看来,麻将 AI 不是为了在麻将桌上打败人类,而是让人类从另一个角度来看待世界,比如解决问题的全新思路,增强人类智能。就像 AI 在打麻将时,面对着巨大的不可知信息,我们的生活也会在随时出现突发情况或黑天鹅事件。从这个意义上讲,麻将比任何棋牌都要更加接近真实世界。
潘天佑表示, 这种机器学习的技术可以应用在更多现实场景中,例如我们将先知教练的算法应用在 AI 投资领域,场景上和麻将也是有类似之处的,都具有相当丰富的隐藏信息 。
我们希望 AI 在非完美信息博弈领域的突破,有助于解决高度复杂的现实问题,帮助人类应对更多更大的挑战。 刘铁岩说道。
相关文章推荐
新网新人专享,注册领SSL证书百元神券2022-09-15
新网与亚洲诚信达成战略合作,携手共建安全云生态2022-09-06
企业网站没有SSL证书,你将面临......2022-09-27
SSL协议、TLS协议,有什么区别?2022-09-26
网站跳出率高?可能是没装SSL证书2022-09-26