如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透
这不仅是 AlphaGo 的问题,许多 AI 系统无法解释,且难以学习如果想让 AI 与人类协作,就不得不解决这个问题现在,来自 Meta AI 等机构的研究者们打造出一个能战胜人类顶级棋手,且更容易复盘棋谱的 AI
他们用人类棋谱训练 AI 模仿,并让后者超越了人类。
上图分别展示了该方法在国际象棋,围棋的表现。
纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top—1 准确度可以看出新的算法在两方面都已经超过了 SOTA 结果
像人类,还能打败人类
正所谓鱼与熊掌难以兼得AlphaGo 使用的自我博弈与蒙特卡洛树搜索,虽然练就了无比强大的 AI,但它的下棋更像凭直觉,而非策略如果要让 AI 更像人类,更应当使用模仿学习,但是这却很难让 AI 达到人类顶级棋手水准
Meta AI 和 CMU 的研究者发现,加入了 KL 正则化搜索后,一切都不一样了AI 的落子策略变得与人类棋手更加相似,这就是他们提出的新方法
piKL—hedge 的执行步骤如下:
在下图中,piKL—Hedge可以生成预测人类博弈的策略,其准确度与模仿学习相同,同时性能强 1.4 倍另一方面,在实现更高预测准确性的同时,piKL—Hedge 优于非正则化搜索的策略
本文共有三位共同一作,分别是来自 Meta AI 的 Athul Paul Jacob,David Wu,以及 CMU 的 Gabriele Farina。
Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生,从 2016 年到 2018 年,他还在 Mila 担任访问学生研究员,在 Yoshua Bengio 手下工作,与 Bengio 共同发表了多篇论文。
David Wu 是 Meta AI 的国际象棋和围棋首席研究员。
Gabriele Farina 是 CMU 一名六年级博士生,曾是 2019—2020 年 Facebook 经济学和计算奖学金的获得者,他的研究方向是人工智能,计算机科学,运筹学和经济学。
另外,Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。
论文地址:
。声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
猜你喜欢
-
游客在进入北京环球度假区时须核验北京健康
具体如下:北京环球度假区继续按照相关政府部门的限流要求,以预约入园的形式加强人流动态监测和...详情
2022-04-28
-
杭州湘湖的草坪人气很高不少人在这里搭帐篷
湘湖边乱搭帐篷,煞了春日风景景区出台最新政策,将设置临时帐篷搭建区,后续还要增设露营服务区...详情
2022-04-14
-
南非徐霞客在云南:从行万里路到吃百碗米线
题:南非徐霞客在云南:从行万里路到吃百碗米线的文化之旅杜安睿来自南非,是一名国际注册会计师...详情
2022-04-10
-
广州新增3例本土确诊病例双层观光巴士全部
广州新增3例本土确诊病例双层观光巴士全部停运广州市政府新闻办公室21日公布的信息显示,过去...详情
2022-03-22