对人胜率,eepind首次在西洋陆军棋中达到人类专家水平deepmind棋盘游戏人工智能纳什机器人

DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。

在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。

西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。

其一,Stratego 的博弈树具有 10535个可能状态,这要多于已经得到充分研究的不完美信息游戏无限制德州扑克(10164个可能状态)和围棋游戏(10360个可能状态)。

其二,在Stratego的给定环境中行动需要在游戏开始时为每个玩家推理超过1066个可能的部署,而扑克只有103对可能的牌。围棋和国际象棋等完美信息游戏没有私有部署阶段,因此避免了Stratego中这一挑战带来的复杂性。目前,我们不可能使用基于模型的SOTA完美信息规划技术,也无法使用将游戏分解为独立情况的不完美信息搜索技术。

由于这些原因,Stratego为研究大规模策略交互提供了一个挑战性基准。与大多数棋盘游戏相似,Stratego测试我们循序地做出相对较慢、深思熟虑和合乎逻辑决策的能力。又由于该游戏的结构非常复杂,AI研究社区几乎没能取得什么进展,人工智能体只能达到人类业余玩家的水平。因此,在从零开始且没有人类演示数据的情况下,开发智能体学习端到端策略以在Stratego的不完美信息下做出最佳决策,仍然是AI研究面临的重大挑战之一。近日,在 DeepMind 的一篇最新论文中,研究者提出了 DeepNash,它是一种无需人类演示、以无模型(model-free)方式学习Stratego自我博弈的智能体。DeepNask击败了以往的SOTA AI智能体,并在该游戏最复杂的变体Stratego Classic中实现了专家级人类玩家的水平。

DeepNash的核心是一种条理化、无模型的强化学习算法,研究者称为Regularized Nash Dynamics(R-NaD)。DeepNash将R-NaD与一个深度神经网络架构相结合,并收敛到纳什均衡,这意味着它学会了在激励竞争下比赛,并对试图利用它的竞争对手具有稳健性。下图 1 b 为DeepNash方法的高级概览。研究者在Gravon游戏平台上将它的表现与各种SOTA Stratego机器人和人类玩家进行了系统比较。结果显示,DeepNash以超过 97% 的胜率击败了当前所有 SOTA机器人,并与人类玩家进行了激烈竞争,在2022年度和各个时期的排行榜上都位列前3名,胜率达到了84%。

研究者表示,在学习算法中不部署任何搜索方法的情况下,AI算法第一次能够在复杂棋盘游戏中达到人类专家水平,也是AI首次在Stratego游戏中实现人类专家水平。

方法概述

DeepNash 采用端到端的学习策略运行Stratego,并在游戏开始时将棋子战术性地放在棋盘上(见图 1a),在game-play阶段,研究者使用集成深度 RL 和博弈论方法。智能体旨在通过自我博弈来学习一个近似的纳什均衡。

该研究采用无需搜索的正交路径,并提出了一种新方法,将自我博弈中的无模型(model-free)强化学习与博弈论算法思想——正则化纳什动力学 (RNaD) 相结合。

无模型部分意味着该研究没有建立一个明确的对手模型来跟踪对手可能出现的状态,博弈论部分基于这样的思路,即在强化学习方法的基础上,他们引导智能体学习行为朝着纳什均衡的方向发展。这种组合方法的主要优点是不需要从公共状态中显式地模拟私有状态。另外一个复杂的挑战是,将这种无模型的强化学习方法与R-NaD相结合,使西洋陆军棋中的自我博弈与人类专家玩家相竞争,这是迄今为止尚未实现的。这种组合的DeepNash方法如上图1b所示。

正则化纳什动力学算法

DeepNash 中使用的 R-NaD 学习算法是基于正则化思想以达到收敛的目的,R-NaD 依赖于三个关键步骤,如下图 2b所示:

DeepNash 由三个组件组成:(1) 核心训练组件 R-NaD;(2) 微调学习策略以减少模型采取极不可能动作的残差概率,以及 (3) 测试时进行后处理以过滤掉低概率动作并纠错。

DeepNash 的网络由以下组件构成:一个带有残差块和跳跃连接的 U-Net 主干,以及四个头。第一个 DeepNash 头将价值函数输出为标量,而其余三个头通过在部署和游戏期间输出其动作的概率分布来编码智能体策略。这个观测张量的结构如图3所示:

实验结果

DeepNash 还与几个现有的Stratego计算机程序进行了评估:Probe 在 Computer Stratego 世界锦标赛中,其中有三年夺冠(2007 年、2008 年、2010 年);Master of the Flag在 2009 年赢得了该冠军;Demon of Ignorance 是 Stratego 的开源实现;Asmodeus、Celsius、Celsius1.1、PeternLewis 和 Vixen 是 2012 年在澳大利亚大学编程竞赛中提交的程序,此次比赛PeternLewis 获胜。

如表1所示,DeepNash在对抗所有这些智能体时赢得了绝大多数的游戏,尽管DeepNash没有接受过对抗训练,只是使用自我博弈。

下图 4a举例说明DeepNash中的一些经常重复的部署方式;图 4b 显示了 DeepNash(蓝方)在棋子中落后(输掉了 7 和 8)但在信息方面领先的情况,因为红方的对手有 10、9、8 和两个7。图 4c 中的第二个示例显示了 DeepNash 有机会用其 9 捕获对手的 6,但这一举措并未被考虑,可能是因为DeepNash认为保护 9 的身份被认为比物质收益更重要。

在下图5a中,研究者展示了积极的唬骗(positive bluffing),玩家假装棋子的价值高于实际价值。DeepNash用未知棋子Scout (2) 追逐对手的8,并假装它是10。对手认为这个棋子可能是10,将其引导至Spy旁边(可以捕获10)。但是,为了夺取这枚棋子,对手的Spy输给了DeepNash的Scout。

第二类唬骗为消极唬骗(negative bluffing),如下图5b所示。它与积极唬骗相反,玩家假装棋子的价值低于实际价值。

下图5c展示了一种更复杂的bluff,其中DeepNash将其未公开的Scout (2)接近对手的10,这可以被解释为Spy。这种策略实际上允许蓝方在几步之后用7捕获红方的5,因此获得material,阻止5捕获Scout (2),并揭示它实际上并不是Spy。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.国际象棋夺冠,AI竞争再升级|财经大事件#国际象棋#AI#OPENAI国际象棋夺冠,AI竞争再升级 | 财经大事件 #国际象棋#AI#OPENAI投资者网 上海 0 打开网易新闻 体验效果更佳女土结婚彩礼二十八万八,婚礼当天要一半八羊下车礼,岩老师出击 搞笑成哥 1跟贴 打开APP 印国防参谋长称:1962年的惨痛教训不再有 一叶禅林 打开APP 道士太神通广大竟要被当街斩首 倾听看影视 434跟贴 打开APP jvzquC41o07757hqo1|0xrigq1\N899OJQ
1.把国际象棋设计进关卡?论脑洞大开的《晶核》魔棋战局就我个人而言,小时候还时不时玩两把国际象棋和AI对战,但后来娱乐方式主要依靠手机以后,已经很少享受这种对弈的乐趣了,让我万万没有想到的是:我下一次看见国际象棋,居然是在一个动作手游《晶核》之中。 在朝夕光年推出的最新魔导朋克题材动作手游《晶核》中,“最强AI”就布下了一场由紧张刺激的BOSS战构成的魔棋战局——特色各异jvzquC41pg}t0|npc0ipo7hp1u~04975/2<.594fgvgjn6no{|ggkv623;7947xjvor
2.种族主义国际象棋数据集大猩猩博主油管AI“YouTube AI算法因种族主义而将 'Black' 和 'White'混淆,从而封禁了一个国际象棋频道。” (虽然没有明说,但大意是将黑棋和白棋混淆成黑人和白人。) 原来是在几个月前,一位在国际象棋视频圈内很出名的YouTube博主Agadmator,表示他的YouTube频道被官方封禁,是因为他的视频中包含来该网站所谓的“有害和危险”jvzquC41yy}/ew2jgcrujlftg0ipo8ftvkimg€r142822;761euovnsv/37:4=880jznn
3.象棋软件最强手机版免费下载象棋AI对战软件下载随着科技的发展,人工智能(AI)的概念正在走进千家万户中。当然,象棋也不例外,很多象棋游戏软件中都引入了AI对战模式,一个人闲时也能享受象棋棋力博弈的乐趣,AI对战模式也分难度等级,选择适合自己的AI难度对手,还是可以尝试一较高低的。本站专jvzquC41yy}/5;w0eqs0|}4zstp{s8
4.信AI排行榜,不如信它们的游戏排位分数。相比那些传统排行榜,国际象棋考验的是一套无法靠刷题速成的综合能力,更能展示出一个大模型的思考、涌现能力。 过去,我们要想知道哪个模型牛,主要看两种榜。 第一种就是 AI 竞技场 LMArena,可以把它理解为大模型圈的《蒙面歌王》。 你随便问个问题,它给你两个匿名模型的回答,你觉得哪个好就投哪个。 jvzq<84yyy4{ctjt0pku1wjyu1gsvrhngatfy7ujrAvl??=c2chg7Aj;h2?52k<46cigd
5.AI“应用商店”来了!OpenAI首批70个ChatGPTPlugin最全梳理“开始一场大师级别的AI国际象棋比赛。” “我们来下盘棋吧,我从西西里防御C5开始。” “下盘棋,你先开始。” Web Pilot 功能:根据一个或多个URL, 浏览网页内容并生成摘要、总结、翻译等内容。 基本提示:“根据该URL生成文章摘要。” 高级提示: “生成该URL上文章的详细摘要。” jvzquC41ycrmu}wggvio0lto1cxuklqgu197:A<7;
6.DeepMind推出AlphaZeroAI:国际象棋/围棋/将棋通杀|将棋|国际象棋|围棋AlphaZero 是一款能够从头学习围棋、象棋等棋子游戏的新型人工智能平台。在三款棋类比赛中,AlphaZero 将三款 AI 都挑落下马。 ● Stockfish:国际象棋 AI 世界冠军; ● elmo:2017 年度世界计算机将棋锦标赛冠军; ● AlphaGo Zero:DeepMind 自家的围棋 AI,被誉为史上最强选手。 jvzquC41vgii0|npc0ipo7hp1tumn8723:32465:1fud/rmowv{fe@5963870|mvon