AI 在游戏策略学习中的应用
资讯
Atari 游戏、围棋(如 AlphaGo)或《星际争霸》等环境中,游戏规则明确,边界清晰,研究者可精确控制变量(如难度、初始状态、随机性等),确保实验的可重复性。
策略游戏《神奇宝贝》画风简单,但包含的角色、属性、战术、体系等,都让人类玩家感到「入门容易精通难」。
《超级马里奥兄弟》再次刷新了大模型性能测试基准的上限。
评测集
通过LLM Agent玩游戏
游戏集合
分析:
Surprisingly, even the most advanced reasoning models excelling in math and coding struggle with tasks that are intuitive to humans, such as determining exactly which block to stack on top of another in Tetris.
From the rankings, several insights emerge:
没想到,即使数学和编码方面表现出色的推理模型,在对人类简单的任务上也会举步维艰
排名中得出几点见解:
总结
Claude 3.7综合实力最强, o3/o4系列推理模型擅长二维游戏(推箱子/消消乐), GPT-4o 游戏水平一般;
《超级马里奥》成为检验大模型的新试金石,目前 GPT-4.1/Claude 3.7 表现较好
GamingAgent 功能:
GamingAgent 特点:
AI 模型试验场
GamingAgent 模拟器为 AI 提供基本指令和游戏截图
四个大模型挑战超级马里奥兄弟 1-1 级的结果。
实时游戏场景表现不佳:
动图
“活的长安城”是一个还在演进中的“AI社会”,背后由一个名叫GAEA的技术系统驱动。
而以“活的长安城”为代表的“AI社会”具备以下特点:
这也导致在身处“AI社会”的AI NPC,与其他虚拟世界如游戏中的NPC有很大不同。
GAEA分为灵魂系统和环境系统两个子系统
斯坦福和谷歌的一项新研究
这些AI NPC不仅会像人一样生活,如作家就去写作、店主就去经营商店,而且他们彼此之间还会发生交互,甚至产生对话:
玩腻了推特和微博?有个新的社交平台火爆外网
所有用户背后没有真人操控发帖、互动,主打的就是一个纯纯的AI路线。最重要的是,他们丝毫没有意识到自己是虚拟世界的AI。
通过让llm agent玩狼人杀,观察过程中涌现的“信任、对抗、伪装和领导”现象
狼人杀
狼人杀、谁是卧底、扑克等游戏的共同点是:
每位玩家需要根据自己掌握的信息推理和决策下一步的行动,进而实现自己的游戏目标。
以往有研究工作对这类问题进行过研究。
例如,有人使用规则分析来玩狼人杀,也有人使用强化学习和内容模板完成对局。
但以往的工作普遍存在共同的局限性:
LLM的出现为构建聊天游戏智能体并克服上述局限带来希望。大模型具有出色的自然语言理解和生成能力,也具有一定的决策能力。在这篇研究工作中,作者尝试探索使用LLM解决这类问题的效果。
LLM新的涌现策略行为:信任、对抗、伪装和领导
这七个ChatGPT的对话中体现了人类游戏中的信任(trust)、伪装(camouflage)、对抗(confrontation)、和领导(leadership)。
四个关键点,分别是有价值信息V、经过选择的提问Q、反思机制R和链式思维推理C。
消融实验结果表明,其中Q和C对的玩家发言合理性(由人工进行评判)的影响最大。
拜年之巅是一款家庭聊天冒险游戏,以亲戚们的群聊为背景,通过互动对话和选择来影响亲戚们的情绪。游戏中有九种亲戚角色,每个角色都有不同的性格和对话反应。你的聊天方式将影响游戏的进程和结局。此外,游戏还提供成就系统和隐藏家庭成员,玩家需要解锁白金奖杯等各种奖励。拜年之巅通过轻松幽默的方式,让玩家在传统受压抑的家庭场景中体验不同的互动和娱乐。
需求人群:
使用场景示例:
产品特色:
大模型玩宝可梦游戏,能力进化:
这个智能体通过三种关键策略来优化决策和策略。
谷歌CEO 官宣: Gemini 2.5 Pro 直播中通关《宝可梦蓝》, 成为首个宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型
完成长串行动,走到目标位置后,Gemini 2.5 Pro 足足思考了40多秒,消耗76011个token,才开启下一步的行动规划。
Gemini 玩宝可梦的基本步骤:
随着 GPT-4 与 Midjourney、DALL•E 3 等 AIGC 工具的强强联合,其带给游戏行业的震撼不是一星半点。
把草图变网站,用几秒复现一款经典小游戏…
昨日,正值万圣节之际, 外国小哥Javi Lepez使用 Midjourney、DALL•E 3 和 GPT-4 打开了一个无限可能的世界,重新演绎了无数 80、90 后青春回忆中的经典游戏“愤怒的小鸟”,推出了其翻版——“愤怒的南瓜”(Angry Pumpkins)
整个过程使用到了不足 600 行的代码,Javi Lepez 坦言,「没有一行是自己写的,但这却是最具挑战性的部分」
Javi Lepez 选取了一张背景图
使用了 Midjourney 对它进行了修改,Prompt 为:
iPhone 屏幕截图中《愤怒的小鸟》天际线,改为万圣节版本,(配上)墓地,以浅海蓝宝石和橙色为主题,新传统主义,kerem beyit,earthworks,木头,Xbox 360 图像,淡粉和海军蓝——比例为 8:5
得到的图像如下:
游戏里的一切,不再靠预设剧本或物理引擎控制,而是由一个AI模型实时生成,确保两名玩家看到的是同一个逻辑统一的世界。
Multiverse 已经全面开源:代码、模型、数据、文档一应俱全,全都放到了GitHub和Hugging Face上。
传统AI世界模型原理
一旦引入第二名玩家,问题就复杂了。
以前AI很难搞定:多视角一致性
Multiverse 正是第一款能同步两个玩家视角的AI世界模型,无论哪个玩家发生了什么,另一个人都能实时在自己画面中看到,毫无延迟、无逻辑冲突。
构建真正的协作式多人世界模型,Multiverse 团队方案保留了核心组件, 同时把原本的“单人预测”思路全打碎重构:
本来,处理双人画面,很多人第一反应是分屏:把两幅画分开,各自生成。
这思路简单粗暴,但同步难、资源耗、效果差,但将两个玩家的视角“缝合”成一个画面,将输入合并为一个统一的动作向量,整体当作一个“统一场景”来处理。
扩散模型采用的是U-Net架构,核心是卷积和反卷积,而卷积神经网络对通道维度的结构感知能力极强。
实现方法
yolo8,6k张图片训练。
DQN 如何运算?
网络模型
环境
DQN 玩俄罗斯方块
Features
Reward system 1 (NES Tetris)
改进版:二维俄罗斯方块
BlockBlast reimplementation + RL agents
作者回复还在开发:
依赖包
DeepMind开发出过一个能在57款雅达利游戏上都超越人类玩家的智能体,背后依靠的同样是强化学习算法。
混沌球算法提升游戏交互体验
仿真引擎工作方式
机器人的公园漫步
待定
第一届“AI 国际象棋棋王争霸赛”正式开打
国际象棋等游戏具有结构化和可量化的胜利标准,能够考验模型的策略推理、长远规划和动态应变能力,并随着对手强度的提高而自动提升难度。
谷歌 DeepMind 早在 2017 年就通过 AlphaZero 项目证明了自我对弈的威力:
不过,参加 Kaggle 对决的模型并非专用棋类引擎,而是以大型语言模型(LLM)为代表的通用 AI。
参赛选手: 8个模型
比赛机器
所有比赛都是一边倒的情形,获胜模型都是 4 局全胜。
这些模型棋力还远低于 AlphaZero,多数仅处于业余水平,并且经常出现非法落子或荒唐认输等错误——在直播中也屡见不鲜,而且有的大模型还很执着,即使给它重新思考的机会,它也经常固执己见