爆冷!首届大模型争霸,rok下出“神之一手”eepeekimi惨遭淘汰

【新智元导读】AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!

国际象棋全球AI争霸赛来了!

首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗:

闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;

开源的大模型:DeepSeek R1和Kimi K2 Instruct。

首战落幕

今日凌晨1点,这场大赛正式打响了8进4淘汰战:

Gemini 2.5 Pro、o4-mini、Grok 4、和o3,以4-0的碾压式战绩横扫对手,进入半决赛。

而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2没能撑过中盘,就已纷纷崩溃退场。

第二天的半决赛,OpenAI的o3-mini和o3将「自相残杀」,而Gemini 2.5 Pro和Grok 4则狭路相逢

整场赛事由谷歌旗下的Kaggle举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。

谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:

无限扩展性:对手越强,难度阶梯式攀升;

思维可视化:可完整追踪模型的「决策链」,窥见其战略思维过程。

对AI来说,下好一盘棋,比你想象的更难。

比赛共有3场,首赛中DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。

下面,一起回顾一下首场战况吧。

Kimi K2犯规出局

o3不战而胜顺利晋级

四局比赛,Kimi K2每一局都因非法走子被系统判负,最短的对局甚至不到8个回合。

对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi K2就像突然「失明」一般,误读棋盘布局,走出错误的棋子。

面对这样的对手,o3不费吹灰之力,轻松晋级半决赛。

DeepSeek R1中盘掉线

o4-mini轻松将死两局

这是一场「开局唬人,中间崩盘」的比赛。

如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。

但到了某一节点,棋局的质量就会急转直下。

一旦脱离「开局模板」,DeepSeek就开始频频出错:瞄准不存在的棋子、防守并无威胁的空格,甚至走出将自己逼入死角的「自爆式操作」。

相比之下,o4-mini虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。

Claude 4 Opus血战到底

仍不敌Gemini 2.5 Pro

如果说Kimi K2的比赛是「自动退出」,那Claude 4 Opus的落败,则是拼尽全力后的溃败。

在第一局,双方在前九个回合都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。

在第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro手握两只皇后,总子力优势高达32分,本该将Claude「一波带走」,结果他却在进攻过程中挂掉几枚关键棋子。

尽管如此,胜利还是属于Gemini。

而这场对局,也是四场比赛中最接近真正象棋对抗的一场。

Gork 4杀疯了

精准打击,专挑软肋

前三场像是在训练模式,Gork 4一登场,比赛才终于像个「战场」

面对Gemini 2.5 Flash的频繁错漏和无人防守的棋子,Gork 4精准识破、果断出击。

它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以4-0终结比赛。

Gork的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。

马斯克在X上转发了Gork的战绩,只留下一句简单的回应:

订单这只是副作用。xAI几乎没在国际象棋上花什么精力。

没有炫耀,没有过度评价,只是随手转发,仿佛这场胜利只是系统顺手完成的一次功能调用。

但在这场模型犯错频繁、认知失误频出的混战中,Gork 4是少数能「看清棋局并稳定走完」的存在。

从棋盘到智力测试

比赛只是表面,挑战才刚开始。

这场比赛的意义,从来不只是看谁赢了、谁走了更漂亮的一步棋。

它考验的不是棋艺,而是AI的整体理解能力。

游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。

游戏能提供明确无误的成功信号:不是赢就是输,或者平局。

它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。

就在上个月,世界冠军卡尔森在旅行中途虐了ChatGPT一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。

AI甚至没意识到对面是谁——这比输棋更值得警惕。

Kaggle官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。

眼下这场棋,不过是一块测试通用智能的开局小盘。

参考资料:

原标题:《爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰》

THE END
0.象棋ai分析软件排行榜APP推荐象棋ai分析软件排行榜下载豌豆荚象棋ai分析软件排行榜榜单为您提供最新象棋ai分析软件排行榜大全,这里不仅有象棋ai分析软件排行榜安卓版本APP、历史版本应用下载资源,还有类似象棋ai分析软件排行榜的应用推荐,欢迎大家前来豌豆荚下载。jvzquC41yy}/yjsfqwpjc7hqo1hbppicp1>27A;31
1.象棋ai软件有哪些APP推荐象棋ai软件有哪些下载喜欢象棋的朋友可能会对国际象棋或中国象棋有独特的热衷,如果没有奇偶与我们对战,那么我们可以使用手机软件AI进行棋盘对阵。象棋ai软件有哪些?小编接下来为大家推荐几款可以与ai进行对战的象棋软件,包括进行中国象棋对战和国际象棋对战,以满足大家随时随地想要下象棋的需求。 jvzquC41yy}/yjsfqwpjc7hqo1hbppicp1>27A971
2.ChessGPT:免费好用的国际象棋对弈AI机器人国际象棋ai文章介绍了ChessGPT,一个免费的AI对弈平台,适合国际象棋初学者练习。用户可以选择不同难度的对手和提示级别,体验从无提示到全面指导的各种模式,提升棋艺。 对于国际象棋初学者,需要找一个对手来练棋。ChessGPT,就是一个免费好用的AI对弈机器人,非常适合新手来提升,是一个很好的练习伙伴。网站地址是:https://www.chjvzquC41dnuh0lxfp0tfv8FKIEZskkj1ctzjeuj1fgzbkux1359:7?>9;
3.国象联盟国内专业国际象棋平台,国象爱好者与职业棋手们的集合地。200万+注册用户,100万+战术训练题,1000万+国际大师名局棋谱,精彩不断的官方赛事,AI数据分析,开局+残局百科,局面搜索引擎,助你快速提高棋力!jvzq<84ejgytgjxg0pku1
4.ai人工智能象棋辅助软件哪个好人工智能下象棋软件有哪些随着人工智能的发展,近些年来也有不少的新闻传出象棋、围棋大师被ai打败,这一刻人们对ai人工智能的追求达到的顶峰。小编给大家大家带来了一些ai人工智能象棋辅助软件。jvzquC41yy}/:@l0eqs0|qzcplo05<:20jznn
5.Chesswithai|AI工具箱有言AI-3D数字人 阿贝智能-亲子绘本创作平台 英文论文写作 咔片PPT 68爱写-AI论文写作 蝉妈妈短视频营销 笔灵AI小说 Keevx海外视频创作 光子AI电商服饰商拍 易笔论文 堆友AI设计 论文降AIGC率 讯飞星辰Agent 01,327 其他游戏 在国际象棋平台上机智的聊天角色。 jvzquC41yy}/crqqqmsf0lto1uoug|487::/j}rn
6.ChessGPT:免费好用的国际象棋对弈AI机器人ChessGPT:**好用的国际象棋对弈AI机器人 该网站使用了框架技术,但是您的浏览器不支持框架,请升级您的浏览器以便正常访问。ChessGPT:**好用的国际象棋对弈AI机器人jvzq<84yyy4489iqe0ipo8{kfgu04<4342803A48;8?:496a33672?>4;:4tj}rn
7.AI在国际象棋中的应用:从深蓝到AlphaZero在人工智能(AI)领域,国际象棋一直是一个重要的研究和测试平台。从早期的深蓝(Deep Blue)到最近的AlphaZero,AI在国际象棋中的应用已经经历了巨大的变革。本文将探讨这些变革背后的技术演进,并思考它们对现代游戏开发和AI应用商业价值的影响。 国际象棋程序的发展历程 jvzquC41dnuh0lxfp0tfv8|gkzooa=7746>768ftvkimg8igvcomu86693>65@>
8.中国象棋哪个人机厉害?用它练棋进步真快🌟很多人问中国象棋哪个人机厉害,其实关键不是选最强的AI,而是找到能陪你稳步提升的“对手” 。市面上不少智能棋盘只支持单一平台,下久了容易腻,也难进阶。真正的秘诀是——让对局变成一种沉浸式的思维训练 。 最近用了弈狐智能棋盘,真的打开了新世界 。虽然是国际象棋设计,但它兼容多个主流平台,像国象联盟这些都jvzquC41lkgoiqz0vcuccx3eqo5hwjsinqibn89994?`cA7e79ibd=j2g3l1eB6574>dgB;5c5:7
9.免费下载强大的在线国际象棋AI助手:lichessbot强大的在线国际象棋AI助手:lichess-bot 【免费下载链接】lichess-botA bridge between Lichess API and chess engines 项目地址: https://gitcode.com/gh_mirrors/li/lichess-bot lichess-bot 是一个开源项目,由 团队开发并维护,专为lichess.org——一个流行的免 jvzquC41dnuh0lxfp0tfv8lkvdrpih522290c{ykenk0fnyckny03<<959<3:
10.“霍金斯”国际象棋AI的蒙特卡洛树搜索与强化学习技术实现简介:“霍金斯”是一款使用蒙特卡洛树搜索(MCTS)算法结合强化学习技术的国际象棋AI程序。它融合了传统Minimax搜索算法与alpha-beta剪枝技术,以提升决策精准度和效率。AI通过自我对弈学习,不断更新策略以提升棋艺,而无需依赖人类定义的规则。该AI系统可能基于Python语言,利用NumPy、Pandas和SciPy等库来构建。 jvzquC41dnuh0lxfp0tfv8|gkzooa=77;88588ftvkimg8igvcomu867268139;
11.AI国际象棋,不用出门,就能和朋友隔空下棋精彩视频为您呈现AI国际象棋,不用出门,就能和朋友隔空下棋 发布于:2018-09-08 内容简介 参与讨论 评论千万条,友善第一条 登录后参与讨论提交评论0/1000最新视频推荐科氪| 掌机体验天花板?ROGxXBOX ALLY X掌机上手体验上半年超七成二手车经销商亏损,二手车的未来在哪里?光伏板块绝地反击,产能调控政策预期点燃市场“京东造车”话题jvzquC4158qs0lto1xoegx438764