扫描二维码关注官方公众号
返回列表 发布新帖

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案 ...

449 0
发表于 2024-10-1 14:32:26| 字数 1,418 | 查看全部 阅读模式 来自 湖北
小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。
ucR1nfgF0U2JsxP5.jpg




有方向感,视角也没有问题。
CGWPg44gG3XdG3G0.jpg




躲闪劈棍很丝滑。
S84uuNAV4eJHFTuD.jpg




甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。
A9klUgIclWsgGWY6.jpg




而且是完全使用大模型玩,没有使用强化学习
阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。
它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。
以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。
GPT-4o、Claude 3.5都来迎战
研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。
Mol7TmvvyrW78JV8.jpg




他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。
每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。
i5j4piXI4HMgFfWj.jpg




然后,他们提出了VARP智能体框架。
主要包含动作规划系统和人类引导轨迹系统。
其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。
人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。
L8gr4851hHz5H1TZ.jpg




同时VARP还包含3个库:情景库、动作库和人工引导库。
这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。
动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。
动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。
SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。
lozP65uj62x9OlZ4.jpg




框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。
对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。
到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。
但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。
D224zfNsM4C4pSpl.jpg




另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。
以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。
如上研究来自阿里团队,一共有5位作者。
SlSkKlP07KTkseNc.jpg




后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。
One More Thing
AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。
利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。
但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。
论文地址:
https://arxiv.org/abs/2409.12889
项目地址:
https://varp-agent.github.io/



来源网址:https://www.163.com/dy/article/JCN0NB2A0511DSSR.html

免责声明

信息及内容: 内容仅代表用户个人观点,与本论坛无关。本论坛不保证内容的准确性、完整性或时效性,使用请自行判断和承担风险。

法律责任: 用户对其发布内容负全责,包括但不限于版权、隐私、诽谤等。因使用本论坛内容导致的任何损失,本论坛不承担责任。

版权与隐私: 请勿发布侵犯他人版权或涉及隐私的信息。发现侵权行为,请立即联系我们处理。

第三方链接及广告: 本论坛不对第三方网站或资源的内容负责。用户因访问或使用第三方内容或广告进行的交易和产生的损失,本论坛不承担责任。

用户行为: 用户需遵守论坛规则和法律法规,不得发布违法、侮辱性或不恰当内容。我们有权删除违反规则的内容并采取相应措施。

联系我们: 如有疑问或发现违规行为,请联系管理员:865817711@qq.com

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

865817711@qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加微信客服
Copyright © 2001-2025 第一论坛网 版权所有 All Rights Reserved. 浙ICP备2023009069号-17|浙公网安备33010602013740号
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表