第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐？

作者：科技热闻

2021 年 11 月 23 日
本文字数：2989 字
阅读完需：约 10 分钟

一场发生在王者峡谷的赛事,背后竟然惊动了清华、北大、中科大、电子科技大学……等 20 多所名校的学生和老师?

这不是一场简单的电竞赛事,而是一场 AI 领域的科研赛事——由腾讯 AI Lab、王者荣耀、腾讯高校合作、腾讯游戏学院等联合举办,由腾讯云计算提供底层资源支持的第二届腾讯“开悟”多智能体强化学习大赛(简称开悟大赛)。

不同于常规电竞比赛,选手们并不是亲手操作英雄去战斗,他们的定位更类似于教练,通过编写的程序利用 AI 进行对抗。赛事基于“开悟”AI 开放研究平台举行,依托于腾讯太极机器学习平台,选手可获取“开悟”提供的算法、算力、脱敏数据等资源。

就在上周,开悟大赛在官网发布了初赛成绩。10 支队伍脱颖而出,晋级复赛。

队伍成绩已公布于赛事官网 aiarena.tencent.com

AI 也会“骚操作”

初赛的目标并不复杂:参赛队伍需要训练 AI 学会露娜、鲁班七号、橘右京等三位英雄,并在 1v1 墨家机关道地图中战胜对手的同一英雄,打爆对方的水晶。除了“召唤师”是 AI 以外,整体规则与《王者荣耀》游戏一致。

你可能要说:就这?但达成这个目标,对 AI 来说并不简单。

《王者荣耀》是一款需要玩家根据复杂多变的战场情况进行实时反应,制定策略的游戏,要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此,如何设计 AI 的行为权重、操作触发条件,以及决策是否正确的反馈机制则成为了比赛制胜的关键。

在初赛赛题中,就考查了智能体解决方案,模型结构设计,强化学习算法设计和训练方式探索等 AI 强化学习领域的硬核知识点。

初赛阶段,主办方希望让参赛者能够比较轻松地上手,并在“开悟”平台上体验到 AI 强化学习训练的完整流程。因此,赛事主办方为参赛队伍提供了一份 benchmark,包括了训练所需要的所有环境配置以及基础的算法框架代码,让选手无需关心复杂的游戏逻辑以及搭建训练环境,就能快速掌握训练流程,并专注于核心算法的优化。得益于此,初赛大部分学生都顺利完成了赛题并提交了自己训练出来的模型。

在初赛的一场露娜 1V1 中,我们看到了一次可媲美真实玩家对战的 AI 精彩对决。

“欢迎来到王者荣耀。”随着语音响起,战斗正式打响,双方狭路相逢,在短暂交手试探后,便默契分开,各自靠小兵发育。

接下来,在没有把握完成击杀的情况下,双方并没有选择穷追猛打,而是点到为止的交手了几次,都在血量告急时暂时退避,战况暂时陷入了胶着。

蓝方率先抓住了机会,该出手时就出手,越塔完成了首次击杀。

到了后期战事越发激烈,双方你来我往,互不让步。

最终,蓝方靠着前期积攒的优势,对着红方发起了最后一击。虽然红方露娜在还剩最后一丝血皮时试图撤出战场,但难以力挽狂澜。最终,以蓝方露娜击破红方水晶塔获胜。

可以看到,经过短短两个月的学习和研发,学生们已经交出了可圈可点的答卷。当然,这离不开老师和同学们大量的心血投入。

像电竞教练一样训练 AI

自 AlphaGo 一鸣惊人后,越来越多 AI 研究团队意识到,游戏是 AI 的最佳训练场之一:若 AI 能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。

在游戏环境中开发 AI,这对清华大学计算机系队的陈华玉同学并不陌生,在清华校内就有类似的比赛。但他没有想到,有一天能够将自己的专业与所喜爱的《王者荣耀》游戏结合起来。

在收到老师通知之后,他马上决定参加赛事,并承担起了拉人组队的工作。除了喜欢游戏以外,更主要的原因是“开悟”整合游戏环境、算法、算力、脱敏数据等资源,能够提供一个研究强化学习算法的理想环境。

“之前一直没有机会去做,因为它需要一个非常大的平台,以及大量的计算资源,以个人的能力去做会很困难。”陈华玉说,与他有相同想法的同学很多,招人信息发出去后,马上收到了 20 多份简历。

当然,“开悟”大赛的玩法和普通的游戏局并不一样。来自深圳大学的唐致烨同学是第二次参赛,去年止步于初赛的他今年格外上心,在开赛前就开始研究腾讯 AI Lab 过往几篇关于“绝悟”(达到王者荣耀电竞水平的策略协作型 AI)的论文。

“我们在赛事过程中更像是一个电竞教练。”他这样评价参加“开悟”大赛的体验。“我们要分析玩家在游戏时会考虑哪些因素,然后对这些因素进行思考,也会请擅长王者的队友看视频辅助调参数,挺有趣的。”

陈华玉和唐致烨的队伍都进入了复赛。在对自己队伍的初赛表现进行复盘时,两位都认为,在面对一个比较复杂的研究项目时,队伍内部的分工合作很重要。“有人负责开发,有人负责动作空间,有人专门负责实验。”他们形容,这和玩游戏时的组队奋战有点像,5 个人运用不同的“职业”特长,走在不同的路线上,最终一起攻破水晶。

而在老师的眼中,同学们在比赛中展现出的学习热情更让人惊喜。清华计算机队的指导老师阎栋表示:“现在的这些同学们非常喜欢王者荣耀,利用兴趣驱动去做事,也能提升主动学习积极性。”

尽管平台还有许多需要不断迭代优化的空间,但老师们对它寄予厚望。深大指导老师王旭就非常期待与“开悟”平台的进一步合作:“我期待平台能够进一步开放,与专业课进一步深度结合,形成一个类似于训练或者教育的平台。”

事实上,为普及多智能体强化学习研究,“开悟”早已向高校抛出了橄榄枝。今年 4 月,腾讯“开悟”联合国内多所高校成立了人工智能科教联盟,并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。

王老师的期望也即将变成现实。今年 8 月,腾讯宣布与四所国内一流高校(北京大学、电子科技大学、清华大学、中国科学技术大学)的老师合作开发基于“开悟”平台的人工智能实践课程,理论授课包括但不限于机器学习、强化学习、多智能体决策等相关的知识点,运用王者荣耀作为实践验证场景,以更轻松的方式,传授同学们 AI 相关知识。未来,这一课程将逐步推广向更多有意接入的高校。

我们目标是星辰大海

在接下来的两个月内,选手们将迎来更高难度的复赛——3v3 团体战。这一课题意味着选手需要在设计 AI 时,考虑到多个智能体之间的配合协作。

此外,复赛长平攻防战使用的地图,也比初赛的墨家机关道更复杂。场地分为上野区、下野区和中路三部分,且新增了草丛(可隐藏角色的地图区域)、野怪(击杀可掉落金币)等元素,意味着 AI 拥有了更大的状态空间,且需要考虑不同定位的英雄的奖励函数设计,难度再次升级。

更高难度的挑战,正是参赛者们所期待的。陈华玉至今印象最深刻的,还是初赛期间所遇到的难题,以及解决这些问题时巨大的成就感:“当发现我们想出的数据,真的有助于算法改进的时候,这种感觉还挺好的。”

研究的快乐,也让唐致烨想要探索更遥远的地方:“在比赛过程中,我发现强化学习是挺有意思的一个领域,我未来可能也会往这个方向去走。”

“开悟”的目标则看得更远:赛事希望更高难度的挑战,能帮助参赛者沉淀更多的强化学习研究经验,从而为 AI 与现实场景的结合创造更多可能。

基于游戏虚拟场景,训练 AI 的通用能力,让更智能的 AI 在各领域服务人类,是游戏 AI 研究的核心目标。举个例子,假如 AI 在王者峡谷中,能够快速分析瞬息万变的环境和对手并作出决策,这个能力运用于同样复杂的真实城市路况,就是自动驾驶 AI 的雏形;当 AI 学会了如何控制 5 个队友配合互助,或许就能在工业环境中操作多个机器人,完成复杂的生产任务。

作为国内“AI+游戏”方向的先行探路者,腾讯 AI Lab 已基于“绝悟”、“绝艺”等多项前沿成果,初步将其 AI 技术应用于游戏、医疗等产业。

在“助力产学研,共享 AI 新生态”愿景的引领下,“开悟”希望能够成为这些年轻人们走向星辰大海的第一块阶梯。随着他们的成长,AI 将加速与医疗、工业、农业、交通等更多场景融合,并逐步成为全真互联世界的基建设施,构建未来数字生活新体验。

发布于: 4 小时前阅读数: 7

科技热闻

关注

还未添加个人签名 2021.05.31 加入

还未添加个人简介

发布

暂无评论

创作场景

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐？

科技热闻

评论