Trending 纽约vs迈阿密国际中超北京vs恒大意大利队亚洲杯中国队赛程2017f1赛程

DeepMind用AI模拟足球比赛精确控制球员的动作行为与目标导向

原标题:DeepMind用AI模拟足球比赛,精确控制球员的动作行为与目标导向

在一个午后约上三两好友,在郊外的一片空旷地,切磋足球技艺,卸去了一周的紧张与疲惫。足球,已经成为我们日常生活中一项普遍的重要运动。

伴随着人工智能(Artificial Intelligence,AI)逐渐融入日常生活,用计算机模拟复杂的人类行为已经变得司空见惯,例如,将人工智能应用于指纹识别、操控医学机器人等,在为生活提供便利的同时也更高效的挽救了患者的生命。

最近, DeepMind独辟蹊径,将 AI 技术应用于模拟踢足球之中,并将研究论文发表于Science Robotics上,题目是《从动作控制到模拟足球比赛》(From motor control to team play in simulated humanoid football),其研究了在模拟足球场的环境下控制多智能体自身的运动和长距离运动决策的集成方法,通过强化学习算法构建出多时间、多空间、多主体下的 AI 足球比赛。

在模拟的足球比赛过程中,AI 球员从零基础变身为一名合格的足球比赛运动员,需要 50 天的训练时间。

培训 AI 球员的方法是通过构建的虚拟智能体约束 AI 球员做出敏捷的动作,包括:用算法训练单智能体踢球、控制多智能体进行虚拟比赛、提供额外的奖励和实施行为塑造策略等。

这一系列的行为塑造过程能够使系统为 AI 球员自动进行强化学习培训,使球员提升自身的运动技能和团队协作水平,进一步做出更高水平的踢球动作,从而增强足球比赛技能。

除此之外,算法还通过群体模仿训练,为每个智能体动态划分不同目标的优先级,以此提升智能体在群体中的排名等。

同时,学习算法将单智能体、多智能体的深度感知学习与模仿学习相结合,还通过使用不断变换的行为语句,使球员在不同层次上进行动作决策,在简单的动作基础上自动构建更复杂的行为。

一旦单人 AI 球员学会了踢足球,它们需要在学习算法的控制下与一名球员进行比赛,在比赛中自动强化动作。随着他们技能的不断提升,更多的 AI 球员被添加进来参与训练。

最后,项目组将让小团队互相比赛,比如,二对二、三对三。随着 AI 球员对动作行为的构建越来越复杂,就会有更多球员加入进来,直到形成完整的球员数量补充,更接近真实的足球比赛。

足球比赛之中用到的 AI 强化学习算法主要由以下框架构成。首先,为了诱导 AI 球员产生最初的运动行为,项目组创建了人类动作行为片段的运动原始模块,能够根据抽象的运动指令产生瞬时的仿人类运动,自动生成原始动作片段中不存在的动作序列。

然后,为了训练 AI 球员进行长距离的运动(奔跑等),算法利用在单次的足球训练任务中预先训练过的运动模型,训练多智能体进行中等水平的足球运动,由此产生的技能被表示为可重复使用的足球技能,可以进一步随机产生与足球训练相关的不同行为,将行为正规化。

最后,项目组还用注意力感知算法模拟出 AI 球员增量训练的全过程,将球员不断转移至球员数量更多的比赛中进一步训练。

研究结果虽然证实了 AI 强化学习算法在形成复杂运动动作方面的优势,但是,在算法的驱动下,为了使球员专注于动作的协调和控制训练,虚拟的足球比赛将真实的足球比赛规则简化,例如,没有犯规、足球不出界、人数不足等。

因此,实现更接近于现实的 AI 足球比赛还有很长的一段路要走,包括:按照比赛规则更真实地模拟整个足球比赛全过程、通过精进学习算法将更多 AI 球员加入到比赛之中参与训练。

在多维空间及时间上实现硬件机器人的物理动作,一直都是人工智能专家需要解决的问题。因此,运用强化学习算法在硬件机器人上实现复杂的多空间、多维度、多尺度的智能足球赛是亟待攻破的难题。

另外,在短时间与快节奏的驱使下,AI 球员还无法像真实球员一样变换速度、维持体力、保持阵形等,这些更复杂的行为学习算法都在等待项目组进一步攻破。

发表回复

您的电子邮箱地址不会被公开。