射门力量最大的球员【RoboCup,2D仿真球员射门技能中智能算法的应用综述】

　　【摘要】在Robocup仿真比赛中，Agent的动作技能是仿真足球比赛的基础。本文详细分析了robocup 2D机器人足球仿真中射门技能存在的问题，论述了智能算法在机器人足球2D仿真球员射门技能中的应用，并提出了进一步的研究方案。
　　【关键词】模糊控制；BP神经网络；强化学习；Robocup 2D仿真；射门
　　
　　The application of Intelligent Algorithms in the Simulation of Robotic soccer 2D
　　HUANG Ying，CHEN Wei
　　（Guang Dong University of Technology，Automation Faculty，GuangZhou 510090 China）
　　Abstract：This paper summaries the research works on the shoot skill from the view of fuzzy logic，Pattern Recognition and BP neural network，Reinforcement learning and so on.Some of the improving algorithms are also proposed.
　　Key words：fuzzy logic；BP neural network；Reinforcement learning；Robocup 2D simulation；shoot
　　
　　
　　1.引言
　　Robocup（Robot World Cup），即机器人世界杯足球赛，它涉及人工智能、机器人学、通讯、传感等诸多领域的前沿研究和技术集成。机器人足球是在动态不确定环境下对人工智能的考验，是以体育竞赛为载体的高科技对抗，是培养信息、自动化领域科技人才的重要手段[1]。
　　机器人足球作为仿真的实验平台，其有以下特点[2]~[3]：
　　（1）动态实时性。每个仿真周期为100ms，每个agent必须在此期间完成全部的计算并将要执行的动作命令发送给Soccersever，否则将会失去本次动作执行的机会。
　　（2）环境干扰。Soccerserver为了使仿真比赛更加地真实，在环境中生成一定噪声，对每个agent的感知和执行动作进行干扰，不仅影响队员准确的感知环境信息，而且会让队员的动作执行产生误差。
　　（3）合作与协调。同队中的Agent具有一个共同的目标：射门进球。要使用有效的方法进行agent之间的合作，同时解决局部目标与全局目标，个体目标与共同目标之间冲突的问题。
　　（4）受限的通讯带宽。系统不允许Agent之间直接进行信息交换，全部通讯必须由SoeeerServer控制。在一定的仿真周期内，只有有限的消息得到传递。
　　对于每一个球员来说，球员的个人技能是整个球队的基础，没有过硬的技能，上层决策很难实现，因此优化球员的传球、带球、截球、射门等个人技能是非常重要的。但是鉴于RbobCup仿真平台的以上难点，使得仅靠人的经验进行手工编码来处理Agent的所有行为是不可能的。所以很多研究者尝试利用各种机器学习的方法来进行Agent技能的训练。近年来，出现了两大热潮：一是高层决策的改进，二是底层动作的改进，各种理论、智能算法用于仿真球队中，甚至不同的算法相结合应用[4]~[18]
　　机器人足球赛的主要目标就是射门得分。因此射门水平无疑是决定一支球队的关键因素。射门技能的目标是按指定的速度大小和射门方向，将球进行一次或多次KICK进球得分。但是射门情况十分复杂，无法通过纯手工编码实现。所以在射门技术中运用人工智能技术成为必然。在现有的资料中，关于射门技能的资料相对较少，本文主要论述已查阅到的几种智能算法在射门技能中的应用。
　　2.射门技术问题
　　2.1 射门的判断
　　当控球队员在对方区域时，有对方守门员准备扑球，有对方球员随时可能截球，场上情况变化很快，控球球员该怎样决策是否射门？需要考虑那些因素通过什么方式来判断射门的成功性很大而决定射门或者射门成功小而做其他动作？因此在Robocup中，判断球员是否应该射门，这是个相当重要的决策过程，关系到球队的最终性能。
　　2.2 射门最优路径的寻找
　　给定的状态下，控球球员在对方的球门范围内选择某一点射门，使得这一点的进球概率最高。这和很多因素相关。然而，在RoboCup仿真环境下的情况很复杂，状态空间巨大，要直接解决这个问题是很困难的。因为球运动过程中的噪声并不能精确地预测；且射门过程中球移动的距离也不尽相同，对方守门员的行为又不能准确预测。因此，利用简单的分析是不可能的。怎样寻找一个可以避开守门员以及能截到球的对方球员使得射门的成功率最高的点[19]？怎样在动态实时性的环境下，快速的做出正确的射门而不错失射门机会？这些都是射门需要解决的问题。
　　2.3 因素的选择
　　数据质量总是影响着数据挖掘和学习算法的成功率。我们在选择数据时，要考虑识别和消除无关的冗余的信息以提高效率。在robocup2D仿真比赛中，agent在实时、动态、复杂、有噪声的环境中进行比赛，许多参数影响着射门射门结果并且球员必须快速的响应场上的变化，因此，在射门技能中，选择所有因素来进行评估是不可能的。以上两个问题都需要选择相关因素来进行实验。影响射门的因素主要有球的位置、守门员的位置、守门员的速度、守门员的颈部角度、守门员的身体角度、球员的射门位置、球员射门的速度、球员射门的颈部角度、球员射门的身体角度、球和守门员之间的距离，控球球员视觉范围内看到的对方球员的位置等[20]。在运用智能算法的同时，选择哪些因素来更好的实现智能算法使得射门成功率更高呢？这也是很重要的一个问题。
　　3.射门决策中的智能算法应用
　　3.1 射门策略中模式识别的应用[21]
　　当球在己方手里时，球员若想射门，那么要考虑射门的成功率有多大，用一个判别函数来决定成功执行动作的可能性。首先经过信息的筛选确定状态信息，
　　进入比赛环境训练并采集数据。将采集的数据分为两类———成功类和失败类，分别用ω1和ω2表示.设ω1类中的向量个数为N1，ω2类中的向量个数为N2.为方便，将各类的模式又分别记为x(1)和x(2)根据式(1)、(2)、(3)可以计算出各类模式均值mi，各类类内离差阵Swi。再由Fisher变换函数(式(4))计算出判别函数.计算如下：
　　
　　统计在y为一定值下总的试验数N(y)和成功的试验数n0(y)，利用式(5)就可得到该点的射门概率.即
　　 (5)
　　经过实验证明[21]，采用模式识别方法跟没有采用模式识别相比其用一个门槛值来提高了射门的成功率。有助于提高球员的射门成功率。
　　3.2 模糊控制算法在射门技能中的应用[22]
　　射门时有两个依据：对手的站位、自己与球门的距离。根据经验设计使用Mamdani模糊模型的射门判断模糊逻辑推理系统，建立4条规则，系统包含两个输入对手站位情况、自己距球距离；输出为射门成功的可能性大小。建立输入输出变量的隶属度，并把输入输出量输入到四条规则的条件部分的语言量的隶属度函数中，每个规则得出一个输出值。对四条规则的输出值进行最大化操作，采用面积中心法进行去模糊化，得出最后结果。
　　3.3 基于神经网络的射门策略[23]
　　从简单的无防守队员开始训练射门的准确度，然后加上一个防守对员进行训练，最后再加上两个防守队员进行训练，通过让射门的情况越来越复杂，球员在决定射门方向时要考虑的因素也逐渐增加。先用手工编码的方法，假定射门动作分别用9、10、11号来完成，选择射门球员与守门员的X、Y坐标为输入向量，射门点的Y坐标为输出向量。采集尽可能覆盖整个样本空间的射门点数据，让每个前锋进行十场比赛，每个场景就有180000周期可以进行采样。在采集到的数据中剔除射门失败的数据以及输入向量不发生变化的数据和脏数据，将剩下的射门成功的数据送入编写好的MATLAB中进行BP网络的训练，通过不断训练，达到预期的目标，再把训练得出的函数带回原程序，可以更好的优化射门技能。
　　经实验表明[23]：无后卫时，平均射门次数148次，平均进球数50.3，进球率34.0%；有一个后卫时，平均射门次数152次，平均进球数48.4，进球率31.8%；有两个后卫时，平均射门次数149次，平均进球数47.1，进球率31.6%。与手工编码相比，进球率有了很大的提高（约15%），因此应用神经网络，采集足够多的数据来进行训练，可很好的提高射门技能，增加进球数。
　　文献[24]也用了神经网络对射门技能技能进行了优化，但是其输入量只是守门员和射门球员的坐标，输出量只是射门线中点，参考因素太少，而且射门点就选择射门线中点，完全去掉了其他的射门点，考虑的情况太少，覆盖范围太小。
　　3.4 强化学习在射门技能中的应用
　　强化学习把学习看成试探评价过程，Agent选择一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个奖惩信号反馈给Agent，Agent根据奖惩信号和环境信号及环境当前状态再选择下一个动作。选择的原则是使受到正强化(即奖赏)的概率增大。学习的目的就是寻找优化策略：即找到一个从状态到动作的映射，以求得奖赏信号某种量化指标的最大[25]。而Q学习算法是强化学习中应用最广泛的一个。
　　文献[26]基于传统的Q学习基础上，采用模糊神经网络来拟合Q函数，计算Q值，形成Q网，代替传统的Q表的查询。其中，采用BP算法的误差反向传播调整权值，保存调整后的Q值，实现Q值的学习。一个问题是在RoboCup仿真比赛中，其状态集和动作集都很大并且实时多变，这样神经网络的输入输出变量将会很多，由于采用模糊神经网络，网络层数也会增加，这大大增加了计算量，延长了其学习时间。此文提出用基于协调图的局部Q学习来解决上面提到的问题。在Q网的建立中，其输入包括射门球员员与对方球门的距离，射门球员的射门角度，射门球员与对方守门员的距离，射门球员与对方守门员的相对角度，对方后卫在射门路线上的个数，射门球员与对方后卫的距离和角度；射门球员的可选动作有pass，dribble、shoot(射门)、clearball(大脚长传)，receiver的可选动作与传球类似，包括moveYo和intercept。在训练场景的设定上，为增加其随机性，设定了多种场景进行试验，实验结果证明：这种改进Q-学习的Q值能够在更短时间内达到收敛，从而证明了该方法在计算量缩减上的有效性。另外，从曲线的波动上看，传统Q学习曲线波动较大，而改进Q学习波动很小，可见采用模糊神经网络后其在提高学习精度上的有效性。
　　文献[27]基于主智能体的概念改进了传统的群体强化学习算法，应用于射门中，初期球队的成绩没有什么大的进步，这主要有个原因：一是因为状态空间较大，学习得初期值对动作的选择影响不大；二是因为比赛的随机性较大对比赛的影响大于学习得效果，比赛次数逐渐增多，情况变得好转，经过足够多的比赛后，射门的成功率提高了很多也逐渐稳定。
　　4.结束语
　　本文介绍了模式识别、模糊控制和神经网络、强化学习等智能算法在机器人足球2D仿真球员动作技能中的应用。各种方法各有自己的优点和缺点，因此在运用时，需因地制宜。而且目前在多智能体协作策略方面的研究已达到了高潮，把仿真比赛的复杂性推向了另一个高度，在这种情况下，过去的智能算法的训练，其所选的情况相对单一，考虑的因素也过少，已不适应比赛的复杂程度，并且离线学习其鲁棒性较差些，所以在线学习成为我们以后主要的研究方向。
　　
　　参考文献
　　[1]http://www.robocup.org/
　　[2]彭军,吴敏等.RoboCup机器人足球仿真比赛的关键技术.计算机工程,2004年2月.
　　[3]卢武昌,胡山立.RoboCup发展与研究综述.2006年.
　　[4]于美娟.机器人足球(Robocup)仿真比赛中进攻策略的研究与应用.科学论坛,2010年3月.
　　[5]Vahid Salmani等.A Fuzzy Two-Phase Decision Making Approach for Simulated Soccer Agent.Department of Computer Engineering,2006.
　　[6]William R.Plant等.An Overview of Genetic Algorithms in Simulation Soccer,2008 IEEE Congress on Evolutionary Computation.
　　[7]李龙澍等.基于神经网落的批强化学习在ROBOCUP中的应用.计算机技术与发展,2009年7月.
　　[8]李楠,刘国栋.内在激励强化学习及其在robocup仿真中的应用.计算机仿真,2006年4月.
　　[9]Tomoharu Nakashima and Hisao Ishibuchi.Mimicking Dribble Trajectories by Neural Networks for RoboCup Soccer Simulation,IEEE International Symposium on Intelligent Control Part of IEEE Multi-conference on Systems and ControlSingapore,1-3 October 2007.
　　[10]Martin Riedmiller and Thomas Gabel等.On Experiences in a Complex and Competitive Gaming Domain:Reinforcement Learning Meets RoboCup,Proceedings of the 2007 IEEE Symposium on Computational Intelligence and Games.
　　[11]邢字明,白振兴.分层强化学习在足球机器人中的应用.机器人技术,2008年.
　　[12]张长彬.机器人足球RoboCup仿真系统的研究.江西理工大学学报,2007年8月.
　　[13]马勇等.基于Q学习的Agent智能防守策略研究与应用.计算机技术与发展,2008年12月.
　　[14]李亘等.基于单亲遗传算法的RoboCup动态角色分配.计算技术与自动化,2010,3.
　　[15]张家旺,韩光胜等.C5.0算法在RoboCup传球训练中的应用研究.计算机仿真,2006.
　　[16]王罡,陈术彬等.Robocup仿真比赛传球策略研究.计算机工程与科学,2007,10.
　　[17]廖本先,杨宜民,张学习等.自适应遗传算法和RBF网络在传球中的应用.计算机仿真,2010年9月.
　　[18]章小兵,刘艳春等.基于传球评价函数的Robocup传球策略.安徽工业大学学报,2011年4月.
　　[19]ZENGGUANG YANG.STUDY ON SHOOTING SKILL IN ROBOCUP SIMULATOR LEAGUE,Proceedings of the Second International Conference on Machine Learning and Cybernetics,2-5 November 2003.
　　[20]Fahimeh Farahnakian and Nasser Mozayani.Evaluating Feature Selection Techniques in Simulated Soccer Multi Agents System,International Conference on Advanced Computer Control,DOI 10.1109/ICACC.2009.96.
　　[21]程显毅,张俊等.模式识别在Robocup中的应用.江苏大学学报,2005年3月.
　　[22]居泽龙,沈建强.模糊控制技术在机器人足球中的应用.扬州职业大学学报,2006,3.
　　[23]刘亮,李龙澍.基于神经网络的Ro bo Cu p进攻策略.计算机工程与应用,2005.
　　[24]康丽春,姚进.基于神经网络的机器人足球决策系统的研究.机械制造与自动化,2008.
　　[25]丁永生.计算智能理论技术应用[M].北京:科学出版社,2004.
　　[26]吴定会等.基于模糊神经网络局部强化学习在Robocup中的应用.系统仿真学报,2007年8月.
　　[27]张振文等.分布式强化学习在RoboCup中的应用.现代电子技术,2007.

推荐访问:球员射门算法仿真

射门力量最大的球员【RoboCup,2D仿真球员射门技能中智能算法的应用综述】

也许您还喜欢:

最新范文