原标题:你清除了超级马里奥兄弟吗?基于PPOd4bd3959-3b81-4ca1-93b8-829593947268学习算法AI成功赢得29

超级马里奥兄弟可以玩多少关

说起FC时代的经典游戏,你可能不太熟悉。马里奥叔叔长着一个大鼻子,留着胡子,总是穿着安全带工作服,已经成为80后和90后的许多童年记忆

看着熟悉的马里奥叔叔一路跌跌撞撞地躲避毒蘑菇、锤头龟、戴头盔的兔子和食人族,我感觉自己又回到了童年

超级马里奥兄弟的第一版设置了8个场景,每个级别分为4个级别,共32个级别。我相信很多朋友还没有通过级别

越南元就是其中之一。这位来自德国的程序员说,他只玩了第9关。因此,他决定使用d4bd3959-3b81-4ca1-93b8-829593947268学习AI算法来帮助他完成未能通过海关的遗憾

现在他的AI叔叔马里奥已经成功赢得了29

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡!

但遗憾的是,第4、7、8幕的第4关没有通过。越南 阮解释说,这与游戏规则的制定有关。在游戏结束时,玩家可以选择自己的清除路径,但这可能会导致重复访问同一级别,因此AI无法进入三级游戏

越南元使用的d4bd3959-3b81-4ca1-93b8-829593947268学习算法是openai开发的近端策略优化PPO算法。他介绍说,之前通过A3C代码对Mario进行的培训远不如这一次有效,这次达到29个级别的能力也超出了最初的预期

现在,Vietan Nguyen已经向GitHub发布了基于PPO编写的完整Python代码,并给出了详细的使用说明。感兴趣的朋友可以体验一下:/uvipen/Super- mario- bros-PPO公司-Pytorch 还可以玩dota的AI算法:ppo 据了解,ppo是openai在2017年开发的算法模型,主要用于训练虚拟游戏玩家openai five。该虚拟玩家在2018年的dota2人机比赛中击败了世界顶级专业玩家和99.95%的普通玩家

复杂的游戏环境被研究人员视为人工智能训练的最佳场景。为了使人工智能掌握游戏规则并学会使用策略,d4bd3959-3b81-4ca1-93b8-829593947268学习研究人员常用的机器学习方法之一。它可以描述和解决人工智能主体在与环境交互过程中通过学习策略实现特定目标的问题

近端策略优化PPO算法已成为深度d4bd3959-3b81-4ca1-93b8-829593947268学习中最有效的基于策略算法之一。关于该算法的论文已发表在arXiv预印纸库

文章指出,PPO是新的策略梯度算法,它提出了新的;目标函数和报价;可以通过多个训练步骤实现小批量更新,解决了PG算法中步长难以确定的问题。固定步长近端策略优化算法如下:

(在每次迭代中,N个参与者中的每一个都收集t个时间步的数据。然后,根据这些NT时间步长的数据构造置换损失,并使用minibatch sgd 优化K个历元。)

研究人员表明,该算法具有信任区策略优化(TRPO)的一些优点,但它比它更简单、更通用,并且具有更好的样本复杂度(基于经验)。为了验证PPO性能研究人员对一些基准任务进行了仿真测试,包括仿人机器人的运动策略和Atari游戏的玩法

PPO算法的基准任务测试𞓜 在游戏角色的人工智能训练中,一个基本的功能是进行连续操作和转向。例如,当遇到地面或空中障碍物时,马里奥可以以此为目标进行跳跃和躲避。在本文中,为了演示PPO的高维连续控制性能研究人员使用了一个3D仿人机器人进行测试。测试任务如下:(1)只向前移动;(2) 每200个时间步或到达目标时,目标位置将随机变化;(3) 被目标击倒后,你需要从地面站起来。以下是这三项任务从左到右的学习曲线

从上述学习曲线中,研究人员随机选择了任务2在某个时间的表现。如下图所示,

可以看到,在第六帧的放大图中,仿人机器人向目标移动,然后随机改变其位置。机器人可以跟随方向盘向新目标跑去。结果表明,PPO算法在连续转移控制中有很好的性能,在具体的博弈中也表现得很好;中标率“;怎样研究人员使用Atari游戏集(包括49个)对其进行验证,并将其与A2C和Acer算法进行比较。为了消除干扰因素,三种算法均采用相同的策略网络架构。同时,对其他两种算法进行了优化,以最大限度地提高它们在基准任务上的性能。 ]( .cn/dsp/click?t=MjAyMi0wNi0yMyAxMTowNTozNS43MjAJMTE2LjMxLjIzMy4yNDcJMTE2LjMxLjIzMy4yNDdfMTY1NTk1MzQ1My45NTEzOTYJMDhjYWZiODYtMjNhNi00NWE0LTk5ZTYtMzgxMWZhNTA3Nzg1CTM1OTAyNzQJNzYzNzI1MDY4OF9QSU5QQUktQ1BDCTMyNjIyODEJMTAwMDAwCTAuMDAwMjQ5MjY4MDc5NjQyMjA2NDMJMQl0cnVlCVBEUFMwMDAwMDAwNTYwNTQJNDU5NTQ4OAlQQwlpbWFnZQktCS0JLQkxCS0JLQktCTAJMTE2LjMxLjIzMy4yNDdfMTY1NTk1MzQ1My45NTEzOTYJUENfSU1BR0UJLQktfHByZWRpY3QJLQl1c2VyX2FnZTo2MDA6MHx1c2VyX2dlbmRlcjo1MDA6MHxjcm93ZHM6fHZfem9uZTozMDYwMDI6MHxfY3Jvd2RzOnx1c2VyX3RhZzoyMTM3NzowCTAJMTAwMDAwCTAJLQktCTAJLQkwZDQyZTVmYy03MTI5LTNkZGYtOTkxNy1kNjkwOTc3NzY1NTgJMAktCTAuMDAJMjQuOTI2ODA3OTY0MjIwNjQzCTI0LjkyNjgwNzk2NDIyMDY0MwkxMDAwMDAJMTAwMDAwCTAuMDAyNzM4NzMwMjgzNDU0MDYwNg==& ; 用户ID=116.31.233.247 \u1655953453.951396;认证=e3b19ce271241d59;p=ll9IAO0NO92cfxaHrkv9qcHiMZUhk%2F5%2B3U%2FNHw%3D%3D&;url=%252FA5%252F%26S签名%3Dc2ab968e5b5ec7bf&;符号=2d75b15353f61f98)

如上图所示,研究人员使用了两个评估指标:(1)整个训练期间每集的平均获胜次数;(2) 连续100节课中每集的平均获胜次数 前者更适合快速学习,而后者有利于最终表现。可以看出,指数1中PPO的中奖次数达到30次,小样本中奖率较高。 最后,研究人员还强调,PPO近端策略优化的优势在于其简单易用。只需几行代码即可更改为原来的策略梯度实现,适用于更常规的设置,整体效果更好

更多详情请参考地址:1707.06347

马里奥叔叔的突破视频完整版𞓜 最后一个问题: 在众多经典FC游戏中,如雪人兄弟、绿色军团、忍者龟、双龙和灵魂决斗,你最喜欢哪一款,以及它们是否都通过了海关

参考链接:(leifeng.com leifeng.com(官方账号:雷锋。通用域名格式))

/r/MachineLearning/comments/hy3hry/p_python_implementation_of_proximal_policy/

未经授权,雷锋的原创文章不得复制。详情请参阅重印通知。

相关推荐

《天天向上》元老全部退出,只剩下汪涵一人,这档节目还有救吗?

三哥配配配 篇十二:618中期怎么配?近期高性价比电脑推荐之AMD篇

“研霸寝室”!高校一寝室5名女生全保研

《向往的生活6》发布新海报,黄磊何炅带柴犬奔赴海边

“双琴”组合火了,对线几乎没有天敌,玩家:这就是移动的泉水