搭建自定义OpenAI Gym环境,设计自己的机器人

2019-03-12  本文已影响0人  fitsir

Gym是一个用于 测试和比较 强化学习算法的工具包,它不依赖强化学习算法结构,并且可以使用很多方法对它进行调用,像TensorFlow、Theano。

Gym库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好的工作。并且含有游戏界面,能够帮助你去写更适用的算法。

搭建Gym仿真环境

conda create –-name gym python=3.6
git clone https://github.com/openai/gym.git
cd gym
pip install -e '.[all]'

测试gym环境

import gym

env = gym.make('CartPole-v0')
env.reset()

reward_sum = 0

for _ in range(1000):
    env.render()
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)
    reward_sum += reward
    if done:
        print('reward_sum:', reward_sum)
        reward_sum = 0
        env.reset()

测试MuJoCo环境

import gym
env = gym.make('InvertedPendulum-v2')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .
git clone https://github.com/openai/baselines.git
cd baselines
pip install -e .

测试 Gym 和 Spinning Up、Baselines 环境

# 运行
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
# 查看结果数据
python -m spinup.run test_policy data/installtest/installtest_s0
# 查看仿真动画
python -m spinup.run plot data/installtest/installtest_s0
python -m baselines.run --alg=ppo2 --env=CartPole-v0 --network=mlp --num_timesteps=2e7

设计自己的机器人流程

  1. myrobot.xml, 机器人模型文件,位于gym目录下envs/mujoco/assets目录下
  2. myrobot.py, 位于gym目录下envs/mujoco目录下
  3. 修改envs/mujoco/__init__.py文件,在最后增加
from gym.envs.mujoco.myrobot import MyRobotEnv
  1. 修改envs/__init__.py文件,在最后增加
register(
    id='MyRobot-v0',
    entry_point='gym.envs.mujoco.myrobot:MyRobotEnv',
)
  1. 测试模型
import gym
env = gym.make('MyRobot-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

myrobot.xml文件

xml文件的模板为

<mujoco model="MyRobot">
    <compiler angle="degree" coordinate="local" inertiafromgeom="true" />
    
    <option integrator="RK4" timestep="0.01" />
    
    <custom>
    </custom>

    <default>
    <!-- 一些默认值 -->
    </default>
    
    <asset>
    <!-- 一些变量定义 -->
    </asset>
    
    <!-- 实体模型 -->
    <worldbody>
    <!-- 光照 -->
    <light cutoff="100" diffuse="1 1 1" dir="-0 0 -1.3" directional="true" exponent="1" pos="0 0 1.3" specular=".1 .1 .1"/>
    <!-- 地板 -->
    <geom conaffinity="1" condim="3" material="MatPlane" name="floor" pos="0 0 0" rgba="0.8 0.9 0.8 1" size="40 40 40" type="plane"/>
    <body name="segway">
    </body>
    </worldbody>
    
    <actuator>
    <!-- 驱动 -->
    </actuator>
</mujoco>

worldbody是模型部分,一般有光照light、地面(一个极薄的平面)、机器人模型<body name="segway"></body>
在body部分,并列的两个geom是固连的关系,geom所属的关节joint应与其并列,

myrobot.py 文件

测试

Roboschool

Roboschool 是基于 OpenAI Gym 强化学习仿真包的物理仿真引擎。由于 MuJoCo 不开源且收费,所以 OpenAI 的大佬们将 Roboschool 作为 MuJoCo 的替代品。可以在一个场景当中训练多个 Agent 并且完成一挑战任务。

参考文献

  1. OpenAI Gym构建自定义强化学习环境
  2. 强化学习仿真环境gym搭建
  3. MuJoCo官网
上一篇下一篇

猜你喜欢

热点阅读