The RL-Toolkit: A toolkit for developing and comparing your reinforcement learning agents in various games (OpenAI Gym or Pybullet).

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Project description

RL Toolkit

Tag Commits Languages Size

Papers

Setting up container

# Preview
docker pull markub3327/rl-toolkit:latest

# Stable
docker pull markub3327/rl-toolkit:2.0.2

Run

# Run learner's container
docker run -p 8000:8000 -it --rm markub3327/rl-toolkit

# Run tester's or agent's container
docker run -it --rm markub3327/rl-toolkit


# Learner container
python3 -m rl_toolkit -e [ENV_NAME] learner --db_server [IP_ADDRESS/HOSTNAME] -s [PATH_TO_MODEL] [--wandb] [-h]

# Agent container
python3 -m rl_toolkit -e [ENV_NAME] agent --db_server [IP_ADDRESS/HOSTNAME] [--wandb] [-h]

# Tester container
python3 -m rl_toolkit -e [ENV_NAME] tester --model_path [PATH_TO_MODEL] [--render] [--wandb] [-h]

Tested environments

Environment	Observation space	Observation bounds	Action space	Action bounds
BipedalWalkerHardcore-v3	(24, )	[-inf, inf]	(4, )	[-1.0, 1.0]
Walker2DBulletEnv-v0	(22, )	[-inf, inf]	(6, )	[-1.0, 1.0]
AntBulletEnv-v0	(28, )	[-inf, inf]	(8, )	[-1.0, 1.0]
HalfCheetahBulletEnv-v0	(26, )	[-inf, inf]	(6, )	[-1.0, 1.0]
HopperBulletEnv-v0	(15, )	[-inf, inf]	(3, )	[-1.0, 1.0]
HumanoidBulletEnv-v0	(44, )	[-inf, inf]	(17, )	[-1.0, 1.0]
MinitaurBulletEnv-v0	(28, )	[-167.72488, 167.72488]	(8, )	[-1.0, 1.0]

Results

Summary

Score

Environment	SAC + gSDE	SAC + gSDE + Huber loss	TQC + gSDE	TQC + gSDE + Reverb
BipedalWalkerHardcore-v3	13 ± 18⁽²⁾	-	228 ± 18⁽²⁾	-
Walker2DBulletEnv-v0	2270 ± 28⁽¹⁾	2732 ± 96	2535 ± 94⁽²⁾	-
AntBulletEnv-v0	3106 ± 61⁽¹⁾	3460 ± 119	3700 ± 37⁽²⁾	-
HalfCheetahBulletEnv-v0	2945 ± 95⁽¹⁾	3003 ± 226	3041 ± 157⁽²⁾	-
HopperBulletEnv-v0	2515 ± 50⁽¹⁾	2555 ± 405	2401 ± 62⁽²⁾	-
HumanoidBulletEnv-v0	-	-	-	-
MinitaurBulletEnv-v0	-	-	-	-

Model

model

Frameworks: Tensorflow, Reverb, OpenAI Gym, PyBullet, WanDB, OpenCV

Changes

v3.2.4 (July 7, 2021)

Features 🔊

Reverb
setup.py (package is available on PyPI)
split into agent, learner and tester roles
Use custom model and layer for defining Actor-Critic
MultiCritic - concatenating multiple critic networks into one network
Truncated Quantile Critics

v2.0.2 (May 23, 2021)

Bug fixes 🛠️

update Dockerfile
update README.md
formatted code by Black & Flake8

v2.0.1 (April 27, 2021)

Bug fixes 🛠️

fix Critic model

v2.0.0 (April 22, 2021)

Features 🔊

Add Huber loss
In test mode, rendering to the video file
Normalized observation by Min-max method
Remove TD3 algorithm

Project details

These details have not been verified by PyPI

Project links

GitHub Statistics

View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery

Release history Release notifications | RSS feed

4.1.1

Sep 2, 2022

4.1.0

Feb 9, 2022

4.0.0

Feb 5, 2022

This version

3.2.5

Aug 3, 2021

3.2.4

Jul 7, 2021

3.2.3

Jun 6, 2021

3.2.2

Jun 6, 2021

3.2.1

Jun 6, 2021

3.2.0

Jun 4, 2021

3.1.9

Jun 3, 2021

3.1.8

Jun 2, 2021

3.1.7

Jun 2, 2021

3.1.6

Jun 2, 2021

3.1.5

Jun 2, 2021

3.1.4

Jun 2, 2021

3.1.3

Jun 2, 2021

3.1.2

Jun 2, 2021

3.1.1

Jun 2, 2021

3.1.0

Jun 2, 2021

3.0.9

Jun 1, 2021

3.0.8

Jun 1, 2021

3.0.7

Jun 1, 2021

3.0.6

Jun 1, 2021

3.0.5

Jun 1, 2021

3.0.4

Jun 1, 2021

3.0.3

Jun 1, 2021

3.0.2

Jun 1, 2021

3.0.1

Jun 1, 2021

Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

rl-toolkit-3.2.5.tar.gz (15.8 kB view hashes)

Uploaded Aug 3, 2021 Source

Built Distribution

rl_toolkit-3.2.5-py3-none-any.whl (18.9 kB view hashes)

Uploaded Aug 3, 2021 Python 3

Hashes for rl-toolkit-3.2.5.tar.gz

Hashes for rl-toolkit-3.2.5.tar.gz
Algorithm	Hash digest
SHA256	`e9635da9a3428bfb9f892ba68d312470543f95542202676957680cc1a02fa6d2`
MD5	`82eb202b67be8a82d5cfa2aa2367a112`
BLAKE2b-256	`a3b2da42dda604145db29856d992ba89a9b0f830c2e99196ff32ddebe31edd5c`

Hashes for rl_toolkit-3.2.5-py3-none-any.whl

Hashes for rl_toolkit-3.2.5-py3-none-any.whl
Algorithm	Hash digest
SHA256	`2c0763f813f4bfc9efc658e28226486ec52d994fa53723e4a201750552c60908`
MD5	`7a67dccb0830d3552e883b7e79a37f2e`
BLAKE2b-256	`0cb69cc8d977edf8cbbe165564b6c868253d06643f34784c73677f5d9c7ea521`