agents/hyperparameters/rlberry_params.yml

REINFORCE:
  init_kwargs:
    batch_size: 8
    horizon: 256
    gamma: 0.99
    entr_coef: 0.01
    learning_rate: 0.0001
    normalize: True
    optimizer_type: "ADAM"
    policy_net_fn: null
    policy_net_kwargs: null
    use_bonus_if_available: False
    device: "cuda:best"
  fit_kwargs:
    fit_budget: 10
  eval_kwargs:
    eval_horizon: 200
    n_simulations: 3
    gamma: 0.99

PPO:
  init_kwargs:
    batch_size: 64
    n_steps: 2048
    gamma: 0.99
    entr_coef: 0.01
    vf_coef: 0.5
    learning_rate: 0.01
    optimizer_type: "ADAM"
    eps_clip: 0.2
    k_epochs: 5
    use_gae: True
    gae_lambda: 0.95
    policy_net_fn: null
    value_net_fn: null
    policy_net_kwargs: null
    value_net_kwargs: null
    normalize_rewards: False
    normalize_advantages: False
    device: "cuda:best"
  fit_kwargs:
    fit_budget: 1000
  eval_kwargs:
    eval_horizon: 200
    n_simulations: 3
    gamma: 0.99

A2C:
  init_kwargs:
    batch_size: 256
    gamma: 0.99
    entr_coef: 0.01
    learning_rate: 0.01
    optimizer_type: "ADAM"
    policy_net_fn: null
    value_net_fn: null
    policy_net_kwargs: null
    value_net_kwargs: null
    device: "cuda:best"
    eval_interval: null
  fit_kwargs:
    fit_budget: 1000
  eval_kwargs:
    eval_horizon: 200
    n_simulations: 3
    gamma: 0.99

DQN:
  init_kwargs:
    gamma: 0.99
    batch_size: 32
    chunk_size: 8
    lambda_: 0.5
    target_update_parameter: 0.005
    device: "cuda:best"
    learning_rate: 1.0e-3
    epsilon_init: 1.0
    epsilon_final: 0.1
    epsilon_decay_interval: 20000
    loss_function: "l2"
    optimizer_type: "ADAM"
    q_net_constructor: null
    q_net_kwargs: null
    use_double_dqn: False
    use_prioritized_replay: False
    train_interval: 10
    gradient_steps: 1
    max_replay_size: 200000
    learning_starts: 5000
    eval_interval: null
  fit_kwargs:
    fit_budget: 1000
  eval_kwargs:
    eval_horizon: 200
    n_simulations: 3
    gamma: 0.99  

SAC:
  init_kwargs:
    batch_size: 8
    gamma: 0.99
    entr_coef: 0.01
    learning_rate: 0.01
    buffer_capacity: 30000
    optimizer_type: "ADAM"
    k_epochs: 5
    policy_net_fn: null
    value_net_fn: null
    twinq_net_fn: null
    policy_net_kwargs: null
    value_net_kwargs: null
    twinq_net_kwargs: null
    use_bonus: False
    uncertainty_estimator_kwargs: null
    device: "cuda:best"
  fit_kwargs:
    fit_budget: 100
  eval_kwargs:
    eval_horizon: 200
    n_simulations: 3
    gamma: 0.99