RL Agents Module

Gradien provides a unified API for Reinforcement Learning agents.

Agent Types

`DQL` & `DoubleDQN` Off-Policy

Deep Q-Learning algorithms. DoubleDQN reduces overestimation bias.

Config

lua

{
    actionDim: number,
    batchSize: number,
    gamma: number,
    epsilonStart: number?,
    epsilonEnd: number?,
    epsilonDecay: number?,
    modelFactory: () -> Module,
    optimizerFactory: (params) -> Optimizer,
    replay: ReplayBuffer?,
    targetSyncInterval: number?,
    tau: number? -- Soft update factor
}

`PPO` On-Policy

Proximal Policy Optimization. Stable and efficient.

Config

lua

{
    policy: Module,
    value: Module,
    gamma: number,
    lam: number,
    clip: number,
    epochs: number,
    minBatch: number?,
    maxBuffer: number?,
    optimizerFactory: (params) -> Optimizer
}

`A2C` On-Policy

Advantage Actor-Critic.

Config

lua

{
    policy: Module,
    value: Module,
    gamma: number,
    minBatch: number?,
    optimizerFactory: (params) -> Optimizer
}

Common Interface

`:act`

Definition

lua

(state: Tensor, stepIndex: number?) -> number

`:observe`

Definition

lua

(transition: {state: Tensor, action: number, reward: number, nextState: Tensor, done: boolean}) -> ()

`:trainStep` Parallel

Definition

lua

() -> { loss: number, avgReturn: number? }?

`:loadParameters` (DQN only)

Definition

lua

(snapshot: any, strict: boolean?) -> ()

RL Agents Module ​

Agent Types ​

DQL & DoubleDQN Off-Policy ​

PPO On-Policy ​

A2C On-Policy ​

Common Interface ​

:act ​

:observe ​

:trainStep Parallel ​

:loadParameters (DQN only) ​

RL Agents Module

Agent Types

`DQL` & `DoubleDQN` Off-Policy

`PPO` On-Policy

`A2C` On-Policy

Common Interface

`:act`

`:observe`

`:trainStep` Parallel

`:loadParameters` (DQN only)