A3C

1分で読めます
⚠️ 注意: この記事はまだ作成中(Work In Progress)です。

Asynchronous Methods for Deep Reinforcement Learning(2016)

A3C は経験リプレイを使わずに,複数のエージェントによる非同期学習により安定化を図った,軽量で高速な深層強化学習手法

背景

アーキテクチャ

graph TD
    PS["【ParameterServer】<br><共有パラメータ θ, θv>"]
    subgraph スレッド群
        T1["【Thread1】<br>環境コピー + Actor-Learner"]
        T2["【Thread2】<br>環境コピー + Actor-Learner"]
        T3["【Thread3】<br>環境コピー + Actor-Learner"]
        Tn["【ThreadN】<br>環境コピー + Actor-Learner"]
    end
    T1 --> PS
    T2 --> PS
    T3 --> PS
    Tn --> PS

Gorila

結果

  • リスト 1
  • リスト 2