Deep Reinforcement Learning for Multi-objective Optimization

約3分で読めます

重みを変えながららサブ問題を協調的に解く多目的最適化

THE DEEP REINFORCEMENT LEARNING-BASED MULTI-OBJECTIVE OPTIMIZATION ALGORITHM(DRL-MOA)

一般的なフレームワーク 分解戦略 MOP をスカラー最適化問題の集合に分解し,強調的に解く.各最適解を集めるとパレートフロント PF が形成される.

一様に分布した重みを与えて,何度も最適化をすることにより,パレートフロントを構成する.

例:

  • (0.1, 0.9)
  • (0.2, 0.8)
  • (0.3, 0.7)
  • (0.9, 0.1)

その際の工夫点として,隣の重みで計算したパラメータを用いて最適化を行う. これにより計算コストの削減を図る.

前提:

  • 重みが近い最適化問題は解が似ている

アプローチ:

  • 近傍ベースのパラメータ転送戦略

実験(ソース公開あり)

  • 巡回セールスマン Python,Matlab

学習が完了すれば,このモデルは即座にパレートフロントを出力できるようになる

重みは一様に 100 パターン

  • DRL-MOA は、いずれの規模のインスタンスにおいても HV が最も高く、計算時間が最も短い
  • 小規模問題においては MOEA/D や NSGA-II も競争力があるが、スケーリング(規模拡張)には明確な限界がある
  • 一方、DRL-MOA は訓練済みのニューラルネットワークで即時に解を生成できるため、問題サイズの増大に非常に強い

評価

指標カテゴリ 指標名 内容・意味 本論文で使用
収束性指標 Hypervolume (HV) パレート解が目的空間をどれだけカバーしているか(面積) ✅ あり
性能指標 実行時間(Running Time) 解の生成に要する時間 ✅ あり
視覚的評価 パレートフロントの散布図 解の広がり,密集度,偏りなどを視覚的に比較 ✅ あり
汎化性評価 訓練外インスタンスでの性能 未学習の都市数でも良い PF を出せるか ✅ あり
  Generational Distance (GD) 参考 PF との平均距離 ❌ なし
多様性指標 Spread (Δ) 解の広がり+均一性を測る ❌ なし
  Spacing 解どうしの距離の標準偏差 ❌ なし
  Entropy パレートフロント上の解の分布の情報量 ❌ なし
  Distribution Index 解が理想的に等間隔かどうかを評価 ❌ なし

訂正評価で使われた文面:

“the diversity of solutions found by our method is much better than MOEA/D” (我々の手法が見つけた解の多様性は,MOEA/D よりもずっと良好である)

“DRL-MOA still shows a far better performance … in terms of both the convergence and diversity” (DRL-MOA は収束性と多様性の両面で大幅に優れている)