Deep Reinforcement Learning for Multi-objective Optimization
目次
重みを変えながららサブ問題を協調的に解く多目的最適化
THE DEEP REINFORCEMENT LEARNING-BASED MULTI-OBJECTIVE OPTIMIZATION ALGORITHM(DRL-MOA)
一般的なフレームワーク 分解戦略 MOP をスカラー最適化問題の集合に分解し,強調的に解く.各最適解を集めるとパレートフロント PF が形成される.
一様に分布した重みを与えて,何度も最適化をすることにより,パレートフロントを構成する.
例:
- (0.1, 0.9)
- (0.2, 0.8)
- (0.3, 0.7)
- …
- (0.9, 0.1)
その際の工夫点として,隣の重みで計算したパラメータを用いて最適化を行う. これにより計算コストの削減を図る.
前提:
- 重みが近い最適化問題は解が似ている
アプローチ:
- 近傍ベースのパラメータ転送戦略
実験(ソース公開あり)
- 巡回セールスマン Python,Matlab
学習が完了すれば,このモデルは即座にパレートフロントを出力できるようになる
重みは一様に 100 パターン
- DRL-MOA は、いずれの規模のインスタンスにおいても HV が最も高く、計算時間が最も短い
- 小規模問題においては MOEA/D や NSGA-II も競争力があるが、スケーリング(規模拡張)には明確な限界がある
- 一方、DRL-MOA は訓練済みのニューラルネットワークで即時に解を生成できるため、問題サイズの増大に非常に強い
評価
指標カテゴリ | 指標名 | 内容・意味 | 本論文で使用 |
---|---|---|---|
収束性指標 | Hypervolume (HV) | パレート解が目的空間をどれだけカバーしているか(面積) | ✅ あり |
性能指標 | 実行時間(Running Time) | 解の生成に要する時間 | ✅ あり |
視覚的評価 | パレートフロントの散布図 | 解の広がり,密集度,偏りなどを視覚的に比較 | ✅ あり |
汎化性評価 | 訓練外インスタンスでの性能 | 未学習の都市数でも良い PF を出せるか | ✅ あり |
Generational Distance (GD) | 参考 PF との平均距離 | ❌ なし | |
多様性指標 | Spread (Δ) | 解の広がり+均一性を測る | ❌ なし |
Spacing | 解どうしの距離の標準偏差 | ❌ なし | |
Entropy | パレートフロント上の解の分布の情報量 | ❌ なし | |
Distribution Index | 解が理想的に等間隔かどうかを評価 | ❌ なし |
訂正評価で使われた文面:
“the diversity of solutions found by our method is much better than MOEA/D” (我々の手法が見つけた解の多様性は,MOEA/D よりもずっと良好である)
“DRL-MOA still shows a far better performance … in terms of both the convergence and diversity” (DRL-MOA は収束性と多様性の両面で大幅に優れている)