MORL-compare

約6分で読めます
⚠️ 注意: この記事はまだ作成中(Work In Progress)です。
目次
ID 手法 判定(線型結合回避) 方策 SER/ESR 線型結合 観測/行動 スケジューラ活用の観点(良い) スケジューラ活用の観点(悪い)
OV Overview 概要 - SER/ESR - - Pareto 集合として提示 → 運用者が選ぶ運用に繋げやすい 「線型結合の有無」だけでは性能・難易度は決まらない
A GPI-LS + GPI-PD 除外 Multi SER wᵀr(線型) Obs:連続 / Act:離散・連続 嗜好 w を明示して切替える運用(コスト重視等)なら適合 非凸 Pareto の網羅に不利,w 設計が支配的
B MORL/D 条件付き Multi SER/ESR 分解(設定次第) Obs:離散・連続 / Act:離散・連続 参照点・制約ベース等に寄せれば「前線を埋める」運用に近づく 単純な重み付き和に寄せると除外側,サブ問題数で実験が重くなる
C Envelope Q-Learning 除外 Multi SER wᵀr(線型) Obs:連続 / Act:離散 実装は素直,w でクエリしやすい 非凸 Pareto に弱い,w 分布設計が結果を左右
D CAPQL 除外 Multi SER 投影最大化(線型寄り) Obs:連続 / Act:連続 連続割当(比率など)に落とせる場合は検討余地 離散アクションのスケジューラに直結しにくい,線型寄り
E PGMORL 除外 Multi SER 重み付き和(線型) Obs:連続 / Act:連続 とりあえず動く・実用寄りで比較対象にしやすい 線型結合中心で要件に合いにくい,非凸網羅は弱い
F PCN 抽出 Multi SER/ESR(注意) しない(目標/Pareto 条件付け) Obs:連続 / Act:離散・連続 多方策を 1 モデルに圧縮,推論時にトレードオフ指定がしやすい 多様なデータ生成と条件付け設計が難所
G Pareto Q-Learning 抽出 Multi SER しない(Pareto 支配で更新) Obs:離散 / Act:離散 小規模で性質検証・ベースラインに向く 集合爆発でスケールが厳しい(近似が必要)
H MO Q learning 条件付き Single SER 設定次第(Chebyshev 等) Obs:離散 / Act:離散 非線型スカラー化を選べば線型結合を避けられる 基本は単一嗜好・単一方策で,前線を出すには外側ループが要る
I MPMOQLearning(outer loop MOQL) 条件付き Multi SER 設定次第 Obs:離散 / Act:離散 嗜好スイープで前線近似を作れる(予算があれば) 複数学習で計算コスト増,スカラー化設計が依然核心
J OLS 除外 Multi SER 線型(CCS 探索) - 線型目的が正当化できるなら堅実な比較軸 非凸 Pareto を原理的に落とす,要件と相性が悪い
K EUPG 抽出 Single ESR しない(期待効用) Obs:離散 / Act:離散 リスク回避・公平性など非線型嗜好を入れやすい 嗜好固定の単一方策で,Pareto 集合そのものを出す用途ではない
L IPRO 抽出 Multi SER しない(参照点・制約) Obs:連続 / Act:離散 「前線を埋める手順」を作りやすく,サブソルバを差し替え可能 サブ問題反復で重くなりやすい,制約設計が難しい
M IPRO-2D 抽出 Multi SER しない(2 目的専用) Obs:連続 / Act:離散 2 目的(例:makespan×cost)なら効率良く前線を作りやすい 3 目的以上に適用不可
N NLMOPPO 抽出 Single SER 非線型スカラー化 Obs:連続 / Act:離散 非線型嗜好(最悪値ペナルティ等)を入れやすく PPO 資産を使える 基本は嗜好固定の単一方策,前線を出すなら外側ループが必要