Yoshiki Noguchi BLOG

野口ブログ執筆中.

MORL-compare

約6分で読めます

⚠️ 注意: この記事はまだ作成中（Work In Progress）です。

目次

ID	手法	判定（線型結合回避）	方策	SER/ESR	線型結合	観測/行動	スケジューラ活用の観点（良い）	スケジューラ活用の観点（悪い）
OV	Overview	概要	-	SER/ESR	-	-	Pareto 集合として提示 → 運用者が選ぶ運用に繋げやすい	「線型結合の有無」だけでは性能・難易度は決まらない
A	GPI-LS + GPI-PD	除外	Multi	SER	wᵀr（線型）	Obs:連続 / Act:離散・連続	嗜好 w を明示して切替える運用（コスト重視等）なら適合	非凸 Pareto の網羅に不利，w 設計が支配的
B	MORL/D	条件付き	Multi	SER/ESR	分解（設定次第）	Obs:離散・連続 / Act:離散・連続	参照点・制約ベース等に寄せれば「前線を埋める」運用に近づく	単純な重み付き和に寄せると除外側，サブ問題数で実験が重くなる
C	Envelope Q-Learning	除外	Multi	SER	wᵀr（線型）	Obs:連続 / Act:離散	実装は素直，w でクエリしやすい	非凸 Pareto に弱い，w 分布設計が結果を左右
D	CAPQL	除外	Multi	SER	投影最大化（線型寄り）	Obs:連続 / Act:連続	連続割当（比率など）に落とせる場合は検討余地	離散アクションのスケジューラに直結しにくい，線型寄り
E	PGMORL	除外	Multi	SER	重み付き和（線型）	Obs:連続 / Act:連続	とりあえず動く・実用寄りで比較対象にしやすい	線型結合中心で要件に合いにくい，非凸網羅は弱い
F	PCN	抽出	Multi	SER/ESR（注意）	しない（目標/Pareto 条件付け）	Obs:連続 / Act:離散・連続	多方策を 1 モデルに圧縮，推論時にトレードオフ指定がしやすい	多様なデータ生成と条件付け設計が難所
G	Pareto Q-Learning	抽出	Multi	SER	しない（Pareto 支配で更新）	Obs:離散 / Act:離散	小規模で性質検証・ベースラインに向く	集合爆発でスケールが厳しい（近似が必要）
H	MO Q learning	条件付き	Single	SER	設定次第（Chebyshev 等）	Obs:離散 / Act:離散	非線型スカラー化を選べば線型結合を避けられる	基本は単一嗜好・単一方策で，前線を出すには外側ループが要る
I	MPMOQLearning（outer loop MOQL）	条件付き	Multi	SER	設定次第	Obs:離散 / Act:離散	嗜好スイープで前線近似を作れる（予算があれば）	複数学習で計算コスト増，スカラー化設計が依然核心
J	OLS	除外	Multi	SER	線型（CCS 探索）	-	線型目的が正当化できるなら堅実な比較軸	非凸 Pareto を原理的に落とす，要件と相性が悪い
K	EUPG	抽出	Single	ESR	しない（期待効用）	Obs:離散 / Act:離散	リスク回避・公平性など非線型嗜好を入れやすい	嗜好固定の単一方策で，Pareto 集合そのものを出す用途ではない
L	IPRO	抽出	Multi	SER	しない（参照点・制約）	Obs:連続 / Act:離散	「前線を埋める手順」を作りやすく，サブソルバを差し替え可能	サブ問題反復で重くなりやすい，制約設計が難しい
M	IPRO-2D	抽出	Multi	SER	しない（2 目的専用）	Obs:連続 / Act:離散	2 目的（例：makespan×cost）なら効率良く前線を作りやすい	3 目的以上に適用不可
N	NLMOPPO	抽出	Single	SER	非線型スカラー化	Obs:連続 / Act:離散	非線型嗜好（最悪値ペナルティ等）を入れやすく PPO 資産を使える	基本は嗜好固定の単一方策，前線を出すなら外側ループが必要

18 Dec 2025

other

« ICTSC2025-Squid