Multi-Agent Value Learning

多智能体价值学习

VDN（Value Decomposition Network）

在完全合作关系、局部观测和去中心化执行框架下，无法像单智能体场景下的 Q-Learning 中学习一个全局值函数 $q(s,\ a)$ 来进行决策 $\hat{a} = \argmax_{a} q(s,\ a)$ 。VDN 算法将全局值函数近似为局部值函数的直接加和：

q_{w}(h_{t},\ a_{t}) = q_{1}(h_{t}^{1},\ a_{t}^{1} \mid w_{1}) + q_{2}(h_{t}^{2},\ a_{t}^{2} \mid w_{2}) + \cdots + q_{n}(h_{t}^{n},\ a_{t}^{n} \mid w_{n})

并使用 TD 误差的平方作为中心化训练损失函数来更新值网络参数：

\ell(w) = \frac{1}{2m} \sum_{j = 1}^{m} \Big[ r_{j} + \gamma \argmax_{a} q_{w^{-}}(s_{j}',\ a) - q_{w}(s_{j},\ a_{j}) \Big]^{2}

由于全局值函数和每个智能体的局部值函数的单调关系，在去中心化执行时联合动作的选择可以表示为：

\hat{a}_{t} = \argmax_{a} q_{w}(h_{t},\ a) = \begin{pmatrix} \argmax_{a^{1}} q_{1}(h_{t}^{1},\ a^{1} \mid w_{1}) \\[4mm] \argmax_{a^{2}} q_{2}(h_{t}^{2},\ a^{2} \mid w_{2}) \\[4mm] \vdots \\[4mm] \argmax_{a^{n}} q_{n}(h_{t}^{n},\ a^{n} \mid w_{n}) \end{pmatrix}

QMIX

VDN 中的价值分解为简单的加和，无法捕捉复杂的价值分解关系，QMIX 将价值分解通过神经网络来近似：

\begin{gathered} q(h_{t},\ a_{t}) = f \Big[ q_{1}(h_{t}^{1},\ a_{t}^{1}),\ q_{2}(h_{t}^{2},\ a_{t}^{2}),\ \cdots,\ q_{n}(h_{t}^{n},\ a_{t}^{n})\ \Big|\ s_{t} \Big] \end{gathered}

其中， $f$ 利用了中心化训练下的全局状态 $s_{t}$ 并使用 hypernetwork 来建模网络参数：

为了保证全局值函数和局部值函数的单调关系以方便去中心化执行，QMIX 限制 $f$ 满足单调性：

\frac{\partial f}{\partial q_{i}} \ge 0 \quad i = 1,\ 2,\ \cdots,\ n

在实现时将权重取绝对值并使用单调的激活函数来实现单调映射，并同样采用 TD 误差来更新参数。

QTRAN

使用独立值函数进行决策的条件是全局值函数分解为局部值函数后满足条件（IGM）：

\argmax_{a} q(h_{t},\ a) = \begin{pmatrix} \argmax_{a^{1}} q_{1}(h_{t}^{1},\ a^{1}) \\[4mm] \argmax_{a^{2}} q_{2}(h_{t}^{2},\ a^{2}) \\[4mm] \vdots \\[4mm] \argmax_{a^{n}} q_{n}(h_{t}^{n},\ a^{n}) \end{pmatrix}

VDN 和 QMIX 分别通过直接加和以及单调映射假设来满足 IGM 条件，而 QTRAN 则假设存在 $q_{1:n}$ 使得：

q'(h,\ a) = \sum_{i = 1}^{n} q_{i}(h^{i},\ a^{i}) + v(h) \le \sum_{i = 1}^{n} q_{i}(h^{i},\ \hat{a}^{i}) + v(h) =q'(h,\ \hat{a})

可以被构造为全局值函数 $q(h,\ a)$ 的紧上界，其中 $v(h)$ 为偏置补偿，其中紧上界的条件为：

\underset{\mathrm{opt}}{\underbrace{q(h,\ \hat{a}) = q'(h,\ \hat{a})}} \ge \underset{\mathrm{nopt}}{\underbrace{q'(h,\ a) \ge q(h,\ a)}}

满足 opt 和 nopt 两个条件后局部值函数 $q_{i}(h^{i},\ \hat{a}^{i})$ 满足 IGM 条件，QTRAN-base 基于此设计的损失函数为：

L = L_{\mathrm{td}} + \lambda_{\mathrm{opt}} L_{\mathrm{opt}} + \lambda_{\mathrm{nopt}} L_{\mathrm{nopt}}

损失函数	训练对象	目标
$L_{\mathrm{td}} = \Big[ r + \gamma \max_{a} q^{-}(h,\ a) - q(h,\ a) \Big]^{2}$	全局值函数	近似真实全局值函数
$L_{\mathrm{opt}} = \Big[ q'(h,\ \hat{a}) - \operatorname{sg} q(h,\ \hat{a}) \Big]^{2}$	局部值函数	近似满足 opt 条件
$L_{\mathrm{nopt}} = \Big[ \min \Big( q'(h,\ a) - \operatorname{sg} q(h,\ a),\ 0 \Big) \Big]^{2}$	局部值函数	近似满足 nopt 条件

由于 nopt 条件的限制构造的上界较为松弛，导致对于 nopt 动作下的局部值函数学习效果较差。为了构造更加紧的上界，QTRAN 在 nopt 条件的基础上提出了一个更强的 nopt-min 约束条件：

\min_{a^{i}} \Big[ q'(h,\ a^{i},\ a^{-i}) - q(h,\ a^{i},\ a^{-i}) \Big] = 0 \quad \forall\ i \in \{ 1,\ 2,\ \cdots,\ n \}

通过 nopt-min 条件可以推出 nopt 条件。而如果局部值函数 $q_{1:n}$ 满足 nopt 条件，同时存在 $i$ 和 $a^{-i}$ 使得：

\min_{a^{i}} \Big[ q'(h,\ a^{i},\ a^{-i}) - q(h,\ a^{i},\ a^{-i}) \Big] = \beta > 0

那么必然存在 $a^{j} \in a^{-i}$ 使得 $a^{j} \ne \hat{a}^{j}$ ，否则不满足 opt 条件。将该点的局部值函数进行调整：

q_{j}(h^{j},\ a^{j}) \leftarrow q_{j}(h^{j},\ a^{j}) - \beta

以上操作不会破坏最优点 $\hat{a}$ 的性质，同时 nopt 条件保证了 $q'(h,\ a)$ 的下界，因此重复以上操作会得到一组满足 nopt-min 条件的局部值函数 $q_{1:n}$ 。QTRAN-alt 基于此将损失函数 $L_{\mathrm{nopt}}$ 替换为反事实的 $L_{\mathrm{opt-min}}$ ：

L_{\mathrm{nopt-min}} = \sum_{i = 1}^{n} \Big[ \min_{a^{i}} \Big( q'(h,\ a^{i},\ a^{-i}) - \operatorname{sg} q(h,\ a^{i},\ a^{-i}) \Big) \Big]^{2}

RL > Preliminary

#VDN #QMIX #QTRAN

Multi-Agent Value Learning

http://example.com/2024/08/05/MAVL/

Author

木辛

Posted on

August 5, 2024

Licensed under

Multi-Agent A2C Previous

Stochastic Game / Markov Game Next