多智能体强化学习：有效多Agent深度强化学习的分布报酬估计

题目：Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning出处：Neural Information Processing Systems（NeurIPS，2022），深度学习顶级会议，CCF-A。摘要：多智能体强化学习在实践中受到越来越多的关注，例如机器人和自动驾驶，因为它可以

燕双嘤

1023人浏览 · 2019-12-08 09:37:13

燕双嘤 · 2019-12-08 09:37:13 发布

题目：Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning

出处：Neural Information Processing Systems（NeurIPS，2022），深度学习顶级会议，CCF-A。

摘要：多智能体强化学习在实践中受到越来越多的关注，例如机器人和自动驾驶，因为它可以使用与环境交互生成的样本来探索最优策略。然而，当我们想要训练一个令人满意的模型时，高报酬不确定性仍然是一个问题，因为获得高质量的报酬反馈通常是昂贵的，甚至是不可行的。为了解决这个问题，以前的方法主要集中在被动奖励纠正上。与此同时，最近的主动报酬估计方法已被证明是减少报酬不确定性影响的一种方法。在本文中，我们提出了一种新的分布式报酬估计框架，用于有效的多Agent强化学习（DRE-MARL）。我们的主要思想是设计用于稳定训练的多动作分支奖励估计和策略加权奖励聚合。具体地说，我们设计了多动作分支的报酬估计，以对所有动作分支上的报酬分布进行建模。然后在训练过程中利用奖励聚合来获得稳定的更新信号。我们的直觉是，考虑行动的所有可能后果对学习策略是有用的。在有效性和鲁棒性方面，与SOTA基线相比，DRE-MARL的优越性通过基准多智能体场景得到了证明。

1，引言

多智能体强化学习（MARL）在解决实时竞争游戏[30]、机器人操纵[1]、自主交通控制[32]和定量交易策略[15]方面取得了巨大成功。大多数现有的作品都要求智能体接受高质量的监督信号，即奖励，这在实践中既不可行，也很昂贵[61]。环境提供的奖励受到多种随机性的影响。例如，从机器人上的传感器收集到的奖励将受到温度和照明等物理条件的影响，这使得奖励充满偏见和内在随机性。智能体之间的相互作用将导致更多的报酬不确定性。例如，尽管一个智能体在相同的状态下执行相同的操作，但由于其他智能体可以执行其他操作，因此奖励仍然可能不同。因此，在学习过程中处理非固定报酬，成功地学习多智能体环境中的复杂行为是必要的。

事实上，在强化学习（RL）中，有许多研究[23，28，61，60]考虑了训练过程中的奖励不确定性。对非平稳反馈的传统研究主要集中在被动奖励修正上。例如，Wang等人[60]采用混淆矩阵来建模奖励不确定性，并获得稳定的学习奖励。在[61]中，作者用同级损失恢复了真实的监管信号，这惩罚了避免过度匹配的过度协议。然而，上述作品报酬不确定性的假设是有限制的。例如，奖励翻转机制[60]将奖励的随机性限制为一个可计数的值集。最近，另一系列研究集中在主动报酬估计上。为了缓解奖励不确定性问题，一些工作将奖励估计视为一个点对点回归问题，其中每个状态-动作对都映射到一个奖励[38,64]。然而，MARL中的点对点报酬估计并不能完全解决报酬的不确定性，特别是由智能体的相互作用引起的报酬不确定性。这是因为回归擅长于状态和奖励之间的一对一映射。但在MARL中，一个智能体的相同状态-动作对输入将导致多重环境奖励（即一对多映射），这对于回归来说是难以解决的，因此会影响性能。此外，这些方法没有考虑到报酬不确定性不仅来自于固有的环境随机性，而且来自于智能体之间的相互作用。这两个因素对获得的奖励产生混合影响，增加了训练难度。如我们稍后的实验所示（详见图3（左）），这种点对点策略会随着智能体数量和奖励不确定性程度的增加而导致更糟糕的次优结果。

在这项工作中，我们的目标是发展MARL的分配报酬估计，然后是策略加权报酬聚合。直观地说，我们的想法就像一个人在大脑中构建了一个所有活动分支的奖励蓝图，并通过考虑所有可能的后果来深思熟虑地做出决定。传统方法只使用环境奖励来评估策略，这在训练批评者时会带来更多的不确定性，因为它们只考虑在采取特定行动（即第 $k$ 次行动 $a_k$ ）后收到的奖励 $r_k$ 。在我们的方法中，我们不仅考虑环境奖励，还考虑其他动作分支的潜在奖励，以执行更稳定的批评者更新，从而获得更好的表现。因此，我们提出了多动作分支分配奖励估计，以对所有动作分支上的报酬分布 $\left \{ \tilde{R} (o^i,a_k^i))\right \}_{k=1}^K$ 进行建模，其中 $o_t^i$ 是观察值， $a_{k,t}^i$ 是第 $k$ 个动作。然后，我们通过根据当前策略的相应行动选择概率对环境奖励 $r_k$ 和从不同行动分支分布 $\left \{ \tilde{R} (o^i,a_m^i))\right \}_{m=1,m\neq k}^K$ 中采样的奖励进行加权，从而对它们进行聚合。我们将获得聚合奖励训练每个智能体聚合混合奖励 $\bar{R}^i$ 和集中奖励 $\bar{r}^i$ 。聚合奖励使智能体能够深思熟虑地评估其历史决策，从而提供了一种复杂而有效的方法来减少奖励不确定性的影响。这种模型涵盖了MARL环境中的奖励不确定性，并在从小到大的智能体数量的多个MARL基准测试中实现了更好的性能。

我们的贡献是三方面的：

我们提出了一个新的框架，称为多智能体分配报酬估计（DRE-MARL），通过对所有行动分支的奖励分配建模，系统地描述MARL中的奖励不确定性。据我们所知，这是第一次尝试通过多行动分支分配奖励估计和奖励聚合来解决MARL的报酬不确定性。

策略加权奖励聚合是在我们的框架中开发的，这使我们能够对评论家和演员进行稳定的训练。此外，DRE-MARL是一个通用框架，可以方便地集成到其他MARL方法中。

我们通过在具有不同智能体数量和奖励不确定性的MARL场景中的大量仿真，通过函数近似和小批量更新来验证我们算法的性能。

2，相关工作

奖励不确定性：在最近的强化学习研究中，适当处理奖励不确定性受到了相当多的关注。这一系列工作的核心思想是假设获得噪声的知识，并定义无偏见的替代损失函数，以恢复真正的损失或回报。一项典型的开创性工作可以追溯到[28]，它通过了解标签的噪声率，从噪声标签分布中恢复真实损失。后续工作提供了从模型预测中估计不确定性水平或群集表示的解决方案。最近的一些作品也在顺序设置中研究了这个问题。例如，Everitt等人分析了不确定性的潜在来源，并为兼性奖励不确定性下的训练提供了不可能的结果。Wang等人考虑建模由混淆矩阵引起的奖励不确定性，并设计基于统计的估计方法来覆盖不确定性。Wang等人用对等损失恢复了真实的监管信号，这将惩罚过度协议以避免过度匹配。但该方法在MARL中效率低下，因为不确定性大于单个单智能体RL。

奖励估算：机器人和非机器人领域的许多先前文献都采用了报酬估计。在大多数情况下，预测的奖励用于计划。他们利用了想象中的估计奖励，并在奖励估计器附带一个动态模型（即世界模型）。然而，在我们的案例中，我们的目标是处理奖励的不确定性，而不是使用多行动-分支奖励估计和聚合进行规划，从而避免学习系统的动态性和多步骤的虚拟推出。奖励估计也可以通过奖励成形（RS）和反向强化学习（IRL）来执行。但IRL并没有考虑到奖励的不确定性，RS专注于有效的探索。最近，Romoff等人提出用函数逼近和值函数来训练奖励估计器。然而，它采用点对点奖励估计，这在推广到多智能体设置时很困难。

分布强化学习：分布强化学习最近因其处理RL不确定性的强大能力而受到越来越多的关注。关于收益不确定性的早期研究可以追溯到Sobel[45]。在MARL中，不确定性问题比单个RL更具挑战性。幸运的是，许多研究都集中于此[48,49,34]。例如，Sun等人[48]在值分解中提出了平均形状分解方法和分位数混合，弥补了分布RL和值函数分解之间的差距。尽管我们的工作也属于分配领域，但我们关注的是环境的报酬不确定性，而不是Q值的不确定性，并与[48,49,34]相比，对报酬的分配而不是Q进行建模。此外，我们提出了一种新的、有效的报酬估计和报酬聚合方法。

3，准备工作

马尔可夫对策[20，53]是马尔可夫决策过程的多智能体扩展，具有部分可观测性，可描述为元组 $M=<N,S,\left \{ A^i \right \}_{i\in N},\left \{ O^i \right \}_{i\in N},P,\left \{ R^i \right \}_{i\in N},\gamma>$ ，其中 $N=\left \{ 1,2,...,N \right \}$ 是 $N$ 个智能体的集合， $S$ 是环境的状态空间， $A^i$ 是智能体 $i$ 的动作空间， $O^i$ 是智能体的观察空间， $P:S\times A^1\times ... \times A^N\rightarrow \bigtriangleup (S)$ ( $\bigtriangleup (x)$ 表示 $x$ 上的分布空间）表示状态转移概率，即从当前状态和联合作用到状态空间上的概率分布的映射， $\gamma\in[0,1)$ 是折扣因子。我们考虑了智能体之间的相互作用导致分配报酬反馈的事实：智能体 $i$ 只能观察智能体 $i$ 从报酬分配中取样的回报 $\hat{R}^i:S\times A^1\times ...\times A^N\rightarrow \bigtriangleup (\mathbb{R})$ ，而不是每个智能体的 $R^i$ 。

在每个时间 $t$ ， $N$ 个智能体接收不同的观察 $(o_t^1,...,o_t^N)$ ，并在输出特定的联合动作 $a_t=\left \{ a_{k,t}^i \right \}_{i\in N},k\in{1,...,K}$ ，其中 $a^i$ 根据智能体 $i$ 的策略 $\pi^i:O^i\rightarrow \bigtriangleup (A^i)$ 执行， $K=|A|$ 是操作空间的大小。然后状态转换到 $s_{t+1}$ ，并通过 $r_t^i=R^i(s_t,a_t,s_{t+1})$ 奖励每个智能体 $i$ ，其中 $R^i(\cdot)$ 是奖励函数。智能体 $i$ 的目标是找到最佳策略 $\pi^i$ ，使从开始状态到结束状态从环境接收到的总奖励最大化。预期累计折扣奖励表示为： $\mathbb{E}[\sum_{t=0}^{\infty }\gamma^t\cdot r_t^i]$ 。在本文中，我们考虑由 $\pi=\left \{ \pi^1,...,\pi^N \right \}$ 表示的 $N$ 个智能体， $\theta=\left \{ \theta_1,...,\theta_N \right \}$ 是参数化的策略（参与者）。给定一个特定的策略 $\pi$ ，我们采用状态值函数 $V_{\gamma,\psi }^{\pi}$ 来近似预期收益，其中 $\psi$ 是 $V_{\gamma,\psi }^{\pi}$ 的参数。

4，问题表述

4.1，MARL中的奖励不确定性

奖励不确定性在许多现实场景中普遍存在，但其影响在文献中并未得到很好的解决。在多智能体环境中，处理训练过程中的非平稳奖励对于成功学习复杂行为是必要的。在许多实际场景中，智能体通常由于相互作用和固有的随机性，观察非平稳的奖励反馈，而不是完美地获得精确的训练奖励。考虑一个复杂度高、状态动作空间大的多智能体环境，使得智能体很难探索整个状态空间。假设我们只能获得非平稳报酬。在报酬不确定性下，智能体如何学习合作行为？我们应该找出导致奖励不确定性的因素。假设我们给出了一个由N个智能体组成的多智能体场景。奖励包含由多种因素引起的不确定性，这些因素可分为两个方面。

相互作用：导致报酬不确定性的第一个因素是智能体之间的相互作用。如第1节所述，智能体之间的相互作用可以导致状态和奖励之间的一对多映射。例如，假设我们需要两个智能体协作完成任务。智能体将获得各种奖励，因为它的伙伴执行其他动作，即使智能体在相同的观察下执行相同的动作。

自然干扰：另一方面是环境的自然干扰。在训练过程中，环境包含了现实世界中普遍存在的固有随机性。例如，传感器的反馈由于温度和照明的变化而波动，这使得奖励反馈不准确。

在下一节中，我们将重点讨论这两个方面，并提出多动作分支奖励估计和奖励聚合，为智能体提供稳定的更新信号。在这里，直觉是应该在仔细考虑所有可能的后果后执行决定。最后，在第6节中，我们实证研究了我们的方法在不同场景下的有效性。

4.2，奖励估算

通常，许多MARL场景提供精确的人为设计的奖励，这偏离了实际情况。为了模拟奖励的不确定性，我们根据一些随机过程定义了环境提供的随机奖励。也就是说，奖励是由具有一定概率密度的一些分布产生的。为了捕捉奖励的不确定性并促进训练，建议采用奖励估计来减少随机奖励的影响。奖励估计器是具有随机奖励的场景中的核心组件，它在时间步 $t$ 评估 $s$ ， $(s,a)$ ， $(s,a,s^{'})$ ，并估计用于引导智能体通过用户目标的可能奖励。Romoff等人通过函数逼近将学习奖励估计器的任务建模为简单的点到点回归问题： $L(\varphi )=\mathbb{E}[(r-\tilde{R}(T; \varphi))^2]$ ，其中 $\tilde{R}(T;\varphi)$ 是基于不同输入 $T$ 的具有参数 $\varphi$ 的奖励估计器 $T\in\left \{ s,(s,a),(s,a,s^{'}) \right \}$ 。

5，DRE-MARL

在本节中，我们为MARL中的报酬不确定性问题介绍了一个通用的训练框架，即多智能体分配报酬估计（DRE-MARL），如图1所示。我们采用集中训练和分散执行（CTDE）的体系结构[22]，它由 $N$ 个分散参与者 $\left \{ \pi_{\theta}^i \right \}_{i\in N}$ 组成和集中批评家 $V_{\gamma,\psi }^{\pi}$ ，分别由 $\theta$ 和 $\psi$ 参数化。在实践中，我们使用图1（a）中所示的 $\left \{ \pi_{\theta}^i \right \}_{i\in N}$ ，与环境交互并收集经验。图1（b）显示了建议的分配报酬估计结构，该结构由两个阶段组成：我们首先根据观察到的经验执行多行动分支报酬分布估计，并根据行动分支的报酬分布执行样本报酬。 然后我们汇总环境奖励和抽样奖励，以指导评论家和演员的训练。图1（c）表明，我们利用具有多头注意力的图形注意力网络[21，4]从观测 $(o^1,...,o^N)$ 中获取全局信息。在训练期间，集中式批评者可以通过一次前向计算为所有智能体同时产生优势信号。为了稳定，我们构造了目标集中临界值 $V_{\gamma,\hat{\psi} }^{\pi}$ 。 $N$ 个目标策略，分别由 $\title{\theta}$ $\tilde{\psi }$ 和 $\title{\psi}$ $\tilde{\theta}$ 参数化，仅使用当前网络参数更新 $(\tilde{\psi },\tilde{\theta})$ ，并且在每次更新之间保持固定。

图1：多主体分布报酬估计的总体架构，包括（a）分散参与者（b）分布报酬估计（c）集中式批评者。如（a）所示，我们根据每个智能体的观察结果执行分散执行，并将经验存储在重放缓冲区中。然后在（b）中，我们执行多动作分支奖励估计，然后执行策略加权奖励聚合。最后，如（c）所示，集中式评论家执行具有聚合奖励的训练，并为演员提供优势信号。

5.1，多动作分行奖励估算

对报酬分配建模具有挑战性，因为由智能体相互作用引起的报酬不确定性随着智能体数量的增加呈指数增长。一种直接的方法是在联合状态动作空间上建模奖励分布。但是，随着智能体数量的增加，这种方法会受到相互作用带来的巨大不确定性的影响。此外，在消融研究中（详见图3（左）），我们还验证了建模联合奖励分配不能解决这个问题。

为了应对上述挑战，我们提出了另一种方法来实现我们的目标。我们通过将其他智能体视为环境的一部分来简化问题，这样我们只需要关注每个智能体的报酬估计，而不是所有智能体。此外，受人类将根据历史经验想象潜在后果这一事实的启发，我们为每个智能体配备了一个奖励估计 $\hat{R}^i$ ，以更好地捕捉奖励不确定性并稳定训练过程。具体来说，对于时间步 $t$ 处的智能体 $i$ ，我们提出了多动作分支报酬估计器 $\hat{R}^i(o_t^i,a_{k,t};\varphi ^i)\in D$ 基于智能体 $i$ 的观察 $o_t^i$ 和第 $k$ 个动作 $a^i_{k,t}$ 来建模进行奖励分配，其中 $D$ 表示奖励分配空间， $\hat{R}_k^i$ 表示智能体 $i$ 在第 $k$ 个动作分支中的奖励分布， $\varphi ^i$ 是 $\hat{R}^i$ 的参数。我们使 $\hat{R}^i\in D^K$ 表示智能体 $i$ 的 $K$ 个估计报酬分配。我们可以通过优化总体目标函数 $J_r=\sum_i J_r^i(\varphi ^i)$ ，每个智能体的损失函数如下：

$J_r(\varphi )=\mathbb{E}_{(o,a_k,r_k)\sim D}\left [ -log \mathbb{P}\left [ r_k|\hat{R}(o,a_k;\varphi) \right ]+L_{\hat{R}} \right ]$

我们省略了 $J_r(\varphi)$ 上标 $i$ ， $D$ 是重置缓存区， $-log\,\mathbb{P}[\cdot|\cdot]$ 是负对数似然。 $L_{\hat{R}}$ 是奖励分配的常规术语。在实践中，我们采用高斯奖励分布 $D(\mu,\sigma)$ ， $\hat{R}$ 可以很容易地扩展到其他分布。那么 $L_{\hat{R}}$ 可以定义为 $\alpha \cdot||\sigma||_1+\beta\cdot var(\mu)$ ，其中 $var$ 是 $\mu$ 的方差。 $\alpha$ 和 $\beta$ 是超参数。

5.2，奖励聚合训练

对于每个智能体在每个时间步，智能体在执行第 $k$ 个动作 $a_k$ 时只能获得单个奖励 $r_k$ 。但是，我们将 $r_k$ 作为一个累积的奖励向量进行扩充，其中向量的第 $k$ 个是 $r_k$ ，下面的部分是 $\hat{R}^i$ 采样的估计奖励 $\hat{r}$ 。然后，我们用策略加权操作来聚合累积的奖励向量。我们主要获得两种奖励后的聚合奖励：混合报酬 $\bar{R}\in \mathbb{R}$ 和集中奖励 $\bar{r}\in \mathbb{R}$ ，其中 $\bar{R}$ 用于更新集中式批评者 $V_{\gamma,\psi }$ ， $\bar{r}$ 用于更新分散的参与者 $\left \{ \pi_{\theta}^i \right \}_{i\in N}$ 。

具体来说，对于每个智能体，我们首先定义累积奖励向量 $m=h(\hat{r},r_k)\in \mathbb{R}^K$ 是通过将向量 $\hat{r}$ 的第 $k$ 个值替换为真实环境奖励 $r_k$ 而构造的，因为智能体仅在与环境交互期间获取 $a_k$ ，其中 $h(\cdot)$ 定义为 $h(\hat{r},r_k)=[\hat{r}_1,...,r_k,...,\hat{r}_K]$ 。

然后是混合奖励 $\bar{R}=g(m^1,...,m^N) \cdot \tilde{\pi}^i(\cdot|o)$ 通过策略加权聚合计算，其中 $g(\cdot)$ 表示如下两个运算。

均值运算（ $g_{MO}$ ）：我们使用 $m1,...,m_N$ 的平均值作为 $g(\cdot)$ 的输出。

简单选择（ $g_{SS}$ ）：我们直接为智能体 $i$ 选择 $m^i$ 以计算混合报 $\bar{R}$ 。

在数学上 $\bar{R}$ 定义为：

$\bar{R}^i=g(m^1,...,m^N)\cdot \tilde{\pi}(\cdot|o)=\left\{\begin{matrix} mean(m^1,..,m^N)\cdot \tilde{\pi}^i(\cdot|o) & if g = g_{MO} \\ m^i\cdot \tilde{\pi}^i(\cdot|o) & if g = g_{SS} \end{matrix}\right.$

从奖励分布中取样已被证明有利于在某些环境中进行探索。但同时，它也会在训练过程中引入更多的不确定性。在这里，我们主要关注减少奖励不确定性的影响。因此，我们使用奖励分配的平均值来执行奖励聚合，通常实现更稳定的训练过程。这两种方案，即抽样方案和均值方案，可以灵活选择。这是一个权衡：我们选择前者，而环境很难探索。后者更适合于具有更多不确定性但易于探索的环境。

接下来，集中式批评者通过最小化Bellman残差来更新参数状态值函数 $V_{\gamma,\psi }$ :

$J_c(\psi )=\mathbb{E}_{(o,r_k,o^{'})\sim D}\left [ \bar{R}+\gamma V_{\gamma,\tilde{\varphi}}(o^{'})-V_{\gamma,\psi} (o)\right ]^2$

其中 $\psi$ 和 $\tilde{\psi }$ 分别是当前状态值网络和目标状态值网络的参数，最后，对于每次训练迭代中的每个智能体，分散的参与者遵循相同的策略优化训练方案，具有优势函数[41]：

$J_a(\theta)=\mathbb{E}\left [ min(u(\theta),clip(u(\theta),1-\epsilon ,1+\epsilon ))\hat{A}_{\gamma}+\eta H(\pi_{\theta}) \right ]$

其中 $u(\theta)=\frac{\pi_{\theta}(a|o)}{\pi_{\bar{\theta}}(a|o)}$ 是重采样权重，是clip-超参数，通常我们选择 $\epsilon =0.2$ 。 $H(\pi_{\theta}^i)$ 是智能体 $i$ 的策略熵， $\eta$ 控制熵惩罚目标的重要性。对于智能体 $i$ ，优势值定义 $\hat{A}^i_{\gamma}=\bar{r}^i+\gamma V_{\gamma,\tilde{\psi }}(o^{'})-V_{\gamma,\psi }(o)$ ，其中 $\bar{r}^i = l(m^1,...,m^N,r_k^i)$ 是集中奖励：

$\bar{r}^i=l(m^1,...,m^N,r_k^i)=\left\{\begin{matrix} mean(m^1,...,m^N) &if\,\,l =l_{MO} \\ mean(m^i) & if\,\,l =l_{SMO} \\ r_k^i & if\,\,l = l_{SS} \end{matrix}\right.$

其中 $l$ 表示如下三个操作：

平均运行时间（ $l_{MO}$ ）：我们平均所有智能体的累积奖励 $m^i_{i\in N}$ 以获得单个输出。

简单平均操作（ $l_{SMO}$ ）：我们利用智能体 $i$ 的累积奖励 $m^i$ 的平均值作为输出。

简单选择（ $l_{SS}$ ）：我们直接选择环境奖励 $r_k^i$ 作为集中奖励。

按照上述过程，我们可以迭代地更新奖励估计器和策略。有关优化DRE-MARL的详细信息和完整算法，请参见附录A。

6，实验

6.1，实验设置

为了证明该方法的有效性，我们在基于多智能体粒子环境[22]（MPE）和MPE的几个变体的几个基准MARL环境中提供了实验结果。具体来说，我们考虑从小到大的智能体数量的合作导航（CN）、参考（REF）和宝藏收集（TREA）环境。在下面的章节中，我们使用CN-q、REF-q和TREA-q来表示不同的环境变量，其中 $q\in\left \{ 2,3,7,10 \right \}$ ，整个环境变量为｛CN-3、CN-7、CN-10、REF-2、REF-7、REF-10, TREA-3, TREA-7, TREA-10}。在所有这些环境中，奖励设置为协作，这意味着奖励是个人奖励的总和。详细的实验描述和设置见附录。

奖励制定：为了模拟这些经典环境中的奖励不确定性，我们研究了几种具有诱导不确定性的奖励设置，如下所示：

确定性奖励（ $r_{dete}$ ）：在经典环境中，奖励是根据距离计算的[13,22]。假设反馈准确无误。确定性奖励是指相同的观察-行动对被映射到相同的奖励。我们使用 $r^i_{dete}$ 来表示此奖励设置。

自然扰动奖励（ $r_{dist}$ ）：第4.1节中提到的由自然扰动引起的奖励不确定性可被视为对收到的奖励的总体影响，因为动力来源相互耦合。与之前的工作[38，60]类似，我们考虑了自然扰动奖励，其设计如下 $r_{dist}^i\sim N(r_{dete}^i,1)*0.05+r_{dete}^i$ 。我们使用 $r_{dist}^i$ 以表示该奖励设置。

相互互动奖励（ $r_{ac-dist}$ ）：为了模拟第4.1节中提到的相互作用导致的奖励不确定性，我们在不同的行动分支上添加不同的奖励分布，使得相同的观察行动对将产生不同的奖励。具体来说，智能体的分发奖励定义为 $r_{ac-dist}^i\sim N(\mu,\delta)+r_{dete}^i$ ，其中 $u=Index(a_k^i)$ ， $\delta = 0.001$ 。我们使用 $r_{ac-dist}^i$ 代表这种奖励设置。 $r_{dist}$ 和 $r_{ac-dist}$ 设置特别具有挑战性，因为智能体需要征服更多的动态。

基准：为了验证具有报酬不确定性的MARL中分配报酬估计的有效性，我们选择以下方法作为基线：MADDPG[22]采用基于值的集中式Q网络连接并处理所有智能体的观察。MAAC[13]在CTDE范式中使用注意机制。MAPPO[62]采用基于策略的方法取得了良好的结果。QMIX[36]采用单调性分解团队奖励。IQL[58]对每个智能体进行完全独立的训练。除上述方法外，我们还将其与点对点（p2p-MARL）奖励估计[38]和全局奖励估计（GRE-MARR）进行了比较。

Metrics：对于我们考虑的所有方法，我们报告不同奖励设置（ $r_{dete}$ 、 $r_{dist}$ 、 $r_{ac-dist}$ ）下的最终表现），如上所述。根据先前的研究[13,22]，我们设episode长度为25并使用平均episode奖励作为评估指标。由于不同场景中的性能值差异很大，我们还考虑基于所有方法的性能标准化。例如，如果我们有性能值 $(M_1,M_2,M_3)$ ，在三个模型中，标准化性能定义为： $M_v^{'}=\frac{\omega (M_v-min(M_1,M_2,M_3))}{max(M_1,M_2,M_3)-min(M_1,M_2,M_3)}$ ，其中 $w$ 使我们能够适当区分方法的差异。我们在实验中设置 $\omega =10$ 。有关训练和实施的更多详情见附录C。

6.2，结果和分析

表1显示了三种奖励设置下不同方法的性能。我们报告每个实验的真实值。结果表明，在大多数环境下，DRE-MARL达到了最佳性能，这表明了分配报酬估计的有效性。在几个场景中，例如使用 $r_{dete}$ 和 $r_{dist}$ 的TREA-7，DRE-MARL不是最好的，但它的性能非常接近最佳。在 $r_{ac-dist}$ 下奖励不确定性，DRE-MARL在TREA-3、TREA-7和TREA-10中失败。这是因为 $r_{ac-dist}$ 给TREA中基于注意力的方法带来了更多的困难：DRE-MARL和MAAC都采用了多头注意力结构，并且它们都受到相同的变化趋势的影响。我们发现，在rdete和rdist设置中，MAAC实现了具有竞争力的性能，而我们的方法达到了最佳性能。但在比赛中 $r_{ac-dist}$ 设置，MAAC的性能非常差，而且DRE-MARL不是最好的。如果我们在使用rac设置TREA时基于注意力考虑DRE的效用（即DRE-MARL和MAAC之间的比较），DRE至少提高了50%。

表1：在 $r_{dete}$ 、 $r_{dist}$ 和 $r_{ac-dist}$ 下DRE-MARL和几种SOTA MARL算法的性能比较设置。这些值表示平均情节奖励。

为了揭示上述方法的综合能力，我们对所有方法的性能进行标准化，并绘制出如图2所示的总体性能）表示相应的场景（CN-q、REF-q、TREA-q）。为了获得多边形顶点的值，我们将所有奖励设置 $r_{dete}$ 、 $r_{dist}$ 、 $r_{ac-dist}$ 下的性能标准化值取平均值。图2表明，DRE-MARL在几乎所有场景中都始终实现了最佳的总体性能。在REF-2和TREA-3中，DRE-MARL的性能略低于MADDPG，因为智能体数量较小，并且相对容易训练。此外，研究结果还表明，DRE-MARL在不同的奖励设置下能够捕获奖励不确定性并稳定训练，因此DRE-MARR在各种再奖励不确定性方面具有更强的鲁棒性。此外，详尽的实验见附录B。

图2：不同奖励设置（ $r_{dete}$ 、 $r_{dist}$ 和 $r_{ac-dist}$ ）下的标准化平均绩）。每个多边形（显示右侧）在三个子多边形（显示左侧）上取平均值，其中每个子多边形表示相应的奖励设置。子多边形的每个顶点表示归一化性能，从CN-3到TREA-10顺时针匹配。归一化的性能的详细计算方法见第6.1节。

6.3，消融实验

首先，我们进行消融研究，以研究不同报酬估计方法对所提出模型的影响：

DRE-MARL：分配报酬估计。

GRE-MARL：基于联合状态-动作对的全局奖励估计。

p2p-MARL：点对点奖励估计。

如图3（左）所示，我们报告了在 $r_{ac-dist}$ 奖励设置下上述方法的学习曲线−结果表明，DRE-MARL能够在不同的场景下获得更好的渐近性能。由于MARL的联合状态动作空间很大，GRE-MARL无法捕捉到奖赏的不确定性，这给全局奖赏估计带来了更多困难。p2p MARL没有将智能体之间相互作用引起的报酬不确定性视为一对多映射问题，因此在MARL场景中采用一对一报酬估计方法时表现不佳。

为了探讨不同奖励聚合方案对绩效的影响，我们在图3（右）中报告了rac下的几种聚合方案的绩效−dist设置。回想第5.2节中介绍的奖励聚合，我们选择以下聚合方案。1） lSS+gSS，2）lSMO+gMO，3）lMO+gMO、4）lSMO+gSS、5）lSMO（无聚合）。在图3（右）中，我们注意到，与GRE-MARL和p2p MARL相比，奖励聚合的效用使智能体能够深思熟虑地做出决策，从而在各种场景下持续提高性能。在所有聚合方案中，lSS+gSS达到了最佳性能，并且报告的结果也基于此聚合方案。更多详情见附录B.2。

图3：左：奖励设置 $r_{ac-dist}$ 下的消融研究。我们改变了报酬估计策略，如全局报酬估计（GRE-MARL）和点对点报酬估计（p2p-MALL），并探讨了不同报酬估计方法的影响。右：不同聚合方案的奖励聚合分析。我们使用不同且频繁使用的奖励聚合策略来评估我们的模型，这使我们能够全面评估我们的方法。

7，结论

在本文中，我们提出了DRE-MARL，一种针对MARL中奖励不确定性的通用且有效的奖励估计方法。为了捕捉奖励不确定性并稳定训练过程，我们研究了当存在奖励不确定性时，MARL中分配奖励估计和奖励聚合的好处。直觉是，仔细考虑所有可能的后果对学习策略是有用的。对于我们提出的DRE-MARL，我们提出了两个阶段来执行分配报酬估计：我们首先设计多动作分支报酬估计，以对所有动作分支的报酬分布进行建模。然后，我们提出了具有环境奖励和抽样奖励的策略加权奖励聚合。这里我们强调，奖励聚合会将奖励从一个动作分支增加到所有动作分支，从而为评论家和演员提供更精确的更新信号。实验结果表明，通过该框架学习的智能体能够获得最佳性能，并对不同类型的奖励不确定性表现出较强的鲁棒性。总之，我们希望我们的工作能够证明分配报酬估计在存在报酬不确定性时提高MARL能力的潜力，并鼓励未来的工作开发新的报酬估计方法。

就限制而言，DRE-MARL要求事先假设奖励分配的形式。就像缠结信号可以分解成简单但基本的正弦信号的叠加一样，我们可以考虑在未来的工作。另一个限制是奖励聚合仅用于离散动作空间。未来可能会研究两种解决方案来解决这一限制：1）离散化可用动作值的范围。2）学习一个以动作为输入的网络，就像我们如何将离散动作DQN[26]转换为DDPG[19]中的连续动作Q网络一样。在实践中使用我们的方法时，我们没有看到我们的工作对社会产生任何负面影响。