2025-06-19 19:56:47 +08:00
|
|
|
|
### GAT 在多智能体强化学习中的衔接方式
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
| 位置 | 作用 | 关键公式 / 流程 | 典型引文 |
|
|
|
|
|
| --------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | -------- |
|
|
|
|
|
| **1. 把多智能体系统显式建模成图** | 训练时每一步根据空间/通信半径或 *k* 近邻规则,把 *N* 个智能体构成动态图 $G=(V,E)$;邻接矩阵 *A* 随场景变化而更新,从而刻画“谁会与谁交互” | – | – |
|
|
|
|
|
| **2. 节点特征准备** | 每个智能体的原始观测 $o_i$ 先经类型专属投影矩阵 $M_{\varphi_i}$ 映射到统一特征空间,得到 $o'_i$ 作为 **节点特征**(后续注意力汇聚的输入) | $o'_i = M_{\varphi_i} \cdot o_i$ | |
|
|
|
|
|
| **3. GAT 自适应信息融合** | 对每条边 $i\!\to\!j$ 计算注意力分数并 Soft-max 归一化 | $\alpha_{ij}=\mathrm{softmax}_j\bigl(\text{LeakyReLU}\,[W h_i \,\|\, W h_j]\bigr)$ | |
|
|
|
|
|
| | 按权重聚合邻居特征,得到携带局部交互信息的 $v_i$: | $v_i=\sum_{j\in\mathcal N_i}\alpha_{ij}\,W\,o'_j$ | |
|
|
|
|
|
| | 多头拼接 → 平均池化得到 **队伍级全局表示** $o_{\text{all}}$,每个智能体和后续 Critic 都可访问 | $o_{\text{all}}=\frac{1}{N}\sum_{i=1}^N\|_{h=1}^H v_i^{(h)}$ | |
|
|
|
|
|
| **4. 融入 CTDE 训练管线** | *Agent Network*:每个智能体的 RNN/GRU 接收 $[o'_i,\,o_{\text{all}}]$,输出局部 $Q_i$。<br>*Mixing Network*:沿 QMIX 单调性约束,用 $o_{\text{all}}$(或全局状态 $s$)作为超网络条件,将 $\{Q_i\}$ 汇聚成联合 $Q_{\text{tot}}$ | $Q_{\text{tot}} = \text{Mix}\bigl(Q_1,\dots,Q_N;\,s\text{ 或 }o_{\text{all}}\bigr)$ | |
|
|
|
|
|
| **5. 执行阶段** | 训练完毕后,每个智能体只保留依赖 $o_i$(或轻量通信)的策略参数,保持 **去中心化执行**;GAT 与联合 $Q$ 评估仅在集中式训练时使用 | – | – |
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
|
|
|
|
---
|
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
#### 为什么 GAT 能显著提升 MARL 表现?
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
1. **可变拓扑的自适应感知**
|
|
|
|
|
传统拼接/平均把所有邻居一视同仁;GAT 通过 $\alpha_{ij}$ 动态衡量邻居重要性,适应不断变化的通信或空间结构。
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
2. **减少信息冗余、突出关键交互**
|
|
|
|
|
注意力权重抑制无关或冗余邻居特征,只保留对当前决策真正有影响的信息,在复杂异构场景中尤为有效。
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
3. **统一异构观测的自动融合**
|
|
|
|
|
先投影再做图注意力,避免人工设计融合规则,支持 LiDAR、相机等多模态数据共存。
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
4. **更精确的联合 Q 估计 → 更快收敛**
|
|
|
|
|
消融实验显示,加入 GAT 后在 SMAC 的复杂对抗场景中赢率提升且达到同等胜率所需样本显著减少,证明其降低了 Critic 估计方差,缓解了非平稳性。
|
2025-06-16 19:37:23 +08:00
|
|
|
|
|
|
|
|
|
---
|
|
|
|
|
|
2025-06-19 19:56:47 +08:00
|
|
|
|
**一句话**:在多智能体强化学习里,GAT 把“谁与谁交互、交互强弱”编码成可训练的图注意力权重,将各智能体局部观测融合成全局队伍表示,供集中式 Critic 精准估值;这样既不破坏去中心化执行,又显著提升协作效率与收敛速度。
|