3.5 KiB
3.5 KiB
GAT 在多智能体强化学习中的衔接方式
位置 | 作用 | 关键公式 / 流程 | 典型引文 |
---|---|---|---|
1. 把多智能体系统显式建模成图 | 训练时每一步根据空间/通信半径或 k 近邻规则,把 N 个智能体构成动态图 $G=(V,E)$;邻接矩阵 A 随场景变化而更新,从而刻画“谁会与谁交互” | – | – |
2. 节点特征准备 | 每个智能体的原始观测 o_i 先经类型专属投影矩阵 M_{\varphi_i} 映射到统一特征空间,得到 o'_i 作为 节点特征(后续注意力汇聚的输入) |
o'_i = M_{\varphi_i} \cdot o_i |
|
3. GAT 自适应信息融合 | 对每条边 i\!\to\!j 计算注意力分数并 Soft-max 归一化 |
\alpha_{ij}=\mathrm{softmax}_j\bigl(\text{LeakyReLU}\,[W h_i \,\|\, W h_j]\bigr) |
|
按权重聚合邻居特征,得到携带局部交互信息的 $v_i$: | v_i=\sum_{j\in\mathcal N_i}\alpha_{ij}\,W\,o'_j |
||
多头拼接 → 平均池化得到 队伍级全局表示 $o_{\text{all}}$,每个智能体和后续 Critic 都可访问 | o_{\text{all}}=\frac{1}{N}\sum_{i=1}^N\|_{h=1}^H v_i^{(h)} |
||
4. 融入 CTDE 训练管线 | Agent Network:每个智能体的 RNN/GRU 接收 $[o'i,,o{\text{all}}]$,输出局部 $Q_i$。 Mixing Network:沿 QMIX 单调性约束,用 $o_{\text{all}}$(或全局状态 $s$)作为超网络条件,将 \{Q_i\} 汇聚成联合 Q_{\text{tot}} |
Q_{\text{tot}} = \text{Mix}\bigl(Q_1,\dots,Q_N;\,s\text{ 或 }o_{\text{all}}\bigr) |
|
5. 执行阶段 | 训练完毕后,每个智能体只保留依赖 $o_i$(或轻量通信)的策略参数,保持 去中心化执行;GAT 与联合 Q 评估仅在集中式训练时使用 |
– | – |
为什么 GAT 能显著提升 MARL 表现?
-
可变拓扑的自适应感知
传统拼接/平均把所有邻居一视同仁;GAT 通过\alpha_{ij}
动态衡量邻居重要性,适应不断变化的通信或空间结构。 -
减少信息冗余、突出关键交互
注意力权重抑制无关或冗余邻居特征,只保留对当前决策真正有影响的信息,在复杂异构场景中尤为有效。 -
统一异构观测的自动融合
先投影再做图注意力,避免人工设计融合规则,支持 LiDAR、相机等多模态数据共存。 -
更精确的联合 Q 估计 → 更快收敛
消融实验显示,加入 GAT 后在 SMAC 的复杂对抗场景中赢率提升且达到同等胜率所需样本显著减少,证明其降低了 Critic 估计方差,缓解了非平稳性。
一句话:在多智能体强化学习里,GAT 把“谁与谁交互、交互强弱”编码成可训练的图注意力权重,将各智能体局部观测融合成全局队伍表示,供集中式 Critic 精准估值;这样既不破坏去中心化执行,又显著提升协作效率与收敛速度。