md_files/科研/草稿.md

3.5 KiB
Raw Blame History

GAT 在多智能体强化学习中的衔接方式

位置 作用 关键公式 / 流程 典型引文
1. 把多智能体系统显式建模成图 训练时每一步根据空间/通信半径或 k 近邻规则,把 N 个智能体构成动态图 $G=(V,E)$;邻接矩阵 A 随场景变化而更新,从而刻画“谁会与谁交互”
2. 节点特征准备 每个智能体的原始观测 o_i 先经类型专属投影矩阵 M_{\varphi_i} 映射到统一特征空间,得到 o'_i 作为 节点特征(后续注意力汇聚的输入) o'_i = M_{\varphi_i} \cdot o_i
3. GAT 自适应信息融合 对每条边 i\!\to\!j 计算注意力分数并 Soft-max 归一化 \alpha_{ij}=\mathrm{softmax}_j\bigl(\text{LeakyReLU}\,[W h_i \,\|\, W h_j]\bigr)
按权重聚合邻居特征,得到携带局部交互信息的 $v_i$ v_i=\sum_{j\in\mathcal N_i}\alpha_{ij}\,W\,o'_j
多头拼接 → 平均池化得到 队伍级全局表示 $o_{\text{all}}$,每个智能体和后续 Critic 都可访问 o_{\text{all}}=\frac{1}{N}\sum_{i=1}^N\|_{h=1}^H v_i^{(h)}
4. 融入 CTDE 训练管线 Agent Network:每个智能体的 RNN/GRU 接收 $[o'i,,o{\text{all}}]$,输出局部 $Q_i$。
Mixing Network:沿 QMIX 单调性约束,用 $o_{\text{all}}$(或全局状态 $s$)作为超网络条件,将 \{Q_i\} 汇聚成联合 Q_{\text{tot}}
Q_{\text{tot}} = \text{Mix}\bigl(Q_1,\dots,Q_N;\,s\text{ 或 }o_{\text{all}}\bigr)
5. 执行阶段 训练完毕后,每个智能体只保留依赖 $o_i$(或轻量通信)的策略参数,保持 去中心化执行GAT 与联合 Q 评估仅在集中式训练时使用

为什么 GAT 能显著提升 MARL 表现?

  1. 可变拓扑的自适应感知
    传统拼接/平均把所有邻居一视同仁GAT 通过 \alpha_{ij} 动态衡量邻居重要性,适应不断变化的通信或空间结构。

  2. 减少信息冗余、突出关键交互
    注意力权重抑制无关或冗余邻居特征,只保留对当前决策真正有影响的信息,在复杂异构场景中尤为有效。

  3. 统一异构观测的自动融合
    先投影再做图注意力,避免人工设计融合规则,支持 LiDAR、相机等多模态数据共存。

  4. 更精确的联合 Q 估计 → 更快收敛
    消融实验显示,加入 GAT 后在 SMAC 的复杂对抗场景中赢率提升且达到同等胜率所需样本显著减少,证明其降低了 Critic 估计方差,缓解了非平稳性。


一句话在多智能体强化学习里GAT 把“谁与谁交互、交互强弱”编码成可训练的图注意力权重,将各智能体局部观测融合成全局队伍表示,供集中式 Critic 精准估值;这样既不破坏去中心化执行,又显著提升协作效率与收敛速度。