# 高飞论文 ## 证明特征值序列为平稳的时间序列 ### 问题设定 - **研究对象** 设 $\{\lambda_1(A)_t\}_{t\in\mathbb Z}$ 是随时间变化的随机对称矩阵 $A_t$ 的最大特征值序列(如动态网络的邻接矩阵)。 - **目标** 证明 $\{\lambda_1(A)_t\}$ 是 **二阶(弱)平稳**的时间序列,即 1. $E[\lambda_1(A)_t]=\mu_1$(与 $t$ 无关); 2. $\operatorname{Var}[\lambda_1(A)_t]=\sigma_1^2<\infty$(与 $t$ 无关); 3. $\operatorname{Cov}(\lambda_1(A)_t,\lambda_1(A)_{t-k})=\gamma(k)$ 只依赖滞后 $k$。 ### 关键假设 - **矩阵统计特性(引理 1)** - $A_t$ 为 $N\times N$ 实对称随机矩阵;元素 $\{a_{ij}\}_{i\le j}$ 相互独立且有界:$|a_{ij}|\le K$。 - 非对角元素:$E[a_{ij}]=\mu>0,\ \operatorname{Var}(a_{ij})=\sigma^2$;对角元素:$E[a_{ii}]=v$。 - $N$ 足够大时 $$ E[\lambda_1(A_t)]\approx(N-1)\mu+v+\tfrac{\sigma^2}{\mu}\equiv\mu_1,\qquad \operatorname{Var}[\lambda_1(A_t)]\approx2\sigma^2\equiv\sigma_1^2 . $$ 说明: - **$\sigma^2$** 这是随机矩阵 $A_t$ 的非对角线元素 $a_{ij}$ ($i \neq j$) 的方差,即 $$ \text{Var}(a_{ij}) = \sigma^2. $$ 根据引理1的假设,所有非对角线元素独立同分布,均值为 $\mu$,方差为 $\sigma^2$。 - **$\sigma_1^2$** 这是最大特征值 $\lambda_1(A_t)$ 的方差,即 $$ \text{Var}[\lambda_1(A_t)] \equiv \sigma_1^2. $$ 当 $N$ 足够大时,$\sigma_1^2$ 近似为 $2\sigma^2$。 - **时间序列模型** 对**去中心化序列** $$ \tilde z_t:=\lambda_1(A)_t-\mu_1 $$ 假设其服从 AR(1) $$ \tilde z_t=\rho\,\tilde z_{t-1}+\varepsilon_t,\qquad \varepsilon_t\stackrel{\text{i.i.d.}}{\sim}\text{WN}(0,\sigma_\varepsilon^{2}),\ \ |\rho|<1, $$ 且 $\varepsilon_t$ 与历史 $\{\tilde z_{s}\}_{sd$ 。1.高维嵌入不仅保留了绝对位置信息,还包括了网络拓扑信息。2.兼容下游LSTM任务需求。 ### LSTM 模块 #### 输入数据构造 在时序预测中,对于每个节点,我们通常有一段历史数据序列。假设我们采集了最近 $T$ 个时刻的数据,然后采用“滑动窗口”的方式,预测 $T+1$、 $T+2$... - 对于每个时刻 $t$,节点 $i$ 的空间特征 $x_i^{(t)} \in \mathbb{R}^{d'}$ 由 GCN 得到; - 将这些特征按照时间顺序排列,得到一个序列: $$ X_i = \bigl[ x_i^{(t-T+1)},\, x_i^{(t-T+2)},\, \dots,\, x_i^{(t)} \bigr] \quad \in \mathbb{R}^{T \times d'}. $$ 对于整个网络来说,可以将数据看作一个三维张量,维度为 $(N, T, d')$。 #### LSTM 内部运作 LSTM 通过内部门控机制(遗忘门 $f_t$、输入门 $i_t$ 和输出门 $o_t$)来更新其记忆状态 $C_t$ 和隐藏状态 $h_t$。公式如下 - **遗忘门**: $$ f_t = \sigma(W_f [h_{t-1},\, x_t] + b_f) $$ - **输入门和候选记忆**: $$ i_t = \sigma(W_i [h_{t-1},\, x_t] + b_i) \quad,\quad \tilde{C}_t = \tanh(W_C [h_{t-1},\, x_t] + b_C) $$ - **记忆更新**: $$ C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t $$ - **输出门和隐藏状态**: $$ o_t = \sigma(W_o [h_{t-1},\, x_t] + b_o), \quad h_t = o_t \odot \tanh(C_t) $$ 其中,$x_t$ 在这里对应每个节点在时刻 $t$ 的 GCN 输出特征; $[h_{t-1},\, x_t]$ 为连接后的向量; LSTM 的隐藏状态 $h_i \in \mathbb{R}^{d'' \times 1}$(其中 $d''$ 为 LSTM 的隐藏单元数)捕捉了时间上的依赖信息。 #### 输出与预测 最后,经过 LSTM 处理后,我们在最后一个时间步获得最终的隐藏状态 $h_t$ 或使用整个序列的输出;接着通过一个全连接层(FC层)将隐藏状态映射到最终的预测输出。 - **全连接层转换公式**: $$ \hat{y}_i = W_{\text{fc}} \cdot h_t + b_{\text{fc}} $$ 其中,假设预测的是二维坐标(例如 $x$ 和 $y$ 坐标),$W_{\text{fc}} \in \mathbb{R}^{2 \times d''}$,输出 $\hat{y}_i \in \mathbb{R}^2$ 表示节点 $i$ 在未来某个时刻(或下一时刻)的预测坐标。 ![image-20250411142712730](https://pic.bitday.top/i/2025/04/11/nlpxlh-0.png) 若整个网络有 $N$ 个节点,则最终预测结果的输出维度为 $N \times 2$(或 $N \times T' \times 2$,如果预测多个未来时刻)。 ### 疑问 该论文可能有点问题,每个节点只能预测自身未来位置,无法获取全局位置信息。如果先LSTM后GCN可能可以!