# 高飞论文 ## 证明特征值序列为平稳的时间序列 ### 问题设定 - **研究对象** 设 $\{\lambda_1(A)_t\}_{t\in\mathbb Z}$ 是随时间变化的随机对称矩阵 $A_t$ 的最大特征值序列(如动态网络的邻接矩阵)。 - **目标** 证明 $\{\lambda_1(A)_t\}$ 是 **二阶(弱)平稳**的时间序列,即 1. $E[\lambda_1(A)_t]=\mu_1$(与 $t$ 无关); 2. $\operatorname{Var}[\lambda_1(A)_t]=\sigma_1^2<\infty$(与 $t$ 无关); 3. $\operatorname{Cov}(\lambda_1(A)_t,\lambda_1(A)_{t-k})=\gamma(k)$ 只依赖滞后 $k$。 ### 关键假设 - **矩阵统计特性(引理 1)** - $A_t$ 为 $N\times N$ 实对称随机矩阵;元素 $\{a_{ij}\}_{i\le j}$ 相互独立且有界:$|a_{ij}|\le K$。 - 非对角元素:$E[a_{ij}]=\mu>0,\ \operatorname{Var}(a_{ij})=\sigma^2$;对角元素:$E[a_{ii}]=v$。 - $N$ 足够大时 $$ E[\lambda_1(A_t)]\approx(N-1)\mu+v+\tfrac{\sigma^2}{\mu}\equiv\mu_1,\qquad \operatorname{Var}[\lambda_1(A_t)]\approx2\sigma^2\equiv\sigma_1^2 . $$ 说明: - **$\sigma^2$** 这是随机矩阵 $A_t$ 的非对角线元素 $a_{ij}$ ($i \neq j$) 的方差,即 $$ \text{Var}(a_{ij}) = \sigma^2. $$ 根据引理1的假设,所有非对角线元素独立同分布,均值为 $\mu$,方差为 $\sigma^2$。 - **$\sigma_1^2$** 这是最大特征值 $\lambda_1(A_t)$ 的方差,即 $$ \text{Var}[\lambda_1(A_t)] \equiv \sigma_1^2. $$ 当 $N$ 足够大时,$\sigma_1^2$ 近似为 $2\sigma^2$。 - **时间序列模型** 对**去中心化序列** $$ \tilde z_t:=\lambda_1(A)_t-\mu_1 $$ 假设其服从 AR(1) $$ \tilde z_t=\rho\,\tilde z_{t-1}+\varepsilon_t,\qquad \varepsilon_t\stackrel{\text{i.i.d.}}{\sim}\text{WN}(0,\sigma_\varepsilon^{2}),\ \ |\rho|<1, $$ 且 $\varepsilon_t$ 与历史 $\{\tilde z_{s}\}_{s **说明**: > > - 在矩阵形式的 Kalman Filter 中,通常写作 > $$ > w_k\sim\mathcal N(0,Q),\quad v_k\sim\mathcal N(0,R). > $$ > > - 这里为做统计检验,把 $w_i, v_j$ 当作样本,$Q,R$ 就是它们在**标量**情况下的方差。 --- ### 2. 样本统计量 | 符号 | 含义 | | ----------- | ------------------------------ | | $N_w,\;N_v$ | 过程噪声样本数和观测噪声样本数 | | $\bar w$ | 过程噪声样本均值 | | $\bar v$ | 观测噪声样本均值 | | $s_w^2$ | 过程噪声的**样本方差**估计 | | $s_v^2$ | 观测噪声的**样本方差**估计 | > **定义**: > $$ > \bar w = \frac1{N_w}\sum_{i=1}^{N_w}w_i,\quad > s_w^2 = \frac1{N_w-1}\sum_{i=1}^{N_w}(w_i-\bar w)^2, > $$ > > $$ > \bar v = \frac1{N_v}\sum_{j=1}^{N_v}v_j,\quad > s_v^2 = \frac1{N_v-1}\sum_{j=1}^{N_v}(v_j-\bar v)^2. > $$ --- ### 3. 方差比的 $F$ 分布区间估计 1. **构造 $F$ 统计量** $$ F = \frac{(s_w^2/Q)}{(s_v^2/R)} = \frac{s_w^2}{s_v^2}\,\frac{R}{Q} \sim F(N_w-1,\,N_v-1). $$ 2. **置信区间**(置信度 $1-\alpha$) 查得 $$ F_{L}=F_{\alpha/2}(N_w-1,N_v-1),\quad F_{U}=F_{1-\alpha/2}(N_w-1,N_v-1), $$ 则 $$ \begin{align*} P\Big\{F_{\rm L}\le F\le F_{\rm U}\Big\}=1-\alpha \quad\Longrightarrow \quad P\Big\{F_{\rm L}\,\le\frac{s_w^2}{s_v^2}\,\frac{R}{Q}\le F_{\rm U}\,\Big\}=1-\alpha. \end{align*} $$ 3. **解出 $\frac{R}{Q}$ 的区间** $$ P\Bigl\{\,F_{L}\,\frac{s_v^2}{s_w^2}\le \frac{R}{Q}\le F_{U}\,\frac{s_v^2}{s_w^2}\Bigr\}=1-\alpha. $$ 令 $$ \theta_{\min}=\sqrt{\,F_{L}\,\frac{s_v^2}{s_w^2}\,},\quad \theta_{\max}=\sqrt{\,F_{U}\,\frac{s_v^2}{s_w^2}\,}. $$ --- ### 4. 卡尔曼增益与误差上界 在标量情况下(即状态和观测均为1维),卡尔曼增益公式可简化为: $$ K = \frac{P_k H^T}{HP_k H^T + R} = \frac{HP_k}{H^2 P_k + R} $$ 针对我们研究对象,特征值滤波公式的系数都属于实数域。$P_{k-1}$是由上次迭代产生,因此可以$FP_{k-1}F^T$看作定值,则$P_k$的方差等于$Q$的方差,即: $$ \text{var}(P_k) = \text{var}(Q) $$ 令 $c = H$, $m = 1/H$(满足 $cm = 1$),则: $$ K = \frac{cP_k}{c^2 P_k + R} = \frac{1}{c + m(R/P_k)} \quad R/P_k\in[\theta_{\min}^2,\theta_{\max}^2]. $$ 则极值为 $$ K_{\max}=\frac{1}{c + m\,\theta_{\min}^2},\quad K_{\min}=\frac{1}{c + m\,\theta_{\max}^2}. $$ 通过历史数据计算预测误差的均值: $$ E(x_k' - x_k) \approx \frac{1}{M} \sum_{m=1}^{M} (x_k^{l(m)} - x_k^{(m)})\\ $$ 定义误差上界 $$ \xi =\bigl(K_{\max}-K_{\min}\bigr)\;E\bigl(x_k'-x_k\bigr) =\Bigl(\tfrac1{c+m\,\theta_{\min}^2}-\tfrac1{c+m\,\theta_{\max}^2}\Bigr) \,E(x_k'-x_k). $$ 若令 $c\,m=1$,可写成 $$ \xi =\frac{(\theta_{\max}-\theta_{\min})\,E(x_k'-x_k)} {(c^2+\theta_{\min})(c^2+\theta_{\max})}. $$ --- 量化噪声方差估计的不确定性,进而评估卡尔曼滤波器增益的可能波动,并据此给出滤波误差的上界. ## 基于时空特征的节点位置预测 在本模型中,整个预测流程分为两大模块: - **GCN 模块:主要用于从当前网络拓扑中提取每个节点的**空间表示**。这里的输入主要包括: - **邻接矩阵 $A$**:反映网络中节点之间的连通关系,维度为 $N \times N$,其中 $N$ 表示节点数。(可通过第二章网络重构的方式获取) - **特征矩阵 $H^{(0)}$**:一般是原始节点的属性信息,如历史位置数据,其维度为 $N \times d$,其中 $d$ 是初始特征维度。 - **LSTM 模块**:用于捕捉节点随时间变化的动态信息,对每个节点的历史运动轨迹进行序列建模,并预测未来时刻的坐标。 其输入通常是经过 GCN 模块处理后,每个节点在一段时间内获得的时空融合特征序列,维度一般为 $N \times T \times d'$,其中 $T$ 表示时间步数,$d'$ 是经过 GCN 后的特征维度。 ### GCN 模块 #### 输入 - **邻接矩阵 $A$**:维度 $N \times N$。在实际操作中,通常先加上自环形成 $$ \hat{A} = A + I. $$ - **特征矩阵 $H^{(0)}$**:维度 $N \times d$,每一行对应一个节点的初始特征(例如历史采样的位置信息或其他描述)。 #### 图卷积操作 常用的图卷积计算公式为: $$ H^{(l+1)} = \sigma \Bigl(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} H^{(l)} W^{(l)} \Bigr) $$ 其中: - $\tilde{A} = A + I$ 为加上自环后的邻接矩阵, - $\tilde{D}$ 为 $\tilde{A}$ 的度矩阵,定义为 $\tilde{D}_{ii} = \sum_{j}\tilde{A}_{ij}$; - $H^{(l)}$ 表示第 $l$ 层的节点特征,初始时 $H^{(0)}$ 就是输入特征矩阵; - $W^{(l)}$ 是第 $l$ 层的权重矩阵,其维度通常为 $d_l \times d_{l+1}$(例如从 $d$ 到 $d'$); - $\sigma(\cdot)$ 是非线性激活函数,例如 ReLU 或 tanh。 经过一层或多层图卷积后,可以得到最终的节点表示矩阵 $H^{(L)}$(或记为 $X$),维度为 $N \times d'$。 其中: - 每一行 $x_i \in \mathbb{R}^{d'}$ 表示节点 $i$ 的空间特征,这些特征综合反映了其在网络拓扑中的位置及与邻居的关系。 #### 输出 - **GCN 输出**:形状为 $N \times d'$;若将模型用于时序建模,则对于每个时间步,都可以得到这样一个节点特征表示。 - 这里 $d'>d$ 。1.高维嵌入不仅保留了绝对位置信息,还包括了网络拓扑信息。2.兼容下游LSTM任务需求。 ### LSTM 模块 #### 输入数据构造 在时序预测中,对于每个节点,我们通常有一段历史数据序列。假设我们采集了最近 $T$ 个时刻的数据,然后采用“滑动窗口”的方式,预测 $T+1$、 $T+2$... - 对于每个时刻 $t$,节点 $i$ 的空间特征 $x_i^{(t)} \in \mathbb{R}^{d'}$ 由 GCN 得到; - 将这些特征按照时间顺序排列,得到一个序列: $$ X_i = \bigl[ x_i^{(t-T+1)},\, x_i^{(t-T+2)},\, \dots,\, x_i^{(t)} \bigr] \quad \in \mathbb{R}^{T \times d'}. $$ 对于整个网络来说,可以将数据看作一个三维张量,维度为 $(N, T, d')$。 #### LSTM 内部运作 LSTM 通过内部门控机制(遗忘门 $f_t$、输入门 $i_t$ 和输出门 $o_t$)来更新其记忆状态 $C_t$ 和隐藏状态 $h_t$。公式如下 - **遗忘门**: $$ f_t = \sigma(W_f [h_{t-1},\, x_t] + b_f) $$ - **输入门和候选记忆**: $$ i_t = \sigma(W_i [h_{t-1},\, x_t] + b_i) \quad,\quad \tilde{C}_t = \tanh(W_C [h_{t-1},\, x_t] + b_C) $$ - **记忆更新**: $$ C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t $$ - **输出门和隐藏状态**: $$ o_t = \sigma(W_o [h_{t-1},\, x_t] + b_o), \quad h_t = o_t \odot \tanh(C_t) $$ 其中,$x_t$ 在这里对应每个节点在时刻 $t$ 的 GCN 输出特征; $[h_{t-1},\, x_t]$ 为连接后的向量; LSTM 的隐藏状态 $h_i \in \mathbb{R}^{d'' \times 1}$(其中 $d''$ 为 LSTM 的隐藏单元数)捕捉了时间上的依赖信息。 #### 输出与预测 最后,经过 LSTM 处理后,我们在最后一个时间步获得最终的隐藏状态 $h_t$ 或使用整个序列的输出;接着通过一个全连接层(FC层)将隐藏状态映射到最终的预测输出。 - **全连接层转换公式**: $$ \hat{y}_i = W_{\text{fc}} \cdot h_t + b_{\text{fc}} $$ 其中,假设预测的是二维坐标(例如 $x$ 和 $y$ 坐标),$W_{\text{fc}} \in \mathbb{R}^{2 \times d''}$,输出 $\hat{y}_i \in \mathbb{R}^2$ 表示节点 $i$ 在未来某个时刻(或下一时刻)的预测坐标。 ![image-20250411142712730](https://pic.bitday.top/i/2025/04/11/nlpxlh-0.png) 若整个网络有 $N$ 个节点,则最终预测结果的输出维度为 $N \times 2$(或 $N \times T' \times 2$,如果预测多个未来时刻)。 ### 疑问 该论文可能有点问题,每个节点只能预测自身未来位置,无法获取全局位置信息。如果先LSTM后GCN可能可以!