探索未来：CVPR 2021 轨迹预测研究

最编程 2024-08-09 11:20:11

...

4篇cvpr2021 轨迹预测论文

1.Introvert: Human Trajectory Prediction via Conditional 3D Attention Introvert: 通过条件3D注意预测人类轨迹
- 1. Introduction
- 2. Related Works
- 3. Trajectory Prediction via Conditional 3D Attention
- - 3.1. Problem Settings**
  - 3.2. Overview of Proposed Framework**
  - 3.3. Kinematic Encoder(运动学编码)**
  - 3.4. Conditional 3D Visual Encoder（条件3D视觉编码器）**
  - 3.5. Trajectory Decoder**
  - 3.6. Training Strategy**
2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络
- 1. Introduction
- 2. Related Works
- 3. Our Method
- - 3.1. Sparse Graph Learning稀疏图学习
  - 3.2. Trajectory Representation and Prediction
- 4. Experiments and Analysis
- - 4.1. Comparison with State-of-the-Arts
  - 4.2. Ablation Study
  - 4.3. Visualization
- 5. Conclusion
3.Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
- 1.Introduction
- 2. Related Work
- - 2.1. Social Interactions
  - 2.2. Multimodality
- 3. Method
- - 3.1. Problem Definition
  - 3.2. Discrete Choice Models
  - 3.3. Model Architecture
  - 3.4. Anchor Selection
  - 3.5. Implementation Details
- 4. Experiments
- - 4.1. Interpretability of the Intents
  - 4.2. Direction Normalization
- 5. Conclusions

1. Introvert: Human Trajectory Prediction via Conditional 3D Attention
2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction
3. Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
4. Pedestrian and Ego-vehicle Trajectory Prediction from Monocular Camera

1.Introvert: Human Trajectory Prediction via Conditional 3D Attention Introvert: 通过条件3D注意预测人类轨迹

摘要：
预测人类轨迹是社交机器人和自动驾驶汽车等自主移动平台的重要组成部分。人类的轨迹既受环境的物理特征的影响，也受与他人社会互动的影响。尽管近年来对人的路径预测的研究激增，但大部分的研究都集中在静态场景信息上，无法充分利用场景丰富的动态视觉信息。
在本工作中，我们提出了一个 Introvert模型，该模型基于人的观察轨迹和动态场景背景，
通过工作在输入视频上的条件3D视觉注意机制捕获人的路径。
Introvert通过观察动态场景而不是与他人交流来推断环境约束和社会互动，因此，其计算成本与目标人周围的拥挤程度无关。
此外，为了关注每个人的相关交互和约束，Introvert将其三维注意力模型设定在目标人的观测轨迹上，提取并关注相关的时空基元。我们在五个公开数据集上的实验表明，内向者改善了目前的预测误差。

1. Introduction

预测人类在动态环境(如街道、机场、购物中心和运动场)中的未来轨迹是计算机视觉的一项重要任务，其应用领域包括自动驾驶、人-机器人交互、城市安全和广告等[50,11,48,21,15]。然而，预测人类的运动是一个极其困难的问题，因为身体、社会和心理因素共同影响着人们的运动轨迹。特别是，当我们在一个环境中移动时，我们会避免物理限制和障碍，遵循地标，给附近的人让路，遵循社会规范，并根据环境的变化改变我们的轨迹。这激发了近年来的大量工作，旨在为人类轨迹预测建模并纳入各种影响因素[1,39,23,13]。

Prior Works and Challenges. 早期的研究[14,9,10,24,25,30,36,4,49,46,51,42,53]设计了能量函数来模拟人类与人类的互动，也被称为“社会力量”。尽管这些方法相对成功，但它们需要仔细的特征和能量功能设计，通常只能捕捉简单的交互，而不能捕捉拥挤环境中的复杂交互。为了减轻这些限制，最近的方法提出了利用深度神经网络的进步的数据驱动方法。特别是，基于循环神经网络(RNN)的序列预测方法通过RNN对每个人的轨迹进行建模，RNN的潜在状态捕获了人类的运动，然后是社会池化，允许附近轨迹的循环模型共享它们的状态[1,13]。然而，它们无法在给予附近轨迹同样重要权重的情况下，捕获更远的人对目标轨迹的影响。为了克服这些局限性，基于注意力的模型被集成到rnn[39,3]和时空图[41,40,33,20]中，通过调整每个目标人的邻居的重要性来衡量不同的轨迹。然而，上面讨论的大多数方法只依赖于运动学数据，其中只包含场景中移动的agent的信息。

鉴于视频包含了丰富的关于场景物理配置和导航约束的信息，一些作品已经尝试使用场景的视觉上下文结合运动学数据来进行更有效的预测。这是通过将所有rnn的状态与通过cnn提取的当前帧的视觉特征连接起来实现的40,26,41，然后通过一个注意力模型来选择相关特征[39,40]。然而，现有作品面临着多重挑战。

首先，当前的方法提取的视觉信息通常是共享的，对于所有在环境中移动的人来说都是相同的。然而，在实践中，每个人的轨迹取决于他/她移动的地形区域，当前位置和预期目的地之间的物理约束，以及与路径相关的其他人。换句话说，场景的不同部分和视觉特征有不同的重要性，这取决于目标人。
其次，通过一次编码一帧得到的视觉特征无法捕获复杂的交互和社会规范，这就是为什么现有的方法需要通过将运行在运动学数据上的rnn的状态池化来整合社会交互。

更重要的是，从计算的角度来看，在推理过程中，首先需要对场景中的所有人运行一个人检测和跟踪算法，然后使用最近邻图或注意力连接rnn，从而能够预测目标人的轨迹。这使得现有的方法不能在推断时实时运行，特别是在拥挤的环境中，有很多人，但只有一个或几个感兴趣的目标。

Paper Contributions. 在本文中，我们使用条件三维视觉注意机制开发了一个有效的人体轨迹预测框架，解决了上述挑战。
我们认为，视频本身(不是一个单独的帧)包含了所有必要的信息，关于人类的运动和相互作用，以及动态约束，如移动的车辆，和静态约束，如建筑和人行道的环境。这可以从运动轨迹是从视频中提取的事实中看出，因此，不可能包含比视频本身更多的信息。
因此，我们不是通过连接场景中人类轨迹附近或所有循环模型来建模人类交互，而是利用视频来提取三维视觉交互信息(2个空间维度和1个时间维度)。

这消除了对场景中每个人运行检测和跟踪算法的需要，因此，提高了测试时间的效率，在那里只需要视频和目标人的跟踪。

我们开发了一种序列对序列的方法，该方法由两个并行编码流和一个解码流组成，前者收集与目标人体相关的三维视觉和运动学信息，后者预测目标人体未来的轨迹。
为了关注每个人的相关社会互动和物理约束，我们的视觉编码器使用了一个有条件的3D注意机制，该机制接收输入视频，并对目标人的观测轨迹进行条件反射，提取时空 primitives并学习处理信息量最大的 primitives。这些提取的 primitives可以是人行道的一部分，很少的车辆，远处的地标，以及场景中附近或远处的人。
在UCY[27]和ETH[35]数据集上的实验表明，该方法显著提高了现有性能，5个数据集上的平均预测误差从0.41降低到0.34。

2. Related Works

3. Trajectory Prediction via Conditional 3D Attention

在本节中，我们开发了一个用于人类轨迹预测的序列到序列框架，该框架利用视频数据直接推断使用条件3D注意机制的人类依赖交互。

3.1. Problem Settings**

轨迹预测是在给定人类先前的位置和场景的视觉信息的情况下，估计人类未来的位置。
假设我们有多个训练视频，每个视频包含多个tf帧的人体轨迹。与之前的工作类似，我们假设每个训练视频都经过一个人检测和跟踪算法的预处理，以获得tf视频帧中每个人的空间坐标(在测试期间，我们的方法只需要目标人的轨迹)。
我们用
u(p) t = (x(p) t,y(p) t) 2r2
表示人p在坐标系t的二维位置。假设我们观察从第一帧到到的轨迹和场景，目标是预测从+ 1到tf帧的轨迹。

对于一个人p，我们分别用表示观测到的位置和未来位置的顺序
在这里插入图片描述
我们也用Vo= (I1，…，Ito)表示观察帧的序列，对应于场景的俯视图或角度视图视频帧

3.2. Overview of Proposed Framework**

为了解决人体轨迹预测问题，我们利用编解码器体系结构建立了一种新的序列对序列模型。
我们的模型由两个并行编码器组成:一个是运动编码器，一个是视觉编码器，见图1。
在这里插入图片描述

运动编码器接收到观测到的轨迹信息To§ ，并产生一个潜在的运动轨迹Zkin§ ，它将观测到的位置信息编码。
视觉编码器接收观察到的帧Vo，并为每个人提取有条件的时空背景Zvis§ ，这捕获了预测未来轨迹所需的必要物理约束和社会互动。

为了提取时空背景 Zvis§ ，我们采用了一种三维双注意机制，该机制由
i)多个空间注意模块组成，该模块学习提取并关注视频的全局描述符，如人、人行横道、汽车和小巷;
Ii)描述符注意值，发现帧中每个像素的每个描述符的重要性。鉴于每个人用于在环境中移动的显著视觉信息不同于其他人，我们将双重注意机制置于人Zkin§的潜在运动轨迹上，以捕获特定于人的视觉编码。

解码器接收来自运动学和视觉编码器的编码信息，并将其解码为目标未来轨迹的分布Tf§ 。

与之前的工作不同，我们的框架中不同人的运动学编码器不交互。
相反，通过对观察到的视频整体进行操作，而不是单独处理每一帧，并根据每个人的观察轨迹调整视觉编码器，从而通过视觉流捕获交互。这允许我们的方法内在地捕获相关场景元素的运动学信息，并具有关注物理约束和可能很远的人的灵活性。
接下来，我们详细讨论我们的框架的每个组成部分，然后展示我们的学习和推理策略。为简便起见，我们将变量中的上标p去掉，因为它在上下文中很清楚。

3.3. Kinematic Encoder(运动学编码)**

（MLP将轨迹坐标转换为相对位置，输入LSTM网络）
为了获得合适的轨迹表示，运动编码器Ek(·)接收目标人的观测轨迹作为输入，形式为
在这里插入图片描述
它由 起始位置坐标和 连续帧间人体的相对位移 组成。我们选择这种格式是因为它使模型能够更好地捕捉几乎相同的轨迹之间的相似性，而这些轨迹可能有不同的起点。
我们使用一个完全连通的网络Φ 来转换每个输入向量，并将其传递给**递归网络(LSTM)**来捕获观测轨迹不同坐标之间的依赖关系。
我们用 Zkin表示LSTM单元的输出序列，它捕获了潜在的运动学轨迹。

3.4. Conditional 3D Visual Encoder（条件3D视觉编码器）**

如前所述，观察到的视频包含了关于场景中所有人的身体和社会约束的信息。

因此，我们使用**视觉编码器Ev(·)**来提取场景中每个人的定制视觉信息，我们用Zvis表示。
我们的编码器由三个连续的条件视觉特征提取和注意块{Bi}3 i=1组成，学习提取越来越复杂和高级的特征。
每个 Biis块由一个3D CNN层(Θi)和一个条件双注意网络(Ψi)组成。
每个3D CNN从视频中提取时空信息，条件双注意网络利用每个人的潜在运动轨迹信息Zkin，将视频中的相关时空区域聚焦给每个人。也就是说，视觉编码器的输入具有3维(2空间维+ 1时间维)，因此，它通过3D cnn对视频进行处理，并对每个视频输入产生3D注意(2空间维+ 1时间维)。
（轨迹：1空间
视频：1空间+1时间）

Conditional Dual Attention Network.
在这里插入图片描述

设Fi表示3D CNN在第i个视觉特征提取块Bi的输出特征。我们采用[7]中提出的双注意结构，并对其进行了三层三维CNN的运动调节。
每个区块i中的条件双注意网络对Fi进行两步运算，得到其输出Fi’。第一步提取以人的运动信息为条件的全局视频描述符，表示为g(Fi|Zkin,u1)。
这些全局描述符将与场景元素相对应，如与目标人的轨迹相关的行人子集、地标、障碍。
另一方面，第二步是找出这些全局描述符与每一帧中的每个像素的相关性。
具体来说，每个块Bi中的条件双注意网络由三个三卷积层组成，{ρj}3 j=1，卷积核大小为1。第一层ρ1，对输入的Fi进行细化，并将其通道的数量扩展到m。第二层ρ2，学习了基于zkin的n个空间注意模块，从场景中构建了n个全局视觉 primitives，每个 primitives的大小为m。最后，ρ3对应于对每一帧每个像素的全局描述符的使用上的注意向量。我们可以这样写，

在这里插入图片描述
σ为softmax运算，g(Fi|Zkin,u1)为基于运动学信息的全局视频描述子。
我们用第二个ρ2a来表示g

式中为全连通层，表示ρ2生成的n个全局注意图的输出与每个全局注意图的Hadamard(入口方向)乘积。我们通过将最后一个块的输出Ft3传递给一个完全连接的层来构建条件视觉特征向量Zvis。
我们将在解码器模块中使用Zvis来预测目标人未来的轨迹。

3.5. Trajectory Decoder**

在对运动学和视觉信息进行编码后，我们将融合张量
在这里插入图片描述

◆输入maxpool层，然后是线性层，以从视觉和运动学流中获取信息供解码器使用。接下来，将结果作为隐藏向量提供给解码器模块中的LSTM。每个LSTM单元的输出代表一个未来的时间瞬间，t >to，然后连接到一个MLP，由两个完全连接的层组成，输出一个多元高斯分布的位移

在这里插入图片描述
这两个坐标的位置。假定是独立的。请注意，**预测位移而不是绝对位置，**允许我们的模型更好地解码具有不同起点的相同或相似轨迹。
我们的方法以随机模式输出轨迹。更具体地说，我们取样C序列δuto+1，…，δutf，以获得目标人未来可能采取的K个plausible 的轨迹。每个采样轨迹的预测坐标的不确定性来自于预测在特定时间步长的不确定性及其之前的时间步长的累积。这些不确定性使得该方法能够处理人类轨迹的多模态特性，通常存在多个似是而非的路径。

3.6. Training Strategy**

我们使用以下损失函数以端到端方式训练我们的网络，

在这里插入图片描述
其中Lmse表示均方误差，Lregis是一种正则化项，用于预测相对于观测到的轨迹的一致未来轨迹。
具体来说，正则化定义为预测轨迹的每一步Tf与与观测轨迹拟合的直线To之间的欧氏距离之和。
我们计算Lmseby首先抽样C未来轨迹，然后选择最接近地面真相的前N个轨迹，最后计算这些N轨迹和地面真相之间的均方误差的平均值(在实验中，我们设C = 20, N = 5)。我们从经验上观察到，这种策略使我们的网络收敛得更快，同时具有更准确的预测。

2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络

行人轨迹预测是自动驾驶中的一项关键技术，但由于行人之间复杂的相互作用，该技术仍具有很大的挑战性。
然而，以往基于密集无向交互的研究存在建模冗余交互和忽略轨迹运动趋势等问题，不可避免地与实际存在较大偏差。
针对这些问题，我们提出了一种用于行人轨迹预测的稀疏图卷积网络(SGCN)。
具体来说，

SGCN明确地使用稀疏有向空间图对稀疏有向交互进行建模，以捕获自适应交互行人。
同时，我们使用一个稀疏的有向时间图来建模运动趋势，从而便于基于观测方向进行预测。
最后，将上述两种稀疏图融合在一起，估计了用于轨迹预测的双高斯分布的参数。

我们在ETH和UCY数据集上对我们提出的方法进行了评估，实验结果表明，我们的方法在平均位移误差(ADE)和最终位移误差(FDE)上分别比目前最先进的方法高出9%和13%。值得注意的是，可视化表明，我们的方法可以捕捉行人之间的自适应互动和他们的有效运动趋势。

1. Introduction

在已知行人轨迹的情况下，行人轨迹预测的目的是预测行人未来的位置坐标序列，在自动驾驶[3,29]、视频监控[28,45]、视觉识别[9,27,16]等应用中发挥着关键作用。尽管最近的文献取得了进展，但由于行人之间复杂的相互作用，行人轨迹预测仍然是一项非常具有挑战性的任务。例如，一个行人的运动很容易受到其他行人的干扰，亲密的朋友或同事可能会集体行走，不同的行人通常会进行相似的社会行为。
为了对行人之间的相互作用进行建模，在过去的几年里进行了大量的工作[31, 2, 11, 23, 19, 32, 46] ，其中按距离加权方法[31, 2, 11, 32]和基于注意力的方法[23, 19, 46, 8, 17, 18]在行人轨迹预测方面取得了最先进的结果。

大多数基于距离加权和注意力的方法采用密集交互模型来表示行人之间的复杂交互，其中假设行人与所有其他行人交互。（问题1）

此外，距离加权法采用相对距离来建模无向交互，其中两个行人的交互是相同的。然而，我们认为密集的交互和无定向的交互都会导致行人之间的多余交互。（问题2）
在这里插入图片描述

如图1所示:(1)两对行人从相反的方向前进，只有红色行人的轨迹绕行，避免与绿色行人相撞;
(2)蓝色和黄色行人的轨迹不相互影响。很明显，基于密集或稀疏无向交互的方法将无法处理这种情况下的交互。
例如，如A.1所示，密集的无向交互会在黄色和蓝色的行人之间产生多余的交互，因为黄色和蓝色的行人的轨迹不会相互影响。此外，稀疏的无向交互，
如A.2所示，由于红色行人绕道以避免与绿色行人碰撞，而绿色行人则直接向前走，导致绿色行人与红色行人之间产生了多余的交互。
为了解决上述问题（多余的交互），最好设计一种稀疏有向交互(Sparse Directed Interaction)，
如a .3所示，它可以在行人轨迹预测中与自适应行人交互。

此外，由于以往的工作侧重于避碰，导致预测的轨迹往往会生成绿色和红色的行人避碰的绕行轨迹，
如B.1所示，而绿色的行人偏离了地面真实。在这种情况下，我们提出运动趋势，
该运动趋势由B.2中蓝色虚线圈所包围的短期轨迹表示，绿色行人的轨迹方向为直线前进，红色行人的轨迹方向偏转以避免与绿色行人的碰撞。基于轨迹方向不会突然变化的假设，运动趋势有利于绿色行人的预测。需要注意的是，运动趋势是万能的，
如B.3所示，最后一种运动的表现要比其他的好，因为它可以共同捕捉“笔直向前”和“暂时偏离”的趋势。一旦找到有效的中间点集合，运动趋势将有助于行人轨迹预测。

在本文中，我们提出了一种新的稀疏图卷积网络(SGCN)，它将稀疏有向交互和运动趋势相结合，用于行人轨迹预测。
如图1 (A+B)所示，稀疏有向交互发现有效影响特定行人轨迹的行人集合，运动趋势改善交互行人的未来轨迹。

其中，如图2所示，我们联合学习了稀疏有向空间图和稀疏有向时间图，对稀疏有向交互和轨迹运动趋势进行建模。

在这里插入图片描述

如图3所示，稀疏图学习利用自注意[40]机制来学习轨迹点之间的非对称密集和定向交互得分。
然后，将这些交互得分融合并反馈到非对称卷积网络中，获得高层交互特征。
最后，利用常数阈值和“Zero-Softmax”函数的归一化步骤对冗余交互进行修剪，得到一个稀疏有向空间和稀疏有向时间邻接矩阵。
最后得到的非对称归一化稀疏有向邻接矩阵可以表示稀疏有向图。一旦得到上述两个图，我们进一步学习由图卷积网络[22]级联的轨迹表示，并使用时间卷积网络[4]估计双高斯分布的参数，用于生成预测的轨迹。
在 eth [34]和 ucy [24]数据集上的大量实验结果表明，我们的方法优于所有最先进的比较方法。
据我们所知，这是第一个明确建立相互作用和运动倾向模型的工作。
总之，我们的贡献是三方面的:
(1)我们提出了 解析有向交互和运动的方法来改进预测的轨迹;
(2)我们设计了一种自适应的方法来模拟稀疏有向交互和运动趋势;
(3)我们提出了一个稀疏图卷积网络来学习轨迹表示，并通过实验验证了显式稀疏性的优点。

2. Related Works

Pedestrian Trajectory Prediction.
由于其强大的表征能力，深度学习在预测行人轨迹方面越来越流行。Social-LSTM[1]利用循环神经网络(rnn)[14,20,6]对每个行人的轨迹进行建模，并从集合的隐藏状态计算一定半径内行人之间的交互作用。SGAN[11]利用生成式对抗网络(GAN)预测多模态轨迹[10,48,5]，并提出了一种基于行人相对距离计算交互的新的池化机制。TPHT[30]通过一个LSTM来表示每个行人，并采用软注意机制[42]来模拟行人之间的交互。此外，后续的工作利用场景特征来提高预测精度。PITF[26]考虑了人-场景交互和人-对象交互。sophie[37]通过双向注意机制提取场景特征和社会特征，并计算具有社会注意的所有代理的权重。TGFP[25]利用场景信息预测粗点和细点位置。
由于图结构可以更好地贴合场景，另一种作品轨迹使用图来模拟人与人之间的互动。Social-BiGA T[23]使用LSTM模型模拟每个行人的轨迹，并通过图注意网络(GAT)[41]模型模拟交互作用。
为了更好地表示行人之间的互动，Social-STGCNN[32]直接将轨迹建模为一个图形，其中以行人相对距离加权的边表示行人之间的互动。
RSGB[38]注意到一些远距离的行人对之间有很强的互动，因此邀请社会学家根据具体的物理规则和社会行为手动将行人划分为不同的组。
STAR[46]通过Transformer[40]框架对空间交互和时间依赖进行建模。

简而言之，之前的研究为固定物理范围内的邻里之间的互动建模，要么对所有的行人。据推测，由于多余的相互作用，这可能会导致预测的差异。
相反，我们提出了稀疏定向交互，能够找到参与交互的自适应行人，从而缓解这一问题。此外，我们的方法还捕获了有效的运动趋势，这有助于提高预测轨迹的准确性

Graph Convolution Networks.
现有的 gcn 模型可以分为两类:
1)频谱域 gcns [22,7]设计基于图傅里叶变换的卷积运算。它要求邻接矩阵是对称的，由于 Laplacian Matrix 的特征分解;
2)空间域的 gcns 直接在边上进行卷积，这适用于非对称的邻接矩阵。
例如，graphsage [12]以三种不同的方式聚合节点，并以不同的顺序融合相邻节点以提取节点特征。
Gat [41]使用注意力机制模拟节点之间的相互作用。
为了处理时空数据，stgcn [43]将空间 gcn 扩展到时空 gcn，用于基于骨架的动作识别，从局部时空域聚集节点。
我们的 sgcn 不同于以上所有的 gcn，因为它基于一个学习的稀疏邻接矩阵聚合节点，这意味着要聚合的节点集是动态确定的。

Self-Attention Mechanism.
Transformer[40]的核心思想，即自我关注，已经成功地在自然语言处理中的一系列序列建模任务中，如文本生成[44]、机器翻译[35]等，取代了rnn[20,6]。自注意将注意解耦到查询、键和值中，从而可以捕获长期依赖关系，并利用与rnn相比的并行计算优势。为了表示输入序列中每一对元素之间的关系，自我注意通过查询和键之间的矩阵乘法计算注意得分。
在我们的方法中，我们只计算一个单层的注意得分模型稀疏定向交互和运动倾向。与最近通过叠加变压器块(计算和内存开销大的[15])预测未来轨迹的[46]相比，我们的方法具有参数高效和性能更好的特点。

3. Our Method

如上所述，现有的作品受到稠密无向图的过度交互的困扰。同时，他们也忽略了可利用的运动趋势线索。为了缓解这些局限性，我们提出了一种用于轨迹预测的稀疏图卷积网络(SGCN)，该网络主要涉及稀疏图学习和基于轨迹表示的双高斯分布参数估计。

该网络的总体架构如图2所示。
在这里插入图片描述

1.首先，分别利用自注意机制和非对称卷积网络从空间图和时间图输入中学习稀疏有向交互(SDI)和运动趋势(MT)。
2.然后利用稀疏时空图卷积网络从表示稀疏有向空间图(SDI)和稀疏有向时间图(MT)的非对称邻接矩阵中提取交互和趋势特征。
3.最后，将学习轨迹表示输入时间卷积网络(TCN) ，预测双高斯分布的参数，生成预测轨迹。

3.1. Sparse Graph Learning稀疏图学习

1.Graph Inputs.
给定的输入轨迹 $X_{in}\in\mathbb{R} ^{T_{\mathrm{obs}} \times N \times D}$
其中D表示空间坐标的维数，N为行人数

我们构造了一个空间图和一个时间图，如图3所示，
时间步长t处的空间图 $G_{\mathrm{spa}}=\left(V^{t}, U^{t}\right)$ 表示行人的位置，而行人n处的时间图 $G_{\mathrm{tmp}}=\left(V_{n}, U_{n}\right)$ 表示相应的轨迹。
$V^{t}=\left\{v_{n}^{t} \mid n=1, \ldots, N\right\}$ 和
$V_{n}=\left\{v_{n}^{t} \mid n=1, \ldots, T_{obs}\right\}$
代表 $G_{spa}和G_{tmp}$ 的节点
$v_{n}^{t}$ 的属性是第n个行人在时间步长为t时的坐标 $(x^t_n,y^t_ n)$ 。

$U^t和U_n$
代表 $G_{spa}和G_{tmp}$ 的边:
连接(表示为1)或不连接(表示为0)。
由于节点之间的连接没有先验知识，
$U_n$ 中的元素被初始化为1，
$U^t$ 由于时间依赖性被初始化为由1填充的上三角矩阵，即当前状态与未来状态无关。

2.Sparse Directed Spatial Graph.（稀疏有向空间图）

为了增加空间图输入的稀疏性，即在空间图中准确识别出参与交互的行人集合，我们首先采用自注意机制[40]计算非对称注意评分矩阵，
在这里插入图片描述

即密集空间交互行人 $R_{\text {spa }} \in \mathbb{R}^{N \times N}$ ，如下所示:
在这里插入图片描述
其中
$\phi(\cdot, \cdot)$ 表示线性变换
$E_{spa}$

上一篇：全面解析自动驾驶路径预测：理论、实践与论文解读课程现已开放！

下一篇： Python Transformer-based Method for Hotspot Trajectory Prediction