ZHANG8023ZHEN-CSDN博客

原创 SIMPL论文阅读

文章还没细看，但主要贡献点应该是Symmetric Fusion Transformer和Bezier-based Motion Decoder.对Bezier-based Motion Decoder比较感兴趣，之后对这块细看一下。论文链接：https://arxiv.org/pdf/2402.02519。

2025-06-20 16:11:18 212 1

原创 QCNET和HIVT

QCNET主要就是在query centric的基础上在增加自回归。HIVT主要就是介绍了一种query centric的方法。

2025-06-20 16:01:11 92

原创 PPAD论文阅读

PPAD这篇文论文感觉就是一个大杂烩，gameformer + 自回归，再加上一些噪音什么的。

2025-06-20 13:57:59 401

参考博客：https://blog.csdn.net/m0_48100146/article/details/135683444。Modality Embedding Query是可学习的embedding, 类似于multipath++中的query。除了上述模型结构的特点，还增加了一个辅助判碰撞loss。这篇文章的思路还是很清晰的，直接看图就能看懂。

2025-06-19 18:18:02 174 1

原创 FocalAD论文阅读

Q_motion是个什么东西？Q_plan也会考虑这些agent的信息 Q_plan又是个什么东西？再用MLP联合输出一个增强的特征表示 h_inc及其交互得分s_i ，表示该agent对自车决策的贡献。不太明白的点是为什么MLP能够生成两个结果？主要流程是：状态提取 --> 图嵌入–> 交互得分 --> k-邻居选择 --> Focal-Local-Agents Loss。主要是两个模块：Ego-Local-Agents Interactor和Focal-Local-Agents Loss。

2025-06-19 15:26:08 317 1

原创 agentformer论文阅读

i. 主要是使用了自回归的方式，自回归就是一遍一遍循环，每次循环前将之前已经有的轨迹放入，所以生成下一个点之前都会考虑之前的轨迹情况。i.time encoder – 将时间信息用transformer和position emb进行融合，加入到特征中。i. sample会有多个轨迹，也是以自回归的方式。参考了这篇博文：https://zhuanlan.zhihu.com/p/512764984。ii.生成条件分布 q(z|x) 其中：x是未来轨迹，z是潜在变量。自回归的方式生成轨迹。

2025-06-17 18:32:42 199 1

原创 Pluto论文阅读笔记

主要还是参考了这一篇论文笔记：https://zhuanlan.zhihu.com/p/18319150220。对于正负样本的对比loss，其中的相似度可以使用余弦相似度等。其他对比学习的loss。

2025-06-04 12:28:16 507 2

原创 Don’t Shake the Wheel 论文阅读

TTM Topologival Trajectory Matching (TTM): 主要任务，匹配距离上一帧距离最近的轨迹。Hausdoff distance的解释：https://zhuanlan.zhihu.com/p/351921396。MPI Momentum Planning Interaction: 将前后帧轨迹对应的query进行交互。主要也就是给环境信息加了个噪音，然后正常encoder和decoder。使用Hausdorff distance来计算相似度。S 是score的意思。

2025-05-24 00:04:27 282

原创 Margin loss

Margin Loss（边际损失）是一种机器学习中的损失函数，旨在通过强制分类边界（决策边界）的“边际”来提高模型的泛化能力。其核心思想是：不仅要让样本被正确分类，还要让正确分类的置信度（或距离）足够大，从而增强模型的鲁棒性。Margin Loss通过引入边际约束，迫使模型学习更具判别性的特征，广泛应用于分类、度量学习等任务。具体形式取决于任务需求（如SVM的Hinge Loss、人脸识别的Triplet Loss等）。示例代码（Triplet Loss）为什么需要Margin Loss？

2025-05-23 15:32:54 246

原创 sparedrive的规控部分

主要的收获是：如果周围的智能体是从图像中聚合出来的，那么对于主车的感知几乎是没有的。他们使用了前置摄像头的最小特征图来初始化自我实例特征。除了感知的信息，还使用主车的矢量化信息，通过解码来监督主车的位置、速度、转向角等信息。每一帧使用上一帧的预测速度作为自我锚点速度的初始化。得到这些智能体的信息之后，使用三种交互形式，智能体之间的交互、智能体与地图的交互、智能体与历史帧的交互（场景级的交互）。参考：https://zhuanlan.zhihu.com/p/704342927。

2025-02-26 16:42:51 210

原创关于optimizer、loss、backward、scaler、scheduler

parameter的grad如果在一次backward后不进行清除，那么会在第二次backward的时候进行累加，那么这个grad就是不正确的，所以在每次backward前需要进行optimizer.zero_grad()，这样就将所有的parameters进行grad清零。loss是一个tensor，将loss.backward()，可以对loss的grad_fn中的参数进行求导，这样就可以得到parameter的grad。一般对fp32没有什么影响。

2025-02-19 14:50:36 208

原创 transformer详解

transformer的mask主要有两种，一种使padding_mask, 一种使future_mask. padding_mask是将实际不存在的内容mask掉，future_mask是让时序推理的时候让在预测T+1的token时只会用到T及T以前的信息。相对距离: on和chair，on和floor, sit 和on, sleeping和on的相对距离都是1，它们之间的相对距离相同，且和绝对位置以及句子长度无关。要想全面的表达位置信息，transformer需要满足以下4个条件。

2024-09-26 20:51:33 417

原创深度学习中的正则化和归一化

正则化是制定一些规则，防止模型过拟合，通常是在loss中体现，如L1正则化（loss + λ |weight|，有助于产生稀疏解，不重要的参数会变成0，因为绝对值的倒数是不变的），L2正则化（loss ＋　λ * weight**2，有助于使模型参数趋于平滑，即参数值不会太大也不会太小，因为次方倒数随着随着数值变大而变大，数值变小而变小）;归一化是一种将数据按比例缩放，使之落入一个小的特定区间的过程。归一化的主要目的是消除不同量纲及单位影响，提高数据间的可比性，同时也有助于加快算法的收敛速度。

2024-09-26 20:31:41 462 1

原创理解optimizer.zero_grad(), loss.backward(), optimizer.step()的作用及原理

函数会遍历模型的所有参数，通过p.grad.detach_()方法截断反向传播的梯度流，再通过p.grad.zero_()函数将每个参数的梯度值设为0，即上一次的梯度记录被清空。因为训练的过程通常使用mini-batch方法，所以如果不将梯度清零的话，梯度会与上一个batch的数据相关，因此该函数要写在反向传播和梯度下降之前。

2024-08-22 20:08:45 195

原创【pytorch】固定(freeze)住部分网络

https://blog.csdn.net/jningwei/article/details/120300014

2024-08-22 20:07:19 318

原创 model.train()和model.eval()的区别

训练模式（Training Mode）：如表格所示，在此模式下，模型会进行前向传播、反向传播以及参数更新。某些层，如Dropout层和BatchNorm层，在此模式下的行为会与评估模式下不同。评估模式（Evaluation Mode）：如表格所示，在此模式下，模型只会进行前向传播，不会进行反向传播和参数更新。Dropout层会停止dropout，BatchNorm层会使用在训练阶段计算得到的全局统计数据，而不是测试集中的批统计数据。

2024-08-22 20:05:08 361

原创 model.eval()和torch.no_grad()的区别

在评估模式下，模型的所有层都将正常运行，但不会进行反向传播（backpropagation）和参数更新。此外，某些层的行为也会发生改变，如Dropout层将停止dropout，BatchNorm层将使用训练时得到的全局统计数据而不是评估数据集中的批统计数据。torch.no_grad()是PyTorch的一个上下文管理器，用于在不需要计算梯度的场景下禁用梯度计算。在使用torch.no_grad()上下文管理器的情况下，所有涉及张量操作的函数都将不会计算梯度，从而节省内存和计算资源。

2024-08-22 20:03:27 314

原创 model只load一部分参数

当权重中的key和网络中匹配就加载，不匹配就跳过，如果strict是True，那必须完全匹配，不然就报错，默认是True。只加载部分参数权重，可以将state中不需要的参数删除，然后加载其他项。

2024-08-22 20:01:53 216

原创 GRU RNN LSTM加mask

需要注意这个只支持back-padding。

2024-06-05 11:15:53 185

原创模型参数获取

一个dict，name + parameters(grad=true)，这些参数都是可学习的参数。一个list，只有parameters。所有的参数，不管grad是否为true。所有模块的迭代器，模型结构。

2024-05-31 18:03:59 187

原创 Layernorm

out = (x - 均值) / sqrt(方差) * w +ｂ。均值，方差＝var_mean(x)

2024-05-11 18:34:15 273 1

原创 Laplace分布

相比高斯分布，高斯分布是L2分布，可以用来表示多维的相关性分布。在做NLL的时候，laplace收敛的更加匀速。laplace分布是一个L1的分布，只能用来描述一维的分布，不能用来表示多维的相关性分布。参考链接：https://zhuanlan.zhihu.com/p/156234503。

2024-04-19 11:14:36 244

原创 DP、DDP、FSDP

FSDP使属于DDP的一种，主要是在于要把DDP中的all-reduce操作拆解为reduce-scatter和all-gather 操作（在参数处理的时候）参考链接：https://blog.csdn.net/qinduohao333/article/details/131650137。参考链接：https://www.cnblogs.com/qizhou/p/16770143.html。直接用sys.exit()就行。如何退出DDP多卡？

2024-04-19 11:07:09 341

原创 PCA 主成分分析

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。

2024-04-11 20:31:09 294

原创贝塞尔曲线和B样条曲线

【代码】贝塞尔曲线。

2024-03-15 18:37:00 407

原创 Diffusion模型

https://www.zhihu.com/tardis/zm/art/599887666?source_id=1005

2024-03-14 20:04:32 395

原创 C++线程管理

std::unique_lock：支持std::lock_guard的功能，但是区别在于它提供更多的成员函数，比如：lock(),unlock()使用更加灵活，并且可以和condiction_variable一起使用控制线程同步。主要作用是防止wait线程空执行，只有等notify_one这个线程更新了之后，wait才会动，才会去尝试解锁；std::lock_guard: 构造函数执行了mutex::lock()，在作用域结束时，自动调用析构函数，执行mutex::unlock()

2024-03-12 17:38:01 405

原创 MTR论文阅读

https://zhuanlan.zhihu.com/p/654070149文章亮点：

2024-02-15 23:21:06 1187 1

原创 PointMixer论文阅读笔记

但是MLP-mixer在点云识别方面表现欠佳，PointMixer就是在保留了MLP-mixer优点的同时，还可以很好的处理点云问题。MLP-Mixer将CNN的两个任务切割开来，不同位置的mix叫token-mixing，同一位置不同channel的mix叫做channel-mixing。token-mix MLP具有转置同变性的缺点，而且token-mix只能使用固定数量的输入，但是对于点云来说，neighbor不是固定的，要用聚类算法。这里的乘法的element-wise。

2024-02-15 15:21:25 1345 1

原创误差椭圆和协方差矩阵的关系

特征向量 = [[sin(), cos()], [cos(), -sin()]]协方差矩阵的特征值为误差椭圆的a和b, 特征向量为误差椭圆的方向。

2024-02-06 18:14:11 694

原创派生类和基类的构造函数的关系

我们通常说的派生类和基类，我们调用派生类的自定义的构造函数的时候，派生类会自动调用基类中的default construct函数，而不能调用基类中的其他构造函数（除非在派生类的构造函数序列初始化的时候指明基类的构造函数，否则将会自动调用基类默认构造函数）

2024-01-21 12:16:16 453

原创 Focal loss

α / (1 - α) = 负样本数 / 正样本数，平衡样本不均匀。平衡分类难易，如果P越大说明分类容易，乘以（1-p）变小。分类问题经典loss。

2023-12-28 15:12:38 386

原创 Docker常用命令

https://blog.csdn.net/Trembler/article/details/118525175

2023-11-17 16:55:44 98

原创高维矩阵相乘

高维矩阵指维度≥3的矩阵，或者叫张量。高维矩阵的乘法本质上还是二维矩阵之间的乘法，即把最后两个维度看成矩阵，执行二维矩阵乘法。

2023-11-12 12:14:18 249

原创 PURE PERSUIT

https://zhuanlan.zhihu.com/p/445530615

2023-11-10 16:48:47 99

原创 C++枚举

c++编译器支持从enum类型自动转换为int，但反过来是不支持的，需要进行强制转换。枚举值是可以支持加减乘除，大小比较运算的。

2023-11-03 16:32:24 110

原创 emplace_back() push_back()

假设 vector 中元素类型是类类型，那么 emplace_back() 待添加的元素的类型是类中有参构造的参数类型时，emplace_back() 比 push_back() 少一次移动或拷贝构造函数。而如果添加的元素是类类型的对象时，则和 push_back() 一样都只会调用一次移动构造函数或一次拷贝构造函数。原文链接：https://blog.csdn.net/unonoi/article/details/114680819。如果在类里面没有构造传类的构造函数，那么是浅拷贝，反之为深拷贝。

2023-11-01 17:40:55 93

空空如也

空空如也