- 博客(8)
- 收藏
- 关注
原创 单发多框检测-SSD
目标检测有两种类型的损失。第一种有关锚框类别的损失:我们可以简单地复用之前图像分类问题里一直使用的交叉熵损失函数来计算;第二种有关正类锚框偏移量的损失:预测偏移量是一个回归问题。但是,对于这个回归问题,我们在这里不使用平方损失,而是使用L1L_1L1范数损失,即预测值和真实值之差的绝对值。掩码变量bbox_masks令负类锚框和填充锚框不参与损失的计算。最后,我们将锚框类别和偏移量的损失相加,以获得模型的最终损失函数。# cls_preds:所有图片锚框的预测类别。
2025-06-24 15:49:39
994
原创 目标检测_锚框
在预测时,我们为每个图像生成多个锚框,预测所有锚框的类别和偏移量,根据预测的偏移量调整它们的位置以获得预测的边界框,最后只输出符合特定条件的预测边界框。是为了为boxes1增加一个维度(从[boxes1的数量, 2]->[boxes1的数量, 1, 2]),因为最终我们想要得到这两个对象的形状是(boxes1的数量,boxes2的数量,2),所以在boxes1增加一个维度后,再与boxes2计算时就会触发广播机制,每一个boxes1里的锚框都会与boxes2所有的锚框做一次运算。
2025-06-21 20:31:36
726
原创 Transformer源码详解
上图展示transformer就是由两部分组成,分别为encoder和decoder,对于要被翻译的原文“我爱你”,先经过Embedding和位置编码后,输入到encoder中,encoder在实际应用过程中会经过多层,一般为6层,之后得到输出结果,再输入到decoder中,encoder向decoder的第二层的Multi-Head Attention提供K,V矩阵(K,V是由encoder编码后的结果经过线性变换得到的),同样decoder一般也为6层。可以观察下面的示意图。
2025-06-05 16:31:53
609
原创 深度理解谱聚类
在数据结构的图论里面,一个图GGG由顶点和边组成,我们通常将顶点的集合记做VVV,边的集合记做EEE,即G(V,E)G(V,E)G(V,E),其中VVV即为我们数据集里所有的点的集合(v1,v2,⋯ ,vn)(v_1,v_2,\cdots,v_n)(v1,v2,⋯,vn)。对于VVV中任意的两个点,都可以有边连接,也可以没有,我们定义wijw_{ij}wij为点viv_ivi和点vjv_jvj之间连接边的权重。邻接矩阵即为WWW,若两个点之间没有边,则在邻接矩阵中对应的元素为0,由于我们使用的是
2025-05-17 20:21:57
739
原创 怎么理解注意力机制和自注意力机制
因为语言逻辑基本都是相同的,比如说我们通过一本书的所有文字训练得到里面所有词的向量,它其实可以用作回答我们的提问,但针对某一个具体的任务是它未免有偏差,这就需要对预训练相互来的X进行调整让他获取更多的关于这一具体任务的信息,从而在高维空间中找到更加符合这一任务的位置)说白了,自注意力机制可以理解为注意力机制的一个子类,注意力是父亲,自注意力是儿子,注意力机制是一个很广泛很庞大的概念,它提出了利用Q和K来得到权重值,在原来V的基础上得到一个富含重要度信息的一个新的。,它比之前的多了‘我’的喜好信息。
2025-05-17 19:47:59
1835
翻译 TensorFlow2 Eager Execution与AutoGraph模式
主要介绍tensorflow的Eager Execution 模式与AutoGraph模式
2022-12-05 19:43:32
460
翻译 TensorFlow基础
主要对 TensorFlow 2 的张量操作,通过对张量的一系列操作介绍,可以使学员对 TensorFlow2 的基本语法有所了解。
2022-12-04 20:56:39
1032
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人