
数据不平衡
文章平均质量分 52
pythonSuperman
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
余弦相似度
【代码】余弦相似度。原创 2024-07-09 15:13:58 · 182 阅读 · 0 评论 -
CIFAR10-LT DermalMNIST 从dataset到dataloader
【代码】CIFAR10-LT DermalMNIST 从dataset到dataloader。原创 2024-07-08 14:25:50 · 317 阅读 · 0 评论 -
读取并训练DermalMNIST
由于后续训练和预测用到的标签格式需要是一维数据,而DermaMNIST类读取到的DermaMNIST标签数据是二维数据,所以需要采取措施让标签数据变为一维的。原创 2024-07-02 17:27:30 · 455 阅读 · 0 评论 -
读取MedMNIST的每个类的数量
【代码】读取MedMNIST的每个类的数量。原创 2024-07-01 16:16:18 · 268 阅读 · 0 评论 -
如何用matplotlib绘制图像分类任务的类别特征空间分布
【代码】如何用matplotlib绘制图像分类任务的类别特征空间分布。原创 2024-07-01 15:21:45 · 361 阅读 · 0 评论 -
对比学习
对比学习通过对比数据对的“相似”或“不同”以获取数据的高阶信息。由同一张原始图片扩增而来的两张新的图片,叫做Positive Pairs。将这两张图片送入深度学习模型中,我们希望深度学习模型学习到这两个图像是相似的。由不同原始图片扩增而得到的新的图像,成为Negtive Pairs。将Negtive Pairs送入深度学习模型中,我们希望深度学习模型学习到这两个图像是不同的。原创 2024-06-22 19:50:42 · 340 阅读 · 0 评论 -
from import *
的方式导入模块将会失败。原创 2024-06-21 16:55:53 · 171 阅读 · 0 评论 -
_init_paths.py 隐形地改变文件路径
在主文件里的第一行导入该包,主文件的相对路径变为了:这一级的路径/../lib。原创 2024-06-19 17:08:57 · 207 阅读 · 0 评论 -
eval的用法
evaleval。原创 2024-06-19 16:04:18 · 569 阅读 · 0 评论 -
数据增强 cutout改进imbalance
per_cls_weights = torch.FloatTensor(per_cls_weights).to(torch.device('cpu')) # 假设我们在 CPU 上运行# 计算 n_holes 的数量n_holes = 1 + int(per_cls_weights[label] * 3) # 确保 n_holes 在 1 到 4 之间# 保存每个类别的 n_holes 数量。原创 2024-06-16 22:10:53 · 515 阅读 · 0 评论 -
延迟重平衡优化(Deferred Re-balancing Optimization Schedule)
160epoch之前,每一类的权重是1;160epoch之后,每一类的权重经过带β公式计算的,更偏重与少数类的样本。原创 2024-05-27 11:41:34 · 238 阅读 · 0 评论 -
数据不平衡:使用其他机器学习方案,修改算法
神经网络在面对不均衡数据时,是束手无策的。有些机器学习方法,像决策树就不会受到不均衡数据的影响。原创 2024-05-14 17:09:49 · 207 阅读 · 0 评论 -
通过随机采样和数据增强来解决数据不平衡的问题
当每个类别的样本不平衡时,即在类别分布之间没有平衡比率时,会出现类别不平衡的问题。这种失衡可能是轻微的,也可能是严重的。取决于样本量,从1:2到1:10可以理解为轻微的不平衡,比率大于1:10可以理解为强烈的不平衡。在这两种情况下,都必须使用特殊技术(例如欠采样,过采样,cost-sensitive代价敏感等)处理具有类不平衡问题的数据。稍后,我们将用imblearn [1]介绍欠采样和过采样以及它们的实现。原创 2024-05-14 16:02:54 · 782 阅读 · 0 评论 -
Influence-Balanced Loss 中的Resample策略
例如,如果你有一个包含 100 个样本的数据集,并使用普通的采样器进行随机抽样,则每个样本被选中的概率都是 1%。这种采样方式简单且常用,但在处理类别极度不平衡的数据集时可能不够有效,因为它可能导致模型对多数类过拟合,而忽视了少数类。在这种情况下,假设数据集中有 𝑁个样本,那么每个样本被选中的概率和权重都是 1/𝑁。这种方式不考虑数据集中可能存在的类别不平衡问题,每个样本被选取的机会完全相同。这意味着在抽样过程中,每个样本被选中的概率是相等的。继承了sampler类,然后重新为数据集中的各样本分配权重。原创 2024-05-14 11:25:02 · 461 阅读 · 0 评论 -
IB 公式解析
逆频率权重:通过取样本数量的倒数,使得样本数量少的类别得到更高的权重。归一化:将权重标准化,并确保权重的总和与类别数量一致,保持权重比例的合理性。转换为张量:将权重转换为 PyTorch 张量,以便在训练过程中使用。这种权重计算方法确保了在处理类别不平衡问题时,少数类样本对损失函数的贡献增加,从而提高模型对少数类的识别能力。原创 2024-05-12 22:41:17 · 1079 阅读 · 1 评论 -
Focal Loss损失函数
损失损失函数Focal Loss的引入主要是为了解决one-stage目标检测中正负样本数量极不平衡问题。那么什么是正负样本不平衡(Class Imbalance)呢?在一张图像中能够匹配到目标的候选框(正样本)个数一般只有十几个或几十个,而没有匹配到的候选框(负样本)则有10000~100000个。这么多的负样本不仅对训练网络起不到什么作用,反而会淹没掉少量但有助于训练的样本。上面说了是为了解决一阶段目标检测模型,那为什么二阶段不用解决呢?原创 2024-05-08 20:12:28 · 2296 阅读 · 0 评论 -
torch.flatten(x, 1)”和“x.view(x.size(0), -1)”有什么区别?
这两个操作在 PyTorch 中都用于将张量展平为一维。总的来说,两者实现的功能相似,但根据个人偏好和代码上下文的不同,选择合适的方法。原创 2024-05-06 18:27:48 · 562 阅读 · 0 评论 -
为什么IB损失要在100epochs后再用?
这样设计的原因可能是为了先让模型在前100轮中通过使用交叉熵损失函数进行训练,学习到一个相对合理的初始特征表示。然后,在第100轮之后,通过引入。因此,根据给定的训练命令,模型在前100轮中使用交叉熵损失函数进行训练,然后从第100轮开始使用。的值大于等于100,那么在训练的前100轮中将使用普通的交叉熵损失函数((Instance-Balanced)损失函数进行训练。损失函数来进一步提升模型在类别不平衡数据集上的性能。)进行训练,而在第100轮及以后的轮次中将使用。在给定的代码中,参数。原创 2024-05-06 17:45:29 · 326 阅读 · 0 评论 -
两种常见的数据不平衡类型:长尾不平衡和阶梯不平衡。
阶梯不平衡(step imbalance)可能是指数据集中存在类别间数量差距较大,但并不是像长尾不平衡那样极端不平衡的情况。相比于长尾不平衡,阶梯不平衡可能是更均衡但仍存在类别不平衡的情况,其中某些类别的样本数量明显多于其他类别,但不像长尾不平衡那样数量悬殊。长尾不平衡(long-tailed imbalance)指的是数据集中存在极端不平衡的情况,即某些类别的样本数量远远少于其他类别。这种情况通常表现为数据集中有少数类别的样本量较少,而大多数样本集中在另外一些类别上。原创 2024-05-06 10:23:25 · 433 阅读 · 0 评论 -
imbalance CIFAR10 数据不平衡代码制作与理解 以及 两种常见的数据不平衡类型
【代码】CIFAR10 数据不平衡代码制作与理解。原创 2024-04-30 22:29:35 · 767 阅读 · 0 评论 -
不平衡数据
在机器学习的经典假设中往往假设训练样本各类别数目是均衡的,但在实际场景中,训练样本数据往往都是不均衡(不平衡)的。比如在图像二分类问题中,一个极端的例子是,训练集中有95个正样本,但是负样本只有5个。这种类别数据不均衡的情况下,如果不做不平衡样本的处理,会导致模型在数目较少的类别上出现欠学习现象,即可能在测试集上完全丧失对负样本的预测能力。除了常见的分类、回归任务,类似图像语义分割、深度估计等像素级别任务中也是存在不平衡样本问题的。从“数据层面”入手:分为数据采样法和类别平衡采样法。原创 2024-04-29 15:25:01 · 1482 阅读 · 0 评论