自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 打卡第48天:随机函数与广播机制

例如,原始特征为 (x_1, x_2),扩展后可包含 (x_1^2, x_2^2, x_1x_2)。利用核函数将低维数据映射到高维空间,如径向基函数(RBF)核或多项式核,无需显式计算高维特征。通过模型(如Word2Vec、BERT)将离散特征(如文本、类别)转换为连续的高维向量。若形状无法对齐(如3×4矩阵与3×1矩阵相加),会触发错误。将连续特征划分为多个区间(如年龄分组),生成哑变量(One-Hot编码)以扩展维度。具体方法的选择需结合问题类型(如分类、回归)和数据特性(如数值、文本)。

2025-06-17 23:50:34 578

原创 打卡第47天:通道注意力以及热图可视化

2.对比不同卷积层特征图可视化的结果(可选)1.今日代码较多,理解逻辑即可。

2025-06-16 21:53:17 274

原创 打卡第46天:Tensorboard使用

【代码】打卡第46天:Tensorboard使用。

2025-06-15 23:44:24 735

原创 打卡第45天:预训练模型

1.尝试在cifar10对比如下其他的预训练模型,观察差异,尽可能和他人选择的不同。2.尝试通过ctrl进入resnet的内部,观察残差究竟是什么。最终模型训练最佳测试准确率为88.05%5.预训练代码实战:resnet18。使用ResNet50模型,结果。3.图像预训练模型的发展史。2.常见的分类预训练模型。

2025-06-14 23:50:07 93

原创 打卡第44天:无人机数据集分类

kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化。

2025-06-13 22:08:48 519

原创 打卡第43天:Grad CAM与Hook函数

文章摘要:本文回顾了回调函数、lambda函数和hook函数等概念,重点介绍了模块钩子和张量钩子的应用。通过Grad-CAM示例展示了hook函数的使用方法,并建议理解当天代码内容。作者@浙大疏锦行分享了前一日模型训练的精度变化结果。

2025-06-12 21:45:03 209

原创 打卡第42天:简单CNN

这里相关的概念比较多,如果之前没有学习过复试班强化班中的计算机视觉部分,请自行上网检索视频了解下基础概念,也可以对照我提供的之前的讲义学习下。作业:尝试手动修改下不同的调度器和CNN的结构,观察训练的差异。3.batch归一化:调整一个批次的分布,常用与图像数据。4.特征图:只有卷积操作输出的才叫特征图。5.调度器:直接修改基础学习率。2.卷积神经网络定义的写法。手动修改了学习率调度器。模型仍在训练中,有点慢。

2025-06-11 23:46:37 473

原创 打卡第41天:训练和测试的规范写法

仔细学习下测试和训练代码的逻辑,这是基础,这个代码框架后续会一直沿用,后续的重点慢慢就是转向模型定义阶段了。

2025-06-10 23:42:34 244

原创 打卡第40天:图像数据与显存

4.batchisize和训练的关系。1.图像数据的格式:灰度和彩色数据。作业:今日代码较少,理解内容即可。3.显存占用的4种地方。a.模型参数+梯度参数。d.神经元输出中间状态。c.数据批量所占显存。

2025-06-09 23:29:53 144

原创 打卡第39天:Dataset 和 Dataloader类

1.Dataset类的__getitem__和__len__方法(本质是python的特殊方法)作业:了解下cifar数据集,尝试获取其中一张图片。代码是对的,图片还没出来我再找找问题。3.minist手写数据集的了解。2.Dataloader类。

2025-06-08 23:49:27 228

原创 打卡第38天:早停策略和模型权重的保存

2.模型的保存和加载 a.仅保存权重 b.保存权重和模型 c.保存全部信息checkpoint,还包含训练状态。作业:对信贷数据集训练后保存权重,加载权重后继续训练50轮,并采取早停策略。1.过拟合的判断:测试集和训练集同步打印指标。首先对信贷数据集进行训练后保存权重。保存权重后的模型损失曲线。

2025-06-07 17:47:37 189

原创 打卡第37天:信贷神经网络训练

●作业:对之前的信贷项目,利用神经网络训练下,尝试用到目前的知识点让代码更加规范和美观。●探索性作业(随意完成):尝试进入nn.Module中,查看他的方法。仔细回顾一下神经网络到目前的内容,没跟上进度的同学补一下进度。

2025-06-06 17:45:08 188

原创 打卡第36天:模型可视化以及推理

知识点回顾: 1.三种不同的模型可视化方法:推荐torchinfo打印summary+权重分布可视化。2.进度条功能:手动和自动写法,让打印结果更加美观。作业:调整模型定义时的超参数,对比下效果。python运行损失并没有下降。3.推理的写法:评估模式。1.只调整隐藏层参数。

2025-06-04 23:23:14 554

原创 打卡第35天:GPU训练以及类的Call方法

知识点回归:1.CPU性能的查看:看架构代际、核心数、线程数2.GPU性能的查看:看显存、看级别、看架构代际3.GPU训练的方法:数据和模型移动到GPU device上4.类的call方法:为什么定义前向传播时可以直接写作self.fc1(x)ps:在训练过程中可以在命令行输入nvida-smi查看显存占用情况作业:在GPU训练过程中,记录次数和训练时长非线性相关的原因可能涉及多个技术因素。

2025-06-03 22:33:47 408

原创 打卡第34天:MLP神经网络训练

第三步进行模型训练:规定训练轮数,记录损失值,向前传播,反向传播优化并记录损失值 ,打印结果。首先是数据准备过程:加载数据集并划分,打印尺寸,归一化处理,将数据转化为张量。2.查看显卡信息的命令行命令(cmd中使用)jiji1.PyTorch和cuda的安装。第二步进行模型架构:模型传递逻辑以及实例化。a.数据预处理(归一化、转换成张量)i.继承nn.Module类。iii.定义前向传播流程。c.定义损失函数和优化器。4.简单神经网络的流程。e.可视化loss过程。今日作业:能够手敲代码。

2025-06-02 23:10:46 165

原创 打卡第33天:官方文档阅读

参考 PDPBox 官方文档中的其他类,绘制相应的图,任选即可。

2025-05-31 21:46:20 166

原创 打卡第32天 文件的规范拆分

作业:尝试针对之前的心脏病项目ipynb,将他按照今天的示例项目整理成规范的形式,思考下哪些部分可以未来复用。2.项目文件夹中其他部分:拆分后的信贷项目,学习下如何拆分的,未来你看到的很多大项目都是类似的拆分方法。1.notebook文件夹内的ipynb文件,介绍下今天的思路。今日的示例代码包含2个部分。3.机器学习项目的拆分。4.编码格式和类型注解。2.规范的文件夹管理。

2025-05-30 23:55:09 163

原创 打卡第31天:模块和库的导入

3.导入库/模块的核心逻辑:找到根目录(python解释器的目录和终端的目录不一致)文件),然后执行模块代码。模块内的代码仅在首次导入时执行一次,后续导入直接使用缓存。导入库和模块的底层逻辑主要涉及路径搜索、代码加载和命名空间管理。:模块代码的执行结果(函数、类、变量等)会被注入到独立的命名空间,最终通过。导入模块或库时需检查名称是否与现有变量或模块重复。:找到模块文件后,Python会将其编译为字节码(生成。优先使用显式导入(指定函数/类),而非通配符导入(在模块和库导入的过程中需要注意的事项。

2025-05-28 21:31:54 470

原创 打卡第三十天:类的装饰器

函数通常使用def关键字定义,而类使用class关键字定义。函数的定义更简单,仅包含名称和参数列表;类的定义包含名称、属性和方法。# 函数的定义# 类的定义。

2025-05-27 10:26:04 261

原创 打卡第29天:类的定义和方法

知识点回顾:1.类的定义2.pass占位语句3.类的初始化方法4.类的普通方法5.类的继承:属性的继承、方法的继承作业题目1:定义圆(Circle)类要求:1.包含属性:半径 radius。2.包含方法:●calculate_area():计算圆的面积(公式:πr²)。●calculate_circumference():计算圆的周长(公式:2πr)。3.初始化时需传入半径,默认值为 1。

2025-05-26 22:12:30 183

原创 打卡第28天:装饰器

1、func函数时logger装饰器函数的参数,而wrapper函数是装饰后的函数,就是原函数经过装饰后的样子。编写一个装饰器 logger,在函数执行前后打印日志信息(如函数名、参数、返回值)2、**这个符号是解包过程,是指将参数传递给func函数。以下是一个符合要求的装饰器。

2025-05-25 21:18:45 209

原创 打卡第27天:函数的定义与参数

题目5:格式化几何图形描述 ●任务: 编写一个名为 describe_shape 的函数,该函数接收图形的名称 shape_name (必需),一个可选的 color (默认 “black”),以及任意数量的描述该图形尺寸的关键字参数 (例如 radius=5 对于圆,length=10, width=4 对于矩形)。作业: 题目1:计算圆的面积 ●任务: 编写一个名为 calculate_circle_area 的函数,该函数接收圆的半径 radius 作为参数,并返回圆的面积。

2025-05-24 23:03:33 402

原创 打卡第二十六天:异常处理

知识点回顾: 1.异常处理机制 2.debug过程中的各类报错 3.try-except机制 4.try-except-else-finally机制在即将进入深度学习专题学习前,我们最后差缺补漏,把一些常见且重要的知识点给他们补上,加深对代码和流程的理解。作业:理解今日的内容即可,可以检查自己过去借助ai写的代码是否带有try-except机制,以后可以尝试采用这类写法增加代码健壮性。

2025-05-23 10:30:35 225

原创 打卡第二十五天:元组和OS模块

可迭代对象是指能够返回其成员一次一个的对象。常见的可迭代对象包括列表、元组、字符串、字典和集合。定义,元素之间用逗号分隔。由于元组是不可变的,创建后不能修改其内容。元组常用于存储不应更改的数据集合。元组是Python中的一种不可变序列类型,用于存储多个元素。模块是Python标准库中的一个模块,提供了与操作系统交互的功能。模块,可以执行文件操作、目录操作、环境变量管理等任务。作业:对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。循环进行遍历,或者使用。

2025-05-22 22:19:28 346

原创 打卡第二十四天

pipeline管道知识回顾:1.转化器和估计器的概念2.管道工程3.ColumnTransformer和Pipeline类作业:整理下全部逻辑的先后顺序,看看能不能制作出适合所有机器学习的通用pipeline。

2025-05-21 20:44:28 422

原创 打卡第二十三天

仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。作业: 自行学习参考如何使用kaggle平台,写下使用注意点,并对下述比赛提交代码。

2025-05-20 23:39:20 433

原创 打卡第二十二天

还有一些其他的降维方式,也就是最重要的词向量的加工,我们未来再说。作业: 自由作业:探索下什么时候用到降维?降维的主要应用?或者让AI给你出题,群里的同学互相学习下。可以考虑对比下在某些特定数据集上t-SNE的可视化和PCA可视化的区别。什么时候用到降维?降维的主要应用?

2025-05-19 23:13:39 599

原创 打卡第二十一天

推荐系统:在协同过滤算法中,用户-物品评分矩阵通常是稀疏且高维的。结构化数据中,将原来的m个特征降维成k个新的特征,新特征是原始特征的线性组合,捕捉了数据的主要方差信息,降维后的数据可以直接用于机器学习模型(如分类、回归),通常能提高计算效率并减少过拟合风险。ps:在进行 SVD 之前,通常需要对数据进行标准化(均值为 0,方差为 1),以避免某些特征的量纲差异对降维结果的影响。数据重构:比如重构信号、重构图像(可以实现有损压缩,k 越小压缩率越高,但图像质量损失越大)降噪:通常噪声对应较小的奇异值。

2025-05-17 23:56:50 327

原创 打卡第二十天

方差筛选是一种基于特征方差的特征选择方法。通过计算每个特征的方差,剔除方差较小的特征,因为这些特征对模型的贡献较小。

2025-05-16 23:48:56 537

原创 打卡第十九天

作业:对心脏病数据集完成特征筛选,对比精度。DAY 19 常见的特征筛选算法。2.皮尔逊相关系数筛选。6.递归特征消除REF。2.皮尔逊相关系数筛选。5.shap重要性筛选。4.树模型重要性筛选。

2025-05-14 23:36:59 218

原创 打卡第十八天

聚类后的分析:推断簇的类型知识点回顾: 推断簇含义的两个思路:先选特征和后选特征。先选特征是指在聚类之前根据领域知识或假设选择特定的特征进行聚类;后选特征则是在聚类完成后,通过分析簇的特征来推断其含义。通过可视化图形借助AI定义簇的含义。可视化工具如散点图、热图等可以帮助直观地观察簇的分布和特征,结合AI算法可以更准确地定义簇的含义。科研逻辑闭环:通过精度判断特征工程价值。在聚类分析中,特征工程的质量直接影响模型的精度。通过比较特征工程前后模型的精度,可以评估特征工程的价值。

2025-05-13 13:59:53 540

原创 打卡第十七天

选择合适的算法,根据评估指标调参:KMeans和层次聚类的参数是K值,选择合适的K值后指标确定。DBSCAN的参数是eps和min_samples,选择合适的参数后出现K和评估指标。这些指标用于评估聚类结果的质量,帮助选择最佳的聚类算法和参数。首先对数据进行标准化处理,然后选择合适的聚类算法和参数,最后将聚类结果添加到原数据中,并进行可视化展示。在实际研究中,聚类的策略不一定是针对所有特征,可以选择其中几个可解释的特征进行聚类。然后对选择的k值进行聚类,pca降维,并将聚类结果可视化。

2025-05-12 22:16:56 467

原创 打卡第十六天

因为前天说了SHAP,这里涉及到数据形状尺寸问题,所以需要在这一节说清楚,后续的神经网络我们将要和他天天打交道。| 标准正态分布(μ=0,σ=1) | 多一个"n"=normal | 数据标准化/深度学习初始化。| [0,1)均匀分布 | "rand"=random+uniform | 蒙特卡洛模拟。| [a,b]整数 | "int"结尾表示整数 | 生成随机索引/标签 || [0,1)浮点数 | 纯"random"最基础 | 简单概率模拟。首先是数组的简单创建和分清楚数组和列表的区别。

2025-05-11 10:03:49 298

原创 打卡第十五天

本文介绍了使用SHAP库进行特征重要性可视化的方法,重点分析了不同绘图函数的参数尺寸要求。首先,通过shap.TreeExplainer获取SHAP值,并检查其形状以确定数据是否符合分类和回归问题的要求。随后,使用shap.plots.bar绘制局部特征重要性条形图,并通过SummaryPlot结合特征重要性和效果进行可视化。文章还展示了如何通过shap.dependence_plot和shap.force_plot分别绘制依赖图和单样本的SHAP力图,以及使用shap.decision_plot绘制决策图

2025-05-10 18:12:14 308

原创 打卡第十四天

默认参数随机森林模型, 带权重的随机森林+交叉验证+使用权重训练最终模型并在测试集上做出预测。然后是带权重的随机森林加交叉验证(基于训练集)然后是对加权重的模型进行训练,并作出预测。首先是默认参数随机森林模型代码。关于修改权重和分类阈值的部分。

2025-05-07 23:38:09 256

原创 打卡第十三天

作业: 从示例代码可以看到 效果没有变好,所以很多步骤都是理想是好的,但是现实并不一定可以变好。修改类别权重和修改分类阈值本质上一个是侧重于向更好的模型进行学习,另一个则是在现有的模型下进行调整,得到更高的某一数值。不平衡数据集的处理 知识点: 1.不平衡数据集的处理策略:过采样、修改权重、修改阈值 2.交叉验证代码。随机过采样:随机过采样输出数据集形状,然后训练随机森林模型,输出训练起始时间,然后是随测试集进行预测。SMOT算法的实现过程和随机过采样的过程差不太多,但是两者却完全不同。

2025-05-06 23:48:47 310

原创 打卡第十二天

例如,可以采用轮盘赌选择法,想象有一个轮盘,每个个体根据其适应度占总适应度的比例在轮盘上占据一定的区域,轮盘转动后,指针指向的个体就被选中。直到满足停止条件,比如规定的骑行时间到了,或者大家都聚集在某个小区域不再变化了,这时离收件地址最近的那个快递员的位置,就当作是找到的最优解。遗传算法:高分验证的超参数,更有机会繁殖,即他们的参数组合会被借鉴和组合,从而发生变异,如参数随机改动,产生更加适应环境的下一代,用新产生的下一代取代原来的参数组合,不断变异,直到达到评估指标。

2025-05-05 23:50:05 492

原创 打卡第十一天

没有结果,不知道是不是电脑带不动的原因,把代码发给AI,AI说我的代码可以正常跑,但是就是跑不动,还报错,我真服了。过程:定义要搜索的参数空间,创造贝叶斯优化搜索对象,在训练集上进行贝叶斯优化搜索,用最佳参数模型在测试集上进行预测。今日作业: 对于信贷数据的其他模型,如LightGBM和KNN 尝试用下贝叶斯优化和网格搜索。训练与预测耗时: 0.1345 秒。使用网格搜索的方法进行优化。

2025-05-04 01:30:58 230

原创 打卡第十天

知识点: 1.数据集的划分 2.机器学习模型建模的三行代码 3.机器学习模型分类问题的评估 今日代码比较多,但是难度不大,仔细看看示例代码,好好理解下这几个评估指标。过程:读取文件后,用sklearn中的方法划分训练集和测试集,x,y分别是特征和标签 ,将两者随机划分,并写下随机种子固定划分的数据。我只做了支持向量机这个模型的评估,但是其他模型和其处理流程几乎完全相同,不再赘述。过程:模型实例化,模型训练需要带入训练集,然后进行模型预测需要带入测试集。作业:尝试对心脏病数据集采用机器学习模型建模和评估。

2025-05-02 23:54:04 192

原创 打卡第九天

过程:定义库,读取数据并且提取出连续变量名称,然后计算相关系数矩阵,设置图片清晰度,画布大小,输入数据,定标题。读取数据,将特征赋予给数组axes,for循环实现子图,但是不知道为什么我的子图特别丑,挤到了一块,我问ai尝试了多种方法都没有将其分开,我真的要崩溃了!真的崩溃了,尤其是我还追求完美主义,但是截止时间马上到了,无奈,明天再试试吧,我也是头昏眼花,这破电脑现在热的也可以煮熟鸡蛋。知识点: 1.介绍了热力图的绘制方法 2.介绍了enumerate()函数 3.介绍了子图的绘制方法。

2025-05-01 23:43:19 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除