- 博客(34)
- 收藏
- 关注
原创 机器学习:load_predict_project
该项目基于历史的电力负荷数据,训练XGBoost模型,实现时序预测里多变量单步的电力负荷预测。
2025-06-06 00:36:12
478
原创 机器学习:聚类算法及实战案例
在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法常用于用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别等方面。一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。2.使用k-means进行聚类,并使用CH方法评估。(一)根据聚类颗粒度分类。(二)根据实现方法分类。
2025-06-04 23:55:39
590
原创 机器学习:集成学习概念和分类、随机森林、Adaboost、GBDT
集成学习是一种通过结合多个基学习器(弱学习器)的预测结果来提升模型整体性能的机器学习方法。随机森林是基于 Bagging 思想实现的一种集成学习算法,通过构建多棵决策树并结合它们的预测结果来提高模型的准确性和鲁棒性。Bagging 框架通过有放回的抽样产生不同的训练集,从而训练具有差异性的弱学习器,然后通过平权投票、多数表决的方式决定预测结果。2.在根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本(增加权重)在后续得到最大的关注;5.再将这T个基学习器进行加权结合得到集成学习器。
2025-06-03 21:31:25
987
原创 机器学习:决策树和剪枝
如果进行此次分裂, 则树的深度为 2, 有三个分支. 在用属性"脐部"划分之后,上图中的结点2、3、4分别包含编号为 {1,2,3, 14}、 {6,7, 15, 17}、 {10, 16} 的训练样例,因此这 3 个结点分别被标记为叶结点"好瓜"、 “好瓜”、 “坏瓜”。3. 对结点2,若将其领衔的子树替换为叶结点,则替换后的叶结点包含编号 为 {1, 2, 3, 14} 的训练样例,叶结点标记为"好瓜"此时决策树的验证集精度提高至 71.4%. 于是,后剪枝策略决定剪枝.熵越小,数据的不确定性越低。
2025-06-03 00:40:45
1248
原创 机器学习:逻辑回归与混淆矩阵
图像越靠近 (0, 1) 点则 ROC 曲线下面的面积就会越大,对正负样本的辨别能力就越强;:逻辑回归的假设函数: h(w) = sigmoid(wx + b ),线性回归的输出,作为逻辑回归的输入;AUC 是 ROC 曲线下面的面积,该值越大,则模型的辨别能力就越强。召回率也叫做查全率,指的是预测为真正例样本占所有真实正例样本的比重。预测对了 3 个恶性肿瘤样本,4 个良性肿瘤样本。预测对了 6 个恶性肿瘤样本,1个良性肿瘤样本。预测对了 6 个恶性肿瘤样本,1个良性肿瘤样本。今天的分享到此结束。
2025-06-01 12:01:22
1087
原创 机器学习:欠拟合、过拟合、正则化
2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。1)重新清洗数据,导致过拟合的一个原因有可能是数据不纯,如果出现了过拟合就需要重新清洗数据。,模型过于简单时的常用套路,例如将线性模型通过添加二次项或三次项使模型泛化能力更强。原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾所有测试样本。,有时出现欠拟合是因为特征项不够导致的,可以添加其他特征项来解决。(体现在准确率下降),此时认为这个假设出现了过拟合的现象。学习到数据的特征过少。
2025-05-31 23:11:51
1876
6
原创 机器学习:波士顿房价预测案例
sklearn中的API:sklearn.metrics.mean_squared_error(y_true, y_pred)回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。
2025-05-30 00:55:17
613
原创 机器学习:线性回归、损失函数、导数、偏导
一个函数在某一点的导数描述了这个函数在这一点附近的变化率。函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在。当存在多个自变量时,只对其中一个自变量求导,同时将其它自变量视为常量的情况理解为求偏导。一元线性回归:目标值只与一个自变量有关系;多元线性回归:目标值与多个自变量有关系。:衡量每个样本预测值与真实值效果的函数。:当函数y=f(x)的自变量x在一点。备注:h(x)为y的预测值。
2025-05-28 17:36:29
2127
原创 python:机器学习(KNN算法)
例:#分类预测操作#导包# #准备数据集# 创建模型knn=KNeighborsClassifier(n_neighbors=3)#k默认为5# 训练模型# 预测。
2025-05-26 21:46:12
634
原创 python:机器学习概述
1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。DL:深度学习,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物。ML:机器学习,让机器自动学习,而不是基于规则的编程(不依赖特定规则编程);:让特征更适配算法(如线性模型需要数值特征,树模型可处理类别特征)。:是从数据中抽取出来的,对结果预测有用的信息,有时也被称为属性;
2025-05-24 21:28:19
1341
原创 Pandas:数据分析中的缺失值检测、加载、设置、可视化与处理
1.能不删就不删 , 如果某列数据有大量的缺失值(50% 以上是缺失值), 具体情况具体分析;2.如果是类别型的缺失值,可以考虑使用字段 ‘缺失’ 来进行填充;3.如果是数值型的缺失值,可以用一些统计量 (均值/中位数/众数) 或者业务的默认值来填充。今天的分享到此结束。
2025-05-24 00:05:13
1303
原创 python:基础爬虫、搭建简易网站
以上代码配合写好的html文件,便可以搭建一个简易的网站,后期随时可以根据自己的需求更改、添加(文字、图片、视频等)。今天的分享到此结束。
2025-05-22 23:53:47
2609
原创 Pandas:数据分析步骤、分组函数groupby和基础画图
两种属性都可以接收单值、切片和列表,当参数只传入了一个时,默认为行标签和行索引位置,列名和列索引标签必须显式传递。Pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能。在理解或清理数据时,可视化(绘图)有助于识别数据中的趋势,所以它很重要。今天的分享到此结束。
2025-05-21 17:14:51
662
原创 Pandas:Series和Dataframe的基础运算、数据的添加、删除和插入,导入导出
上期我们讲了Series和Dataframe的基本概念、常用属性和方法等,这次我们讲述Series和Dataframe的增删改查等操作。
2025-05-21 13:08:57
826
原创 Pandas:Series和DataFrame的概念、常用属性和方法
Pandas 只有两种核心数据结构:Series:一维数组(单列数据,带索引)。DataFrame:二维表格(多列 Series 的集合,每列可不同数据类型)。【特别分享】Pandas没有独立的“行”对象源于两点原因****:(1)设计哲学:Pandas 是围绕 列式存储(Column-oriented) 优化的,列操作(如聚合、过滤)比行操作更高效;(2)内存布局:DataFrame 的每列(Series)在内存中连续存储,而行是跨列的,访问效率较低。Series是最基本的数据结构对象,DataFram
2025-05-21 00:07:37
1454
原创 python:pymysql概念、基本操作和注入问题讲解
sql单独定义,用%s占位,把所有参数放到列表里,把sql和参数列表传给execute,这样系统构造mysql语句将不会出错(严格的代码/数据分开)。如果使用之前学习的MySQL客户端来完成插入10000条数据的操作,那么这个工作量无疑是巨大的,在这个时候就可以使用pymysql,更高效。1.事务是一组操作的集合:在PyMySQL中,增删改操作通常是在事务的上下文中执行的。原子性:事务内的所有增删改操作要么全部成功,要么全部失败回滚(rollback);持久性:一旦事务提交,增删改的结果将永久保存。
2025-05-19 23:39:24
472
原创 python:numpy分享(保姆级教程)
创建数组:array和ndarray、rand()、randn()、arange()、randint()、uniform()astype()基础函数:ceil()、floor()、rint()、argmax()、argmin()、cumsum()、cumprod()numpy 是数据分析必不可少的第三方库,具有高性能的特点,多用于做数组分析。内置函数:ceil()、floor()、rint()主要用于数组计算,支持多维数组。array和ndarray。比较函数:all、any。去重函数:unique。
2025-05-17 23:18:14
422
原创 python:mysql全局大览(保姆级教程)
外键约束【construct [约束名] foreign key (字段名) references 主表(主键名)】:用于关联两个表,关联表叫子表,被关联表叫主表,此处只简单介绍,后面分享多表查询时会详细介绍(下面代码里也还未涉及);主键约束可设置主键自增;desc:降序),排序字段名2(asc:升序;分组查询:select 分组字段名,聚合函数(字段名)from 表名 group by 分组字段名1,分组字段名2。分组/聚合/统计函数:sum()、avg()、count()、max()、min()
2025-05-16 00:30:17
1368
原创 python:数据结构与算法分享
(2)顺序表包括元数据区(存储长度、存储空间等)和数据区,由此又分为一体式存储(元数据区与数据区存储一起)和分离式存储(元数据区与数据区分开存储);最后的最后再补充一点:空间复杂度与时间复杂度类似,也存在O(1) < O(logn) < O(n) < O(n2) < O(n3),只是一切是根据存储空间来看。数据结构(数据结构中各个结点之间具有多个对应关系,如树结构),线性结构(数据中各个节点间具有线性关系,如栈、队列)。(2)链表包括地址域(next)和数据域(item);(4)链表适合增删改多的场景。
2025-05-14 22:00:48
534
原创 python:正则表达式
注意:1.在正则表达式中,通过一对圆括号括起来的内容,我们就称之为==“子表达式”==(即:分组),findall若有分组,则只返回分组内容,返回内容并被叫做“捕获”,不同于匹配。备注:finditer()方法与findall()方法类似:都会返回所有匹配结果,只不过finditer是返回迭代器,findall返回列表。2. 在正则表达式中,我们可以通过\n(n代表第n个缓存区的编号)来引用缓存区中的内容,我们把这个过程就称之为"反向引用"(即:后向引用)。需用group()打印结果,
2025-05-13 23:48:17
596
原创 python:二叉树的概念、广度优先遍历和深度优先遍历
一、广度优先遍历:按照层级遍历。二、深度优先遍历:共三种情况。先序:根结点-左结点-右结点。中序:左结点-根结点-右结点。后序:左结点-右结点-根结点。
2025-05-12 23:59:27
283
原创 python:自定义类模拟栈和队列
自定义类对栈和队列的模拟非常相似,主要区别就是元素的入和出顺序。一、自定义类模拟栈:遵循先入后出。二、自定义类模拟队列:先入先出。今天的分享到此结束。
2025-05-11 23:16:19
265
原创 python:简单直观的冒泡排序与选择排序
一、冒泡排序:相邻两个元素相互比较,将大的元素或小的元素排在后面。比如,大的元素排在后面,则经过一轮比较后,会获取到最大的元素在最后面,然后再第二轮排序,获取到第二大的元素在倒数第二位,再第三轮。。。如此类推。运行代码:二、选择排序:每次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。比如第一次从待排序元素里选出最小的放在首位,第二次从剩下的待排序元素里选出最小的排在第二位,再第三次。。。如此类推。运行代码:
2025-05-11 00:47:43
309
原创 python:迭代器与生成器
特点:1.自定义__iter__和__next__函数;3.手动管理:包括自定义退出机制和手动管理当前位置(包括管理状态、保留值等)。迭代器指python中的一种对象,主要用于惰性计算,是按需生成数据,而不需要暴露数据集合的底层实现,适用于任何支持迭代的数据结构,如列表、元素等。最后,生成器和迭代器一样,也是通过for循环和next()函数来取值。最后,迭代器可以用for循环和next()函数取值。生成器是特殊的迭代器,定义时可运用yeild关键字。实现方式有两种,一种是生成器推导式,
2025-05-09 23:23:26
383
原创 python:线程、多线程、互斥锁
线程是程序执行的最小单位,一个进程中最少有一个线程来负责执行程序。同时线程自己不拥有系统资源,只需要一点儿在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源。特点:互斥锁是多个线程一起去抢,抢到锁的线程先执行,没有抢到锁的线程进行等待,等锁使用完释放完,其它等待的线程再去抢这个锁。死锁:一直等待对方释放锁的情景就是死锁,使用互斥锁的时候需要注意死锁的问题。三、互斥锁:保护共享资源,保证同一时刻只有一个线程去操作;今天的分享到此结束,欢迎联系探讨,共同学习,一起进步!
2025-05-08 23:00:06
417
原创 python:进程与多进程
2.获取当前父进程(如果主进程直接创造子进程,则父进程也就是主进程,如果不是,那么另说)和子进程的id代码分别为:os.getppid()、os.getpdi(),有需要可查看(ppid意味是parent pid)。多进程存在两种运行方式,一种是“并发”,指cpu让多个程序交替轮流运行,但因运行速度太快,会误以为多个程序同时运行,是伪多进程;进程:是操作系统进行资源分配和调度运行的基本单位,通俗理解:一个正在运行的程序就是一个进程。二、多进程特点:1.进程之间不共享全局变量;多进程:多个程序运行;
2025-05-07 23:12:16
815
原创 python:TCP协议与网络编程
明白了TCP协议后,我们就可以进行基于TCP的网络编程。5.客户端套接字对象接收服务器发送的数据;7.服务器套接字对象接收客户端发送的数据。4.客户端套接字对象发送数据给服务器;8.服务器套接字对象回复消息给客户端。3.服务器套接字对象绑定地址和端口。5.服务器套接字对象等待客户端连接。6.服务器套接字对象接收客户端连接。3.客户端套接字对象连接服务端;4.服务器套接字对象设置监听数。2.创建客户端套接字对象;6.关闭客户端套接字对象。2.创建服务器套接字对象。9.关闭服务器套接字对象。
2025-05-06 21:58:58
171
原创 python:闭包、装饰器、深浅拷贝(顺便分享赋值和变量传递)
2.浅拷贝和深拷贝的不同主要体现在:对于含有多层的可变类型数据,浅拷贝只拷贝了最外层,第二层及以上的值照样是引用地址传递,所以当第二层及以上的值发生变化时,浅拷贝结果也会发生相应变化(藕断丝连),而深拷贝是完全脱离了原来数据变量,绝不变化(恩断义绝)。另外,可以同时调用多个装饰器,当调用多个装饰器时,距离函数近的先装饰,然后把装饰好的结果传递给下一个装饰器,但打印是从外到内执行(反着来)。注意:在面对只有一层的可变类型数据时,浅拷贝和深拷贝没有差别:都开辟了新的空间,并都不受原来变量影响。
2025-05-05 21:09:15
336
原创 python:类的多态——继承中的多态
还有dog类,重写call方法为“汪汪叫”,现在在动物类里调用call方法:如果指定对象是cat类,那么“喵喵叫”,指定动物为dog类,那么“汪汪叫”,即“调用不同子类对象的相同方法,可以产生不同的效果。python是一种伪多态,因为它不关心对象类型,只关心对象的行为(方法),比如被继承类类:动物类,子类:猫类,狗类,还是汽车类,只要子类都重写了call()方法,然后动物类如果执行了call()方法,都会因指定的子类传入对象而执行子类重写的call()方法,不在乎汽车是否属于动物。
2025-05-03 22:38:09
294
原创 python :分享几个小游戏(比大小、猜拳、账号密码登录游戏)
2.猜拳:运用了random库,input()、print()等函数,if ~ elif ~ else条件控制语句。3.登录游戏:用到了for ~ in循环,if ~ else 条件控制语句,input()函数,print()函数。1.比大小:用到了random库,数列、input()函数、if~else条件控制语句、print()函数。
2025-05-02 22:03:52
182
原创 python:类属性与实例属性,类方法、实例方法与静态方法
类属性是直接定义在类中的属性,通常用于存储类的全局数据(配置、常量等)。类属性所有实例共享,通过实例和类名都可以访问,但不能通过实例来修改,否则会生成一个和类属性名字一样的实例属性(类属性只能通过 “类名.类属性名” 作修改)。通过实例和类名都可以访问。使用@classmethod 装饰器,第一个参数是cls,只能直接访问和修改类属性,不能直接访问实例属性(除非传入实例,一般不这样用);方法中通过“”self.属性名 ”定义,修改某个实例属性不会影响到其它实例属性,只能通过 “实例.属性名” 访问。
2025-05-01 21:52:04
517
原创 python里类的单继承、多继承,实例说明
1.单继承:新类继承单个类,包括继承被继承类的公共属性和公共方法。2.多继承:新类继承多个类,包括继承被继承类的公共属性和公共方法。
2025-04-30 23:46:56
126
原创 python的类的定义、神奇方法,实例说明
``提示:以下是本篇文章正文内容,下面案例可供参考古人云:物以类聚,人以群分,类简单来说是一些具有相同属性的事物统称,在python中通过定义类,可实现面向对象编程(相对于面向过程编程)。第一种(object是所有类的祖宗类):第二种:第三种:特别注意:类内可一无所有,当类内没有任何东西时,用pass表示三、类的神奇方法(3个)1.初始化对象属性2.打印对象名,默认返回(return)字符串3.默认当对象调用次数为0时被回收四、类的一般书写格式及其调用方式(例)五、实例:运用了神奇方法
2025-04-30 00:15:38
374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人