- 博客(23)
- 收藏
- 关注
原创 深度学习——简介
所有深度学习都是机器学习,但并非所有机器学习都是深度学习。在深度学习的过程中,每一层神经网络都对输入数据进行处理,从而学习到数据中的特征和模式。深度学习的关键之一是“反向传播”算法,它通过计算损失函数(即实际输出与期望输出之间的差异)并将这种误差反馈回网络的每一层,来调整每层的权重。深度学习的一个重要的概念是“特征学习”,这意味着深度学习模型能够自动发现和利用数据中的有用特征,而无需人工介入。深度学习的成功依赖于大量的数据和强大的计算能力。
2025-06-10 20:24:42
146
原创 机器学习——聚类算法
根据样本之间的相似性,将样本划分到不同的类别中的一种无监督学习算法。细节:根据样本之间的相似性,将样本划分到不同的类别中;不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性,一般使用欧式距离。
2025-06-03 21:27:51
900
原创 机器学习——集成学习
集成学习: (Ensemble Learning)是一种机器学习范式,它通过构建并结合多个模型来完成学习任务,获得更好的泛化性能。核心思想:通过组合多个弱学习器来构建一个强学习器。bagging思想:有放回的抽样;平权投票,多数表决方式决定预测结果;并行训练。boosting思想:全部样本(重点关注上一训练器不足的地方训练);加权投票的方式;串行训练。
2025-06-02 21:21:42
1345
原创 机器学习----决策树
fromimportfromimportplot_tree决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。决策树的建立过程(三要素):1.特征选择:选择较强分类能力的特征;2.决策树的生成:根据选择的特征生成决策树;3.决策树的剪枝:决策树也容易过拟合,采用剪枝的方法缓解过拟合。
2025-06-01 00:40:01
942
原创 逻辑回归知识点
逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计方法,尤其适用于二分类问题。注意: 尽管名称中有"回归"二字,但它实际上是一种分类算法。解决二分类的问题。
2025-05-29 22:02:42
1259
原创 线性回归相关知识
概念:线性回归(Linear Regression)是一种用于建模和分析变量之间线性关系的统计方法。作用:通过拟合一条直线(或超平面)来描述自变量(X)与因变量(Y)之间的线性关系,从而预测或解释数据。一元线性回归(目标只与一个因变量有关):y=kx+b多元线性回归(目标与多个因变量有关):y=
2025-05-28 11:19:39
1476
原创 【KNN算法】
算法思想:如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。K值:用于获取领域中样本对目标值进行预测的样本个数。距离的度量:欧式距离:空间中两点的最短距离【各个维度之间对应值的差的平方和开根号】曼哈顿距离(城市街区距离):特点是横平竖直【各个维度之间对应值的差求和】切比雪夫距离:两点间对应坐标差值取最大值【各个维度之间对应值的差取最大值】闵氏距离:是对多个距离度量公式的概括性的表述【】
2025-05-26 00:37:10
1374
原创 机器学习概述
有特征有标签(结果驱动),出现两大问题是:分类任务(标签是离散的,函数输出有限个离散值)和回归任务(标签是连续的,函数输出连续的值)有特征无标签(数据驱动),出现问题:聚类任务,降维任务,异常检测任务…2.基于模型的学习:通过编写机器学习算法,让加器自己学习从数据中获得的规律(模型),然后进行预测。数据集划分:训练集(训练模型)和测试集(测试模型),一般对应占比8:2或者7:3。奥卡姆剃刀原则:给定两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取。泛化:模型在新数据集上的表现好坏的能力。
2025-05-23 20:32:18
386
原创 数据分析处理——进阶
df对象调用apply(函数名)函数: 每个s对象依次传递到apply中函数,依次执行。transfrom(): 多个内容聚合产生多个结果,保证输出的记录数和输入的记录数一致。s对象调用apply(函数名)函数: 每个元素依次传递到apply中函数,依次执行;想输出更加清晰明了的视图,可以把分组字段2拆分出来用columns指定。如果结果是True,数据就保留;如果结果是False,数据就被过滤掉。agg(): 多个内容聚合产生一个结果。
2025-05-21 09:39:22
377
原创 数据分析中清洗填充数据
注意:缺失数据本身不等于它本身(即NaN==nan的结果是False)subset=[列,列] : 判断一行中指定列位置有缺失值就删除;how=“any” : 一行中任意列有缺失值就删除;how=“all”: 一行中所有列都是缺失值就删除。填充值数字可以是0,可以是平均数,中位数,众数等。通过导包,并使用对应方法生成图像以便可视化。依据缺失值前后数据计算的中间值结果进行填充。依据缺失值前一位数据的值进行填充。依据缺失值后一位数据的值进行填充。空的,没有任何意义的。
2025-05-20 21:10:07
437
原创 数据分析整体思路
sum(),mean(),man() ,min(),count() 不去重统计,nunique()去重统计。iloc:根据索引(从0开始)获取行列数据(df.iloc[行索引,列索引])loc:根据索引值/索引标签获取行列数据(df.loc[行标签,列标签])获取指定分组的内容:分组后df对象.get_group(“分组名”)获取每个分组中的第一条数据:分组后df对象.first()获取每个分组中的最后一条数据:分组后df对象.last()标签和索引指定的格式:单个,列表指定多个,切片指定多个;
2025-05-19 21:11:17
1315
原创 Pandas基础
本文介绍了Pandas库中的两种核心数据结构:Series和DataFrame。Series是一维数组,具有行索引,常用于表示DataFrame的列或行。DataFrame是二维表格型数据结构,包含多组有序的列,每列可以是不同的数据类型。文章详细讲解了如何创建Series和DataFrame对象,并展示了它们之间的互转操作。此外,还介绍了Series和DataFrame的常见操作,包括常用属性、方法、布尔索引和运算操作。最后,文章还涉及了DataFrame的其他操作,如索引列的指定与重置、行列标签的修改等。
2025-05-19 00:32:53
827
原创 numpy相关的知识点学习
numpy是pandas的基础,numpy结构就是一个N维数组ndarray,因为numpy只能存储同种类型数据,所以做同类型计算的时候效率远高于python本身操作。
2025-05-17 14:16:16
291
原创 PyMySQL的学习
概念:pymysql是一个纯python实现的mysql客户端库,提供了python程序中操作mysql数据库的操作。作用:我们可以通过使用程序代码的方式去连接MySQL数据库,然后对MySQL数据库进行增删改查的方式,实现超多条数据的插入,像这样使用代码的方式操作数据库就称为数据库编程。
2025-05-16 19:46:39
193
原创 MySQL函数
在MySQL中有很多内置函数,除了之前学习的聚合函数之外,还有很多其他内置函数:数值函数、字符串函数、时间日期函数、流程控制函数、加解密函数、开窗函数等。官方文档:通过HELP'函数名'查看指定函数帮助文档。
2025-05-15 20:42:08
299
原创 MySQL入门
1.数据库的作用:存储和管理数据的系统。2.分类(按数据存储形式)关系型:mysql,oracle,sqlserver,sqlite,postgresql...非关系型:hbase,mongdb,redis...3.关系型数据库存储数据的形式:以行列表格的形式存储数据。
2025-05-14 16:29:32
894
原创 数据结构和算法
数据结构:是储存和组织数据的方式,指相互之间存在一种或多种特定关系的数据元素的集合。算法:用来实现业务目标的方法和思路。二者的关系:数据结构 + 算法 = 程序,算法是为了解决实际问题而设计的,数据结构是算法需要处理问题的载体。
2025-05-12 20:26:30
1644
原创 其他Python高级语法:迭代器和生成器
1.定义:重写__iter__() 和 __next__() 这两个魔法方法的类,就是迭代器。使用 for循环 或者 next() 函数进行遍历。2.优势:支持惰性计算和高效的内存使用,适合处理大型数据集合或流数据。
2025-05-09 13:20:18
281
原创 正则表达式
正则表达式(regular expression)本质就是各种符号,通过这些符号,在大字符串中匹配、查找指定字串,它适用于多种编程语言。正则表达式的功能:① 数据验证(表单验证、如手机、邮箱、IP地址)② 数据检索(数据检索、数据抓取)③ 数据隐藏(130****1234 某先生)④ 数据过滤(论坛敏感关键词过滤)
2025-05-08 21:34:42
391
原创 闭包装饰器和深浅拷贝
有时需要保存函数内的这个变量,并在这个变量的基础上完成一系列的操作,所以有了闭包操作。闭包可以保存函数内的变量,而不会随着调用完函数而被销毁。
2025-05-06 09:43:14
547
原创 面向对象基础
多态是一种使用对象的方式,子类重写父类方法,调用不同子类对象的相同父类方法,可以产生不同的执行结果。Python中的多态就是指 => 同一个函数,随着传入子类对象的不同,可以实现不同的功能!
2025-05-05 09:58:07
1144
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人