Cachel wood
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
互信息量(Mutual Information,MI)计算及应用
互信息量(MI)是信息论中衡量两个随机变量依赖关系的核心指标,能够揭示线性与非线性关联。其数学定义为联合概率分布与边缘分布的比值对数期望,通过熵差量化变量间的信息共享程度。MI具有非负性、对称性等特性,可通过概率统计或数值方法计算,广泛应用于特征选择、NLP、图像处理等领域。尽管功能强大,但需注意尺度依赖、计算复杂度等局限性。与相关系数不同,MI能捕捉非线性关系,为数据分析提供更全面的依赖度量。原创 2025-06-03 00:15:11 · 109 阅读 · 0 评论 -
deep forest安装及使用教程
摘要: 深度森林(Deep Forest)是周志华团队提出的集成学习方法,结合传统机器学习与深度学习优势。其核心包括级联结构(多层森林逐步增强特征)和多粒度扫描(捕捉不同层次信息)。特点包括超参数少、模型复杂度自适应、无需反向传播及可解释性强,适用于分类、回归及特征工程任务。示例代码展示了如何安装deep-forest库并构建级联森林分类器,模拟生成销售数据(含数值和分类特征)进行多分类预测,体现了模型的实际应用流程。原创 2025-06-02 21:01:46 · 375 阅读 · 0 评论 -
数据科学/数据分析暑期实习题目汇总
这里定义了一个名为Animal的类,它是一个自定义的数据类型,可用于创建具有特定属性和方法的对象。这个例子展示了Python中私有属性的定义和访问方式。虽然Python提供了私有属性的概念,但并没有严格限制对它们的访问,这与其他一些编程语言(如Java)有所不同。在实际编程中,应该遵循封装原则,尽量避免直接访问私有属性,而是通过类提供的公共方法来操作私有属性。原创 2025-03-15 22:24:27 · 167 阅读 · 0 评论 -
无监督异常检测算法:孤立森林(Isolation Forest)
孤立森林(Isolation Forest)是一种高效的无监督异常检测算法,特别适用于处理高维和大规模数据集。异常点(Outliers)与正常点相比,更容易被“孤立”(Isolate)。通过构建多棵随机树(),算法利用异常点在树中路径较短的特点,快速识别出异常。孤立森林通过随机分割快速识别异常,凭借其高效性和无监督特性,成为工业界异常检测的首选工具之一。理解其核心思想与参数调优,能在实际应用中有效提升检测效果。原创 2025-03-15 15:22:52 · 834 阅读 · 0 评论 -
AB测试的统计学基础
AB实验设计:随机分组、单一变量、样本量计算。分析方法:选择正确的检验方法、解读p值和置信区间。业务结合:统计显著不等于业务有效,需权衡效应量与成本。通过严谨的统计学流程,AB测试可最大化减少主观偏差,为决策提供可靠依据。原创 2025-03-03 15:33:34 · 208 阅读 · 0 评论 -
机器学习中的谱方法(Spectral Methods)与核方法(Kernel Methods)
谱方法:通过矩阵分解揭示数据底层结构,适合图分析和流形学习。核方法:通过核函数隐式映射到高维空间,解决非线性问题。两者均通过数学变换将复杂问题转化为线性可解形式,是机器学习中处理非线性数据的核心工具。原创 2025-03-02 19:51:03 · 351 阅读 · 0 评论 -
XGBoost和LightGBM机器学习算法对比及实战
XGBoost:理论严谨,适合精细化调参,在中小数据集上表现优异。LightGBM:通过直方图、GOSS、EFB等技术优化效率,适合大规模数据和高维特征,工业界应用广泛。两者均支持分布式训练,实际应用中可根据数据规模、特征复杂度和硬件资源灵活选择。以下是XGBoost和LightGBM的代码示例,使用Python的xgboost和lightgbm库实现分类任务(以鸢尾花数据集为例)。原创 2025-03-02 17:15:03 · 164 阅读 · 0 评论 -
机器学习教程:SHAP值和LIME 值解释模型预测结果
SHAP值和LIME值都是用于解释机器学习模型预测结果的工具,下面分别介绍它们的原理。原创 2025-02-26 21:14:17 · 533 阅读 · 0 评论 -
KL 散度介绍及使用场景
不过需要注意的是,KL 散度不具有对称性,即 ,所以它并不是一个真正意义上的距离度量(距离度量需要满足对称性、非负性和三角不等式)。机器学习:在变分自编码器(VAE)中,KL 散度用于衡量近似后验分布与先验分布之间的差异,从而在训练过程中对模型进行约束,使得近似后验分布尽量接近先验分布。统计学:在模型选择和假设检验中,KL 散度可以作为一种衡量模型分布与真实数据分布之间差异的指标,帮助选择更合适的模型。同样,当 且 时,积分中的被积函数无定义,KL 散度为无穷大。如果以 2 为底,单位则是比特(原创 2025-02-24 21:05:48 · 529 阅读 · 0 评论 -
Brier 分数定义及应用
在概率预测的评估场景下,需要一种有效的方式来衡量预测概率与实际结果之间的差异。布赖尔提出的Brier分数就是这样一种用于评估概率预测准确性的指标。它主要用于评估二分分类(如事件发生或不发生)或多分类问题中预测概率的质量。原创 2025-02-21 20:34:52 · 286 阅读 · 0 评论 -
sklearn TfidfVectorizer使用教程
这个正则表达式的含义是匹配由两个或两个以上字母、数字或下划线组成的单词边界。对于中文文本来说,由于中文没有像英文那样明确的单词边界(空格分隔),所以它会将连续的中文文本当作一个整体来处理,从而出现较长的短语作为特征的情况。下面为你提供一个详细的使用教程,涵盖基本使用、参数设置、中文处理等方面。得到较长的 “词汇”(实际上这些可能并不是传统意义上的单个词,而是短语)且未进行分词处理,主要和。能够正确处理中文文本,你需要先对中文文本进行分词处理。默认是基于英文的分词规则,它使用正则表达式。原创 2025-02-20 23:14:06 · 391 阅读 · 0 评论 -
随机森林(Random Forest)class_weight=balanced处理类别不平衡
在类别不平衡的数据集中,多数类样本数量多,少数类样本数量少。这样一来,模型在多数类上的表现可能很好,但在少数类上的表现会很差,比如在医学诊断中,患病样本(少数类)可能被错误分类为健康样本(多数类),从而导致严重的后果。权重较大的样本在决策树的构建过程中会产生更大的影响,使得模型更加关注少数类样本,从而在一定程度上平衡了类别之间的影响,提高了模型对少数类的分类性能。进行分类任务时,当数据集中的类别分布不平衡,即某些类别的样本数量远多于其他类别时,模型可能会偏向于多数类,导致对少数类的预测性能较差。原创 2025-02-20 20:47:27 · 448 阅读 · 0 评论 -
sklearn.mutual_info_classif计算特征与类别之间的互信息
,在特征选择中是一种常用的方法。互信息可以衡量两个随机变量之间的依赖程度,在特征选择的场景下,它能帮助我们评估每个特征对于分类任务的重要性,互信息值越高,说明该特征与类别之间的相关性越强,也就意味着该特征对于分类任务越有价值。互信息值越大,表明该特征能够为类别标签的预测提供更多的信息。其中 p(x,y) 是 X 和 Y 的联合概率分布,p(x) 和 p(y) 分别是 X 和 Y 的边缘概率分布。的一维数组,其中每个元素表示对应特征与类别标签之间的互信息值。库中的一个函数,用于计算特征与类别之间的互信息(原创 2025-02-18 08:40:55 · 101 阅读 · 0 评论 -
imblearn.combine处理类别不平衡问题
库中的一个模块,该模块提供了结合过采样和欠采样技术来处理类别不平衡问题的方法。类别不平衡问题在机器学习中很常见,即数据集中不同类别的样本数量存在显著差异,这可能导致模型偏向于多数类,而对少数类的预测性能较差。中的方法通过综合过采样少数类和欠采样多数类,来改善数据集的类别分布,从而提高模型在少数类上的性能。原创 2025-02-17 11:57:55 · 169 阅读 · 0 评论 -
sklearn.ConfusionMatrixDisplay可视化混淆矩阵
库中用于可视化混淆矩阵的一个实用工具。混淆矩阵是一种常用的评估分类模型性能的工具,它可以直观地展示模型在各个类别上的预测结果与真实标签之间的关系。下面详细介绍如何使用。函数计算模型在测试集上的混淆矩阵。混淆矩阵的行表示真实标签,列表示预测标签。你还可以对混淆矩阵的可视化进行更多定制化,例如更改颜色映射、添加百分比显示等。使用逻辑回归模型对训练集进行训练,并在测试集上进行预测。个特征的二分类数据集,并将其划分为训练集和测试集。对分类模型的性能进行直观的混淆矩阵分析。通过以上步骤,你可以使用。原创 2025-02-17 11:23:35 · 273 阅读 · 0 评论 -
sklearn.CalibratedClassifierCV校准分类器预测概率
概率校准就是调整分类器输出的概率,使其更接近真实的概率分布,这样可以提高模型在需要可靠概率估计的任务中的性能,比如风险评估、决策分析等。库中用于校准分类器预测概率的一个类。在机器学习中,许多分类器输出的概率可能并不准确,也就是所谓的 “提供了一种方便的方式来对分类器进行概率校准,从而在需要可靠概率估计的场景中获得更好的性能。原创 2025-02-16 20:05:27 · 239 阅读 · 0 评论 -
sklearn:机器学习 分类特征编码category_encoders
是一组风格的转换器,用不同的技术将类别变量编码成数字。虽然序数编码、独热编码和散列编码在现有对pandas数据文件作为输入(可选作为输出)的一流支持可以显式配置数据中的哪些列按名称或索引编码,或推断非数字列,而不管输入类型可以根据训练集随意删除任何方差很低的列可移植性:培训数据转换器,pickle它,以后重用它,然后得到同样的东西。完全兼容sklearn管道,输入一个类似数组的数据集,像任何其他转换器'__all__','__doc__','basen','binary',原创 2024-02-13 13:24:27 · 850 阅读 · 0 评论 -
sklearn.preprocessing 特征编码汇总
即将类别特征变成关于它的一种统计量,如将该类别变成该类别在样本中出现的次数,这在有些问题中是有效的,比如纽约和新泽西都是大城市,出现次数都会很多,通过计数的类别编码,模型可以从数值里接受“都是大城市”这个信息。K折目标编码将要编码的样本分成K份,每其中一份中的样本的目标编码,使用的是另外K-1份数据中相同类别的那些样本的频率值。用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。编码后的特征会变得非常多,得到的是一个稀疏矩阵,其类型是。原创 2024-02-07 11:19:30 · 600 阅读 · 1 评论 -
one-hot编码和哑变量编码的区别与联系
编码之后生成的新特征数就是3。而哑变量编码之后生成的新特征数比对应特征的取值个数少1个。编码,是因为每个取值对应的编码中有且只有一个是1,其余都是0。而哑变量编码允许不出现1。等第三方包中已经加入了这些方法,所以这里直接使用第三方包实现。编码之后生成的新特征数等于对应特征的不同种类取值个数,编码和哑变量编码都只能对离散型变量进行编码。编码形成的新特征都是二值型特征,比如,上述。哑变量编码在这一点上与。类似,只不过当编码全为0是表示。既不是1也不是2,这种情况下默认。中共有3种不同的取值,原创 2024-02-05 10:32:04 · 296 阅读 · 0 评论 -
sklearn.preprocessing 标准化、归一化、正则化
线性变换又很多良好的性质,这决定了对数据变换后的数据反而能提高数据效率。输出范围是一个特定的区间,在。就是特征中,所有数据都会除以最大值,该方法对那些已经中心化均值为0,或者稀疏的数据有意义。:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。如果数据有异常值和较多噪音,用标准化,可间接通过中心化避免异常值、极端值的影响。归一化是标准化的一种,它的缩放仅与最大、最小值的差别有关;(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;原创 2024-02-02 12:28:22 · 550 阅读 · 0 评论 -
sklearn缺失值处理:SimpleImputer模块 补全缺失值
fillna经典平均数、中位数、众数填充#检查统计缺失值#删除行#众数插补:#中位数插补#平均数K近邻法KNNImputer在该方法中,使用给定数量的与缺失值的属性最相似的属性进行缺失值的赋值。两个属性的相似性是通过距离函数来确定的。众所周知,它也有一定的优势和劣势。优点: k近邻可以预测定性和定量属性;不需要为每个缺少数据的属性创建预测模型;可以很容易地处理缺少多个值的属性;考虑了数据的相关结构特性劣势: KNN算法在分析大型数据库时非常耗时。它搜索所有数据集,寻找最相似的实例;原创 2024-01-31 19:33:13 · 569 阅读 · 0 评论 -
python imblearn教程:不平衡数据处理
官方教程:https://imbalanced-learn.org/stable/references/index.html不平衡数据的处理主要分为在数据层面的处理和在算法层面的改进,因为两者互不影响,所以也有结合两者的方法。首先进行数据处理,之后再进行算法预测。代表算法:代表算法:查看数据标签因为可视化只接受二维数据,所以提取数据前两列采样函数导入多样的过采样函数原创 2023-12-02 22:51:21 · 449 阅读 · 0 评论 -
sklearn教程:titanic泰坦尼克号数据集
这个数据集是基于泰坦尼克号中乘客逃生的,泰坦尼克号出事故,船上的乘客的一些信息被记录在这张表中。现在要根据这个数据预测这个人能否获救。共有891个样本。数据集属性属性含义乘客IDSurvived获救情况(1为获救,0为未获救)Pclass船舱等级(1/2/3等舱位)Name乘客姓名Sex性别Age年龄SibSp乘客在船上的兄弟/姐妹个数Parch乘客在船上的父母与小孩个数Ticket船票编号Fare票价Cabin舱位Embarked登船港口。原创 2023-12-02 00:38:34 · 592 阅读 · 0 评论 -
sklearn教程:boston波士顿房价数据集
Boston数据集是一个经典的回归分析数据集,包含了美国波士顿地区的房价数据以及相关的属性信息。该数据集共有506个样本,13个属性,其中包括12个特征变量和1个目标变量(房价中位数)。属性含义CRIM城镇人均犯罪率ZN住宅用地所占比例INDUS城镇中非住宅用地所占比例CHAS是否靠近查尔斯河(1表示靠近,0表示不靠近)NOX一氧化氮浓度RM房屋平均房间数AGE自住房屋中建于1940年前的房屋所占比例DIS距离5个波士顿就业中心的加权距离RAD距离绿色公园的辐射范围。原创 2023-12-01 23:48:39 · 1688 阅读 · 1 评论 -
sklearn教程:iris鸢尾花数据集数据分析
查看数据标签、属性和介绍查看数据整理为dataframe数据 sepal length sepal width petal length petal width species 0 5.1 3.5 1.4 0.2 0 1 4.9 3.0原创 2023-12-01 23:27:06 · 747 阅读 · 0 评论 -
python实现决策树可视化Graphviz和plot_tree
Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。该数据集可以直接从sklearn的datasets中获取#决策树。原创 2023-12-01 18:05:11 · 394 阅读 · 0 评论 -
python requests爬取税务总局税案通报、税务新闻和政策解读
发出请求,返回页面。本文的需求在于爬取“原创 2023-10-21 18:49:53 · 1255 阅读 · 0 评论 -
python selenium.webdriver 爬取政策文件
利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。右侧通过光标定位各部分信息,右键点击 copy 并选择 copy xpath即可复制xpath路径。,分为国务院文件和部门文件(发改委、工信部、交通运输部、市场监督局、商务部等)搜索关键词——汽车,即可得到按照 相关度 或者 时间 排列的政策文件。每次爬取单一文件信息并整理为dataframe,之后按行合并。获取中央人民政府网站链接,进入。批量获取文件链接并存入列表。原创 2023-07-16 00:50:18 · 4264 阅读 · 1 评论 -
数据挖掘:遗传算法GA Genetic Algorithms
每个候选解称为染色体。染色体是一串基因,用适应度函数来测量它们的生存能力。染色体可以通过进化来复制自己,交配和突变。精英主义:候选解决方案组合在一起,在每个迭代算法中产生后代。被称为一代人。后代也可以成为候选解决方案。从父母和孩子,一组适者生存下来,成为在下一代产生后代的父母。繁殖:通过繁殖,GA通过选择具有较高适应性评级的父母或通过给予这些父母更大的选择概率来促进繁殖过程,从而产生新一代的潜在改进解决方案。交叉:一串二进制符号(响应决策变量)来表示染色体(潜在解),交叉意味着在字符串中选择一个随机位置,并原创 2022-06-28 14:03:35 · 753 阅读 · 0 评论 -
数据挖掘:R语言关联规则挖掘
文章目录关联规则挖掘关联规则挖掘> data<-read.transactions('groceries.csv',sep = ',')> > summary(data) #可以查看输入信息的记录数,商品总数,最频繁的项集等数据transactions as itemMatrix in sparse format with 9835 rows (elements/itemsets/transactions) and 169 columns (items) and a原创 2022-05-01 19:45:39 · 1431 阅读 · 0 评论 -
数据挖掘:R语言支持向量机字符识别SVM
文章目录支持向量机(字符识别)支持向量机(字符识别)> #--------支持向量机进行光学字符的识别--------------------------------------------> > #读入数据> data<-read.csv('letterdata.csv')> > #训练集与测试集> > train_data<-data[1:16000,]> test_data<-data[16001:20000,原创 2022-05-01 19:46:53 · 796 阅读 · 0 评论 -
数据挖掘:R语言k均值聚类
文章目录k均值聚类(青少年)k均值聚类(青少年)> #==---K均值聚类-----------------------> > data<-read.csv('snsdata.csv')> > #查看某一特征的缺失值数量> table(data$gender,useNA = 'ifany') #或者可以用sum(is.na(data$gender)) F M <NA> 22054 5222 2724 >原创 2022-05-01 19:49:32 · 1218 阅读 · 0 评论 -
数据挖掘:R语言KNN算法
文章目录KNN算法KNN算法> #--------knn常用于:计算机视觉:面部识别,光学字符识别 一个人是否喜欢会喜欢推荐的电影或音乐> > #适用于分类任务,其中特征值和目标类之间的关系是众多的、复杂的,但是具有相似类的项目有非常接近> #加载class包:knn()算法 加载gmodels包:Crosstable()交叉表> > library(class)> # install.packages("gmodels")> libra原创 2022-05-01 19:50:21 · 1124 阅读 · 0 评论 -
数据挖掘:R语言决策树Tree_Kyphosis和Tree_Mileage
文章目录Tree_KyphosisTree_MileageTree_Kyphosis> # Classification Tree with rpart> library(rpart)> > # grow tree > fit <- rpart(Kyphosis ~ Age + Number + Start,+ method="class", data=kyphosis)> printcp(fit) # display th原创 2022-05-01 19:53:16 · 1223 阅读 · 0 评论 -
数据挖掘:决策树、信息熵和信息增益
文章目录decision tree inductionGeneral structure of Hunt's algorithmDesign issues of decision tree inductionMethods for expressing test conditionsTest condition for nominal attributesSplitting based on continuous attributesHow to determine the best splitAltern原创 2022-04-30 23:52:35 · 733 阅读 · 0 评论 -
数据挖掘:聚类算法CURE、SNN和ROCK
文章目录Hierarchical clustering: revisitedCURE: another hierarchical approachCURE cannot handle differing densitiesGraph-Based ClusteringGraph-Based clustering: sparsificationLimitation of current merging schemesChameleon: clustering using dynamic modelingChar原创 2022-04-29 23:16:52 · 1335 阅读 · 0 评论 -
数据挖掘:最全聚类分析 k-means+DBSCAN
文章目录聚类算法Applications of cluster analysisWhat is not cluster analysis?Notion of a cluster can be ambiguousTypes of clusteringsOther distinctions between sets of clustersTypes of clustersClustering algorithmsK-means clusteringK-means Clustering – DetailsEval原创 2022-04-29 20:10:30 · 756 阅读 · 0 评论 -
机器学习:9.3 NAS algorithms
文章目录Neural Architecture Search (NAS)NAS with Reinforcement LearningThe One-shot ApproachDifferentiable Architecture SearchScaling CNNsResearch directionsSummaryNeural Architecture Search (NAS)A neural network has different types of hyperparameters:T原创 2022-04-10 09:45:58 · 1067 阅读 · 0 评论 -
机器学习:9.2 HPO algorithms
Search SpaceSpecify range for each hyperparameterHyper-ParameterRangeDistributionmodel(backbone)[mobilenetv,resnet,vgg]categoricallearning rate*[1e-6,1e-1]log-uniformbatch size*[8,16,32,64,128,256,512]categoricalmonmentum**[0原创 2022-04-10 09:44:39 · 326 阅读 · 0 评论 -
机器学习:9. 模型调参 Model Tuning
文章目录Manual Hyperparameter TuningAutomated Machine Learning (AutoML)SummaryManual Hyperparameter TuningStart with a good baseline, e.g. default settings in high-quality toolkits, values reported in papersTune a value, retrain the model to see the cha原创 2022-04-10 09:43:16 · 579 阅读 · 0 评论