机器学习
文章平均质量分 83
文言AI
言:我的工作,我的生活,我的感悟。点滴记录!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
什么是L1和L2正则化,以及它们有什么区别
在防止过拟合的方法中有L1正则化和L2正则化,L1和L2是正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。原创 2023-03-07 19:40:32 · 1511 阅读 · 0 评论 -
因子分解机(Factorization Machines)
因子分解机(Factorization Machines)在推荐系统中,CTR(click-through rate)预估是非常重要的环节,其主要是用于判断一个商品是否被用于推荐。谈到CTR预估,有一个算法不得不提一下,LR(logistic regression)逻辑回归。在推荐系统发展的历史长河中,LR绝对有浓墨重彩的一笔。比如在2020年和微博做算法的同学交流,对方称他们依旧在推荐中使用LR,当然这离不开其非常容易实现大规模实时并行处理的优势。我们知道LR模型其实是一种线性的学习模型,所以它并原创 2021-11-08 19:17:48 · 1792 阅读 · 0 评论 -
DeepFM介绍
DeepFM在前面一篇文章中提到,目前遇到特征组合的问题,主流做法主要会分成两类:FM系列、DNN系列。关于DNN相关内容,是深度学习基础知识,本处不展开介绍,直接使用。本文主要介绍FM+DNN的结合体:DeepFM相关内容。文章依旧主要从三方面展开对FM算法介绍When – 什么时候需要考虑DeepFM算法What – 究竟什么是DeepFM算法How – DeepFM怎么使用1. When什么时候需要考虑DeepFM基于CTR预估的推荐系统,究其根本,其实是学习到用户原创 2021-11-10 19:10:47 · 3298 阅读 · 0 评论 -
集成学习 -- Bagging和随机森林(二)
1 Bagging集成原理目标:把下面的圈和方块进行分类实现过程:采样不同数据集2)训练分类器3)平权投票,获取最终结果4)主要实现过程小结2 随机森林构造过程在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树例如, 如果你训练了5个树, 其中有...原创 2020-04-20 18:12:34 · 533 阅读 · 1 评论 -
集成学习 -- 概述(一)
1 什么是集成学习集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。2 复习:机器学习的两个核心任务任务一:如何优化训练数据 —> 主要用于解决欠拟合问题任务二:如何提升泛化性能 —> 主要用于解决过拟合问题集成学习的目的就是用于解决上面提出的两个问题。...原创 2020-04-20 18:04:11 · 520 阅读 · 0 评论 -
初识-朗格朗日乘子法
朗格朗日乘子法拉格朗日乘子法 (Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法.通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d + k 个变量的无约束优化问题求解。本文希望通过一个直观简单的例子尽力解释拉格朗日乘子法和KKT条件的原理。以包含一个变量一个约束的简单优化问题为例。如图所示,我们的目标函数是f(x)=...原创 2020-04-09 23:05:49 · 657 阅读 · 0 评论 -
独立同分布基本概念介绍
独立同分布IID(independent and identically distributed)1.独立同分布(i.i.d.)在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。在西瓜书中解释是:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。2.简单解释 — 独立、同分布、独立同分布(...原创 2020-04-09 23:03:05 · 16240 阅读 · 1 评论 -
分类中解决数据类别不平衡问题的方案
分类中解决类别不平衡问题在现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例);奢侈品消费人群鉴定等。1 类别不平衡数据集基本介绍在该博客中,我们一起看一下,当遇到数据类别不平衡的时候,我们该如何处理。在Python中,有Imblearn包,它就是为处理数据比例失衡而生的。安装Imblearn包pip3 install imba...原创 2020-04-08 20:24:10 · 2729 阅读 · 0 评论 -
一文深刻理解决策树(系列三)
前面已经讲到,关于数据类型,我们主要可以把其分为两类,连续型数据和离散型数据。在面对不同数据时,决策树也可以分为两大类型:分类决策树和回归决策树。前者主要用于处理离散型数据,后者主要用于处理连续型数据。1.原理概述不管是回归决策树还是分类决策树,都会存在两个核心问题:如何选择划分点?如何决定叶节点的输出值?一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类...原创 2019-12-08 08:43:30 · 574 阅读 · 0 评论 -
一文深刻理解决策树(系列二)
上一篇博文中介绍的是决策树简介,熵和信息增益的概念.这一节中我们一起看一下信息增益率和基尼指数究竟是怎么回事.1 决策树的划分依据二----信息增益率1.1 概念在上面的介绍中,我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为 0.9182,远大于其他候选划分属性。计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其...原创 2019-12-08 08:35:22 · 1039 阅读 · 0 评论 -
一文深刻理解决策树(系列一)
1 初始决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。怎么理解这句话?通过一个对话例子想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!...原创 2019-12-08 08:21:48 · 613 阅读 · 0 评论
分享