自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 因果推断(一):因果推断两大框架及因果效应

本文主要介绍了因果关系的三个层级、因果推断解决的两个主要问题及两大理论框架、因果效应指标及其计算方法。

2023-09-08 18:46:07 2364 1

原创 文本的向量化表示总结

几种文本特征向量化方法1.词集模型:one-hot编码向量化文本(统计各词在文本中是否出现)2.词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。)3.词袋模型+IDF:TFIDF向量化文本(词袋模型+IDF值,考虑了词的重要性)4.N-gram模型:考虑了词的顺序5.word2vec模型:使用文章中所有词的平均词向量作为文章的...

2019-03-10 23:02:11 8083

原创 《Word2Vec中的数学》- 神经概率语言模型中的数学运算笔记

神经概率语言模型(或称NNML 神经网络语言模型)中的数学原理神经概率语言模型是word2vec中算法框架的前身,通过我看到的资料,神经概率语言模型和有的资料中的NNML (神经网络语言模型)应该是指的一个东西。看了《Word2Vec中的数学》中3.3节-神经概率语言模型,本人将其中的运算公式写了下来。本文将注重神经概率语言模型网络结构中各层级的运算,包括运算原理、公式以及各矩阵的维度,个人认...

2019-03-07 22:51:25 454

原创 机器学习中样本不平衡的常用处理方法

不平衡数据处理采样是为了解决数据不均衡的问题,数据不均衡问题即各类别的样本分布不均衡问题。如果不处理数据不均衡问题,会导致拟合出来的模型对训练集中样本数比较少的类别泛化能力较差。例如,对于二分类问题,训练集中A类别样本占比90%,B类别样本占比10%,测试集中A、B类别样本各占比50%,若不处理数据不均衡问题,训练出来的模型在测试集里对类别B的预测准确率会比较低,甚至低于50%(低于50%还不...

2018-12-23 15:25:41 1060

原创 Bagging和随机森林(Random Forest)

集成学习两个流派:bagging派系,各个弱学习器之间没有依赖关系,可以并行拟合。boosting派系,各个弱学习器之间有依赖关系。1.Bagging的策略Bagging:从样本集中重采样(有重复的,有放回采样)选出n个样本,n为原始样本集的样本个数; 在所有特征上,对这个n个样本建立基本分类器(分类器如ID3、C4.5、CART、SVM、Logistic回归等。在这里,均称...

2018-12-23 15:11:09 1131

原创 决策树总结 ID3 C4.5 CART

总结到有道云笔记里了,请点击链接本篇文章综合了李航《统计学习方法》、刘建平老师的博客、邹博的讲义总结了ID3、C4.5、CART的基本核心思想 从ID3到C4.5再到CART的来龙去脉 各个算法的优缺点 三种算法的对比 等 ...

2018-12-23 12:28:33 280

原创 为什么某个问题可以用机器学习方法来解决?

不知道大家有没有想过,基于历史数据去预测未知数据的问题,为什么我们就知道这种问题可以用机器学习来解决?偶尔看到了《统计学习方法概论》里的一个小节,小节的内容我认为可以解答这个问题。总而言之就是,这是一种假设,即假设他可以用机器学习方法来解决,同时假设学习模型是存在的。该小节内容见下图。统计学习与机器学习之间的关系 :统计学习是关于计算机基于数据构建概率统计模型,并运用模型对数据进行...

2018-10-09 14:55:17 550

原创 IJCAI-18 阿里妈妈搜索广告转化预测

赛题地址:  IJCAI-18 阿里妈妈搜索广告转化预测决赛直播地址:决赛视频 

2018-07-10 21:23:27 578

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除