自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 链表

我们希望在结点 a 和相邻的结点 b 之间插入结点 x,假设当前指针 p 指向结点 a。如果我们将代码实现变成下面这个样子,就会发生指针丢失和内存泄露p->next=x;//将 p 的next指针指向 x 结点;x->next=p->next;//将 x 的结点的next指针指向 b 结点;p->next+指针在完成第一步操作...

2019-11-13 23:03:27 339

原创 pysparnn与siame network模型

pysparnn与siame network模型pysparnnpysparnn使用的是一种cluster pruning(簇修剪)的技术,即,开始的时候对数据进行聚类,后续再有限个类别中进行数据的搜索,根据计算的余弦相似度返回结果。数据预处理过程如下: 随机选择​个样本作为leader 选择非leader的数据(follower),使用余弦相似度计算找到最近的lead...

2019-09-28 15:01:11 865

原创 TF-idf与BM25

TF-idf与BM25TF-idfTF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tfidf=tf*idf-----tf(term frequence,词频)---idf(inverse document frequence,逆向文件频率)tf...

2019-09-28 14:32:41 1037 1

原创 Seq2seq模型以及Beam Search

seq2seq模型及Beam searchSeq2Seq是一个Encoder-Deocder结构的模型,输入是一个序列,输出也是一个序列。Encoder将一个可变长度的输入序列变为固定长度的向量,Decoder将这个固定长度的向量解码成可变长度的输出序列。目标是最大化该目标函数:seq2seq模型种类 one to one 结构,仅仅只是简单的给一个输入得...

2019-09-26 18:17:40 1370

原创 语言模型

NLP语言模型NLP语言模型包括概率语言模型和神经网络语言模型统计语言模型:N-gram神经网络语言模型:word2vec,fasText,GloveN-gram基于概率的判别模型,输入为一句话输出为这句话的概率,即单词的联合概率特点:某个词的出现依赖于其他若干个词,获得的信息越多预测越准确。n-gram本身是指一个由n个单词组成的集合,各单词之间有先后顺序且不要求单词...

2019-09-26 15:18:13 440

原创 LSTM和GRU联系以及区别

LSTM和GRU为什么会出现Lstm基于Rnn的缺点:当输入序列较长时Rnn很难把较早的信息传递到后面,出现这个问题的原因是在反向传播期间,RNN的梯度可能会消失。我们都知道,网络权重更新依赖梯度计算,RNN的梯度会随着时间的推移逐渐减小,当序列足够长时,梯度值会变得非常小,这时权重无法更新,网络自然会停止学习。lstm和gru都是为了解决短期记忆问题而创建的,其中包含“控制门”,可调...

2019-09-24 17:20:28 3152

原创 GBDT与XGBoost学习体会

GBDTGBDT = 梯度下降 + Boosting + 决策树提升树与梯度提升树区别:提升树采用残差,而GBDT去拟合负当前模型损失函数的负梯度(当损失函数为均方误差的时候,就相当于残差,一般的损失函数优化复杂使用负梯度来近似残差)经典的AdaBoost算法只能处理采用指数损失函数的二分类学习任务而梯度提升方法通过设置不同的可微损失函数可以处理各类学习任务(多分类、回归、R...

2019-09-23 20:44:42 465

原创 聚类算法学习心得

聚类算法k-meansk-means++层次聚类k-means思想:以距离作为数据对象之间相似度衡量的标准。流程: 随机初始化K个簇中心 计算数据对象到簇中心的距离,将数据划分至最近的簇中 重新计算数据的质心,更新簇中心 迭代前3个步骤 迭代停止条件:(误差采用误差平方和)设置迭代次数T,或者当误差小于阈值时停止迭代缺点:...

2019-09-16 01:07:58 1848

原创 集成学习心得体会

集成学习:集成学习(Ensemble Learning)通过构建并结合多个基学习器来完成学习任务bagging和boosting的区别:Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差)Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差)bagging:分类问题采用投票的方式,回归问题采用平均值的方式。bagging的缺点:其性能...

2019-09-12 16:40:02 1029

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除