
NLP
Aiclin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TextCNN非类模型的简版核心代码
TextCNN非类模型的简版核心代码,仅作为个人记录和查阅!原创 2021-01-02 19:39:24 · 91 阅读 · 0 评论 -
NLTK + 英文文本清洗
NLTK + 英文文本清洗下面展示了一种简易清洗英文文本的代码,可自定义修改或补充import refrom nltk.corpus import stopwordsfrom nltk import word_tokenize,pos_tagfrom nltk.stem import WordNetLemmatizerdef tokenize(sentence): ''' ...原创 2020-04-13 10:29:26 · 3923 阅读 · 1 评论 -
[NLP学习笔记-Task9] Attention原理 + HAN原理
RNN、CNN中获取全局信息的缺陷AttentionAttention定义Google 的一般化 Attention 思路也是一个编码序列的方案,因此我们也可以认为它跟 RNN、CNN 一样,都是一个序列编码的层。Google 给出的方案是很具体的。首先,它先把 Attention 的定义给了出来:Multi-Head Attention这个是 Google 提出的新概念,是 ...转载 2019-05-28 18:35:48 · 573 阅读 · 0 评论 -
[NLP学习笔记-Task7] CNN + Text-CNN
卷积神经网络(Convolutional Neural Network,CNN)CNN相比于全连接前馈神经网络的优势参数更少:如果输入图像大小为100 × 100 × 3(即图像高度为100,宽度为100,3个颜色通道:RGB)。在全连接前馈网络中,第一个隐藏层的每个神经元到输入层都有100 × 100 × 3 = 30, 000个相互独立的连接,每个连接都对应一个权重参数。随着隐藏层神经元...转载 2019-05-23 18:50:34 · 1159 阅读 · 0 评论 -
[NLP学习笔记-Task10] Transformer + BERT
Encoder-Decoder框架Encoder-Decoder是为seq2seq(序列到序列)量身打造的一个深度学习框架,在机器翻译、机器问答等领域有着广泛的应用。这是一个抽象的框架,由两个组件:Encoder(编码器)和 Decoder(解码器)组成。对于给定的输入 source(x1,x2,...,xn)source(x_1,x_2,...,x_n)source(x1,x2,...,x...转载 2019-05-30 16:21:58 · 602 阅读 · 0 评论 -
[NLP学习笔记-Task6] 深度学习正则化 + 深度学习优化策略 + fastText
过拟合过拟合:模型过度拟合数据,使得在面对新的数据时预测效果不好,即模型的泛化能力不强过拟合原因:1. 样本数量太少 2. 数据中噪声过大解决过拟合:1. 增加数据(不容易做到)2. 正则化技术为什么需要深层网络对于比较复杂的任务,深层网络(DNN)的优势:DNN具有更多神经元,因此具有更多参数,这使得它可以拟合更加复杂的各种函数现实世界的数据大多都是以分层的结构构造的,比如人脸识...转载 2019-05-22 20:07:02 · 915 阅读 · 0 评论 -
[NLP学习笔记-Task4] 词袋模型 + 词向量 + word2vec
词袋模型(Bag of Words)词袋模型特点:离散、高维、稀疏在信息检索中,词袋模型假定对于一个文本,忽略其词序和语法、句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。简单来说,词袋模型假设不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重...转载 2019-05-17 15:38:28 · 1733 阅读 · 1 评论 -
[NLP学习笔记-Task2] 文本特征提取
jieba分词分词cut 方法,具有3个参数:需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。使用全模式会将所有字的组合都切分出来,而精确模式则试图将句子最精确地切开,适合文本分析。import jieba#cut_all=True,开启全模式sen = jieba.cut('今天二囧正在努力学习', cut_all=Tru...转载 2019-05-13 13:40:57 · 668 阅读 · 0 评论 -
[NLP学习笔记-Task8] RNN + Text-RNN + RCNN
循环神经网络系列什么是RNNsRNNs能做什么?训练RNNsRNN扩展双向RNN长短期记忆(LSTM)门控循环单元(GRU)Text-RNNRCNN参考链接什么是RNNs RNN背后的想法是利用顺序信息。 在传统的神经网络中,我们假设所有输入(和输出)彼此独立。 但对于许多非常糟糕的任务而言。 如果你想预测句子中的下一个单词,你最好知道它前面有哪些单词。 RNN被称为循环,因为它们对序列的每...翻译 2019-05-26 12:58:58 · 587 阅读 · 0 评论 -
[NLP学习笔记-Preparation]
NLP学习笔记-预备任务博客说明环境搭建安装Anaconda安装TensorFlowTensorFlow基础Tensor + Flow计算图构建图:构建阶段启动图:执行阶段如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的...转载 2019-05-11 13:55:38 · 320 阅读 · 0 评论 -
[NLP学习笔记-Task3] TF-IDF + 互信息
TF-IDFTF-IDF是一种统计方法,用来评估一个字词在一个资料库中的重要程度(关键词提取),常用于资讯检索与文本挖掘中。其中,TF是表示词频(Term Frequency),IDF表示逆文档频率(Inverse Document Frequency)。分别计算TF和IDF的值,然后将二者相乘即得到TF-IDF的值。TF词频词频即一个词在文本中出现的次数,一个词在文本中大量出现,...转载 2019-05-15 20:48:15 · 805 阅读 · 0 评论 -
[NLP学习笔记-Task5] 朴素贝叶斯 + SVM + LDA
朴素贝叶斯常用的统计学公式条件概率:设A,B 是两个事件,且A不是不可能事件,因此条件概率为在事件A发生的条件下,事件B发生的条件概率乘法公式:设 A1,A2,…,An 为任意 n 个事件(n≥2)且 ,P(A1A2⋯An)>0P(A_1A_2{\cdots}A_n)>0P(A1A2⋯An)>0 则有以下乘法公式全概率公式:设事件组 Bi...转载 2019-05-20 19:22:32 · 362 阅读 · 0 评论