自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 NLP系列——简介

自然语言处理(Natural language Processing, NLP)是对人的语言文字,也就是文本进行处理,让计算机明白的的一个技术。最近参加一个比赛,做了一些NLP的东西,打算写一些文章,目的主要是记录、梳理对NLP的知识和概念,水平有限,内容难免错漏,敬请各位大佬指正,不胜感激。

2020-05-09 17:22:59 335

原创 NLP系列——特征提取2

前面一篇 NLP系列——文本预处理1 写了文本的预处理,对语料进行了分词,将一篇文章,按我们选择的最小单位 短语、词语或者字符等 进行划分。划分后的语料,还是以文字的形式存在,接下去,首先是要建立词典将文本变成index表示(计算机处理的都是数字),然后以某种方式提取一个向量来表示文章,这就是特征向量。1. 构建词典NLP建立的模型,都有一个对应的词典(vocab),可以说模型只能处理词典里包含的词,如果文章中出现不在词典里的词,那么对于不存在的词很多时候是采用过滤或者随机生成表示的方法,所以对于一个模

2020-05-11 22:30:05 705

原创 NLP系列——文本预处理1

对一篇文章,一般的做法是先进行分词,后续是对词语进行语义特征提取与建模,不过也有人是用句子或者单字粒度,个人实验的结果是字符级比分词好,句子级没有试过。分词后是去除停用词以及标点符号,停用词表到github上搜索一下有挺多,里面是像咳、哇、哈这些没啥用的词,把他们去掉对文本语义没什么影响,却可以降低文本处理的复杂度,词的个数越少,表示一个词或者句子的向量维度就可以更低。1. 分词分词一般使用jieba库来分词,这里也推荐另一个 synonyms包。他是在jieba的基础上做的,在一些方面更方便,做一下

2020-05-09 17:31:23 490

原创 tensorboard --logdir log无法打开可视化的一个解决方法——换掉默认端口6006

首先,看到很多博客说的都是都是打开cmd,cd到log文件的上一层目录。我第一次的时候试了也可以,第二次开始不行了。给一个例子,在cmd里输入cd E:tensorboard --logdir log可以看到,以6006端口启动了。然后我们到浏览器看一下,网址是:http://localhost:6006/很熟悉的界面有没有!然后就一直找解决的方法。这个问题困扰了我很久,绝对...

2020-03-14 02:23:21 3128

原创 python字符串、列表切片等常用操作

def main(): str1 = "my name is huang!" # 字符窜长度 a = str1.__len__() print('a =', a) # 改变大小写,返回字符窜 b = str1.capitalize() # 首字母大写 print('b =',b) c = str1.upper() # 全部大写...

2019-07-13 00:10:52 307

原创 蓝桥杯_历届试题 发现环C/C++版

问题描述  小明的实验室有N台电脑,编号1~N。原本这N台电脑之间有N-1条数据链接相连,恰好构成一个树形网络。在树形网络上,任意两台电脑之间有唯一的路径相连。不过在最近一次维护网络时,管理员误操作使得某两台电脑之间增加了一条数据链接,于是网络中出现了环路。环路上的电脑由于两两之间不再是只有一条路径,使得这些电脑上的数据传输出现了BUG。为了恢复正常传输。小明需要找到所有在环路上的电脑,你能...

2019-03-03 16:38:00 272

原创 蓝桥杯 算法训练 装箱问题(C++)

问题描述  有一个箱子容量为V(正整数,0<=V<=20000),同时有n个物品(0<n<=30),每个物品有一个体积(正整数)。  要求n个物品中,任取若干个装入箱内,使箱子的剩余空间为最小。输入格式  第一行为一个整数,表示箱子容量;  第二行为一个整数,表示有n个物品;  接下来n行,每行一个整数表示这n个物品的各自体积。输出格式  一个整数,表示箱子剩余空间。  样例输入...

2019-02-08 14:04:08 493

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除