- 博客(7)
- 收藏
- 关注

原创 NLP系列——简介
自然语言处理(Natural language Processing, NLP)是对人的语言文字,也就是文本进行处理,让计算机明白的的一个技术。最近参加一个比赛,做了一些NLP的东西,打算写一些文章,目的主要是记录、梳理对NLP的知识和概念,水平有限,内容难免错漏,敬请各位大佬指正,不胜感激。
2020-05-09 17:22:59
335
原创 NLP系列——特征提取2
前面一篇 NLP系列——文本预处理1 写了文本的预处理,对语料进行了分词,将一篇文章,按我们选择的最小单位 短语、词语或者字符等 进行划分。划分后的语料,还是以文字的形式存在,接下去,首先是要建立词典将文本变成index表示(计算机处理的都是数字),然后以某种方式提取一个向量来表示文章,这就是特征向量。1. 构建词典NLP建立的模型,都有一个对应的词典(vocab),可以说模型只能处理词典里包含的词,如果文章中出现不在词典里的词,那么对于不存在的词很多时候是采用过滤或者随机生成表示的方法,所以对于一个模
2020-05-11 22:30:05
705
原创 NLP系列——文本预处理1
对一篇文章,一般的做法是先进行分词,后续是对词语进行语义特征提取与建模,不过也有人是用句子或者单字粒度,个人实验的结果是字符级比分词好,句子级没有试过。分词后是去除停用词以及标点符号,停用词表到github上搜索一下有挺多,里面是像咳、哇、哈这些没啥用的词,把他们去掉对文本语义没什么影响,却可以降低文本处理的复杂度,词的个数越少,表示一个词或者句子的向量维度就可以更低。1. 分词分词一般使用jieba库来分词,这里也推荐另一个 synonyms包。他是在jieba的基础上做的,在一些方面更方便,做一下
2020-05-09 17:31:23
490
原创 tensorboard --logdir log无法打开可视化的一个解决方法——换掉默认端口6006
首先,看到很多博客说的都是都是打开cmd,cd到log文件的上一层目录。我第一次的时候试了也可以,第二次开始不行了。给一个例子,在cmd里输入cd E:tensorboard --logdir log可以看到,以6006端口启动了。然后我们到浏览器看一下,网址是:http://localhost:6006/很熟悉的界面有没有!然后就一直找解决的方法。这个问题困扰了我很久,绝对...
2020-03-14 02:23:21
3128
原创 python字符串、列表切片等常用操作
def main(): str1 = "my name is huang!" # 字符窜长度 a = str1.__len__() print('a =', a) # 改变大小写,返回字符窜 b = str1.capitalize() # 首字母大写 print('b =',b) c = str1.upper() # 全部大写...
2019-07-13 00:10:52
307
原创 蓝桥杯_历届试题 发现环C/C++版
问题描述 小明的实验室有N台电脑,编号1~N。原本这N台电脑之间有N-1条数据链接相连,恰好构成一个树形网络。在树形网络上,任意两台电脑之间有唯一的路径相连。不过在最近一次维护网络时,管理员误操作使得某两台电脑之间增加了一条数据链接,于是网络中出现了环路。环路上的电脑由于两两之间不再是只有一条路径,使得这些电脑上的数据传输出现了BUG。为了恢复正常传输。小明需要找到所有在环路上的电脑,你能...
2019-03-03 16:38:00
272
原创 蓝桥杯 算法训练 装箱问题(C++)
问题描述 有一个箱子容量为V(正整数,0<=V<=20000),同时有n个物品(0<n<=30),每个物品有一个体积(正整数)。 要求n个物品中,任取若干个装入箱内,使箱子的剩余空间为最小。输入格式 第一行为一个整数,表示箱子容量; 第二行为一个整数,表示有n个物品; 接下来n行,每行一个整数表示这n个物品的各自体积。输出格式 一个整数,表示箱子剩余空间。 样例输入...
2019-02-08 14:04:08
493
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人