
NLP
文本分析与文本挖掘
不停下脚步的乌龟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【BERT】学习笔记之BERT理论部分
1. 初识BERTBERT是Google开发的自然语言处理开源框架,是自然语言处通用的解决方案(所谓通用,就是可以基于BERT框架,做些微调,便可应用于多种NLP问题)。2. word2vec的局限性(为什么引入BERT)基于word2vec训练好的词向量不会再改变,也就是说,若某个单词位于不同上下文语境中,该单词的此向量表达都是一样的,其缺陷一是没有考虑到单词在不同语境中的含义可能不同,其缺陷二是计算机不能识别文本中重要、有价值的部分。3. Transformer理解BERT的核心在于原创 2020-06-11 18:10:24 · 334 阅读 · 0 评论 -
【Blog】BERT实现文本分类:A Visual Guide to Using BERT for the First Time
A Visual Guide to Using BERT for the First Time By Jay Alammar原创 2020-06-08 11:10:07 · 219 阅读 · 0 评论 -
【代码模版】基于gensim的word2vec基本实现框架
# 加载自定义词典,去停用词分词函数不再赘述# 最终文本处理结果data是符合gensim格式要求的list of list格式from gensim.models.word2vec import Word2Vec# 初始化word2vec模型w2c = Word2Vec(size=300, min_count=n)# Word2Vec实例化的参数:# size=100,每个词向量...原创 2020-03-11 15:19:13 · 456 阅读 · 0 评论 -
【代码模版】TF-IDF实现词重要性计算
# TF-IDF via jiebaimport jiebaimport jieba.analyse as anaana.extract_tags(txt, withWeight=True) # withWeight参数指定是否显示tf-idf值# TF-IDF via sklearn# not for reading, but for modeling in the future...原创 2020-03-11 12:57:22 · 462 阅读 · 0 评论 -
【代码模版】加载自定义词典、去停用词分词、词性标注、词频统计
# 加载自定义词典(直到退出程序前自定义词典都有效)import jiebajieba.load_userdict('dict_path(txt)')# 去停用词分词方法一:使用jieba.analyse加载停用词表并分词# 该方法同时完成去停用词、分词、计算tf-idf值并按重要性大小输出结果(默认输出tf-idf排名前20的词)from jieba import analyse a...原创 2020-03-11 10:20:04 · 1103 阅读 · 0 评论