
文本挖掘/NLP
IT之一小佬
敲响键盘之乐,跳起程序之舞,抵达智慧之巅!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
将LSTM与word2vec结合实现中文自动写作
将LSTM与word2vec结合实现中文自动写作# 载入所需的工具包import jiebafrom gensim.models.word2vec import Word2Vecimport pandas as pdimport numpy as npfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Dropoutfrom keras.layers原创 2021-05-02 23:45:45 · 1373 阅读 · 9 评论 -
用LSTM实现英文写作
用LSTM实现英文写作# 载入工具包import numpy as npimport pandas as pdfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Dropoutfrom keras.layers import LSTMfrom keras.callbacks import ModelCheckpointfrom keras.utils原创 2021-05-02 23:32:47 · 434 阅读 · 0 评论 -
自动写作、RNN基本原理以及LSTM的基本原理
自动写作原创 2021-05-02 23:20:33 · 468 阅读 · 0 评论 -
文档自动摘要及案例实现
文档自动摘要及案例实现自动摘要的python实现:以小说射雕英雄传中的第一段为例:import pandas as pdraw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK") # 章节判断用变量预处理def m_head(tmpstr): return tmpstr[:1] def m_mid(tmpstr): re原创 2021-04-27 17:23:27 · 616 阅读 · 0 评论 -
情感分析的描述、基于词袋模型和word2vec模型的情感分析实现
情感分析的描述、基于词袋模型和word2vec模型的情感分析实现以购物评论为例:# 读入原始数据集import pandas as pddfpos = pd.read_excel('../data/购物评论.xlsx', sheet_name='正向', header=None)dfpos['y'] = 1dfposdfneg = pd.read_excel('../data/购物评论.xlsx', sheet_name='负向', heade原创 2021-04-27 15:33:47 · 1437 阅读 · 1 评论 -
文本分类的具体实现-sklearn实现和NLTK实现
文本分类的具体实现-sklearn实现和NLTK实现以金庸-射雕英雄传为例进行分析:import pandas as pdraw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding='GBK')# 章节判断用变量预处理def m_head(tmpstr): return tmpstr[:1]def m_mid(tmpstr): return tmpstr.find('回 '原创 2021-04-26 14:39:48 · 775 阅读 · 0 评论 -
文本分类的基本思想和朴素贝叶斯算法原理
文本分类的基本思想和朴素贝叶斯算法原理原创 2021-04-26 13:59:11 · 427 阅读 · 0 评论 -
文档相似度之doc2vec、文档聚类
文档相似度之doc2vec、文档聚类示例代码:import jiebaimport pandas as pdfrom gensim import corpora, modelsfrom gensim.models.ldamodel import LdaModelfrom gensim import similaritiesfrom gensim.models import doc2vec, Doc2Vecraw = pd.read_table('./金庸-射雕英雄传txt精校原创 2021-04-13 21:30:49 · 845 阅读 · 0 评论 -
文档相似度之词条相似度word2vec、及基于词袋模型计算sklearn实现和gensim
文档相似度之词条相似度word2vec、及基于词袋模型计算sklearn实现和gensim示例代码:import jiebaimport pandas as pdfrom gensim.models.word2vec import Word2Vecfrom gensim import corpora, modelsfrom gensim.models.ldamodel import LdaModelraw = pd.read_table('.原创 2021-04-13 17:57:13 · 1651 阅读 · 1 评论 -
抽取文档主题之gensim实现
抽取文档主题之gensim实现示例代码:import jiebaimport pandas as pdfrom gensim import corpora, modelsfrom gensim.models.ldamodel import LdaModelraw = pd.read_table('./金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK")# 章节判断用变量预处理def m_head(tmpstr):原创 2021-04-13 15:29:57 · 560 阅读 · 0 评论 -
抽取文档主题之sklearn实现
抽取文档主题之sklearn实现示例代码:import pandas as pdraw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK")# 章节判断用变量预处理def m_head(tmpstr): return tmpstr[:1] def m_mid(tmpstr): return tmpstr.find("回 ") ra原创 2021-04-13 14:25:42 · 460 阅读 · 0 评论 -
关键字提取-TF-IDF算法和TextRank算法
关键字提取-TF-IDF算法和TextRank算法import pandas as pdraw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK")# 章节判断用变量预处理def m_head(tmpstr): return tmpstr[:1] def m_mid(tmpstr): return tmpstr.find("回 ") ra原创 2021-03-31 20:27:34 · 458 阅读 · 0 评论 -
文档信息的向量化-NNLM模型和word2vec
文档信息的向量化-NNLM模型和word2vec原创 2021-03-31 11:46:48 · 464 阅读 · 0 评论 -
文档信息的向量化-sklearns库、N-gram模型、分布式表示和共现矩阵
文档信息的向量化-sklearns库、N-gram模型、分布式表示和共现矩阵from sklearn.feature_extraction.text import CountVectorizercountvec = CountVectorizer()analyze = countvec.build_analyzer()analyze('郭靖 和 哀牢山 三十六 剑 。')x = countvec.fit_transform(['郭靖 和 哀牢山 三十六 剑 。', '原创 2021-03-31 11:04:27 · 634 阅读 · 0 评论 -
文档信息的向量化-词袋模型、gensim实现和词条分布
文档信息的向量化原创 2021-03-30 23:33:58 · 465 阅读 · 1 评论 -
词云的美化
词云的美化scipy库中的imread被弃用也就是不能用了,这时需要改成这样`from imageio import imread`’射雕背景1.png‘from imageio import imreadimport matplotlib.pyplot as pltimport pandas as pdmyfont = myfont = r'C:\Windows\Fonts\simhei.ttf'text = chapter.txt[1] # 在上方处理后拿到的数据p原创 2021-03-28 14:56:02 · 343 阅读 · 0 评论 -
词云的使用
wordcloud包安装还是有点困难的!!!不支持中文!!!import wordcloudmyfont = r'C:\Windows\Fonts\simhei.ttf'text = 'this is shagnhai, 郭靖, 和, 哀牢山 三十六剑'cloudobj = wordcloud.WordCloud(font_path=myfont).generate(text)cloudobjimport matplotlib.pyplot as...原创 2021-03-28 14:07:21 · 633 阅读 · 0 评论 -
词频统计和词云概述
词频统计和词云概述import jieba# 分词word_list = jieba.lcut(chapter.txt[1])word_list[:10]import pandas as pddf = pd.DataFrame(word_list, columns=['word'])df.head(20)result = df.groupby(['word']).size()print(type(result))freqlist = result.sor原创 2021-03-27 17:32:59 · 711 阅读 · 0 评论 -
jieba分词的使用
jieba分词的使用import jiebatmpstr = '祝福我们伟大的祖国繁荣昌盛!'ret = jieba.cut(tmpstr) # 精确模式ret # 是一个迭代的generator,可以用for循环来遍历结果,类似于list...原创 2021-03-27 16:50:36 · 380 阅读 · 0 评论 -
NLTK包和语料库的准备
NLTK包和语料库的准备import pandas as pdraw = pd.read_table('../data/金庸-射雕英雄传txt精校版.txt', names=['txt'], encoding="GBK")print(len(raw))raw# 章节判断用变量预处理def m_head(tmpstr): return tmpstr[:1]def m_mid(tmpstr): return tmps.原创 2021-03-26 14:49:22 · 637 阅读 · 1 评论 -
一、文本 挖掘概述
一、文本 挖掘概述原创 2021-03-26 00:03:06 · 245 阅读 · 0 评论