【tf系列4】Bi-LSTM中文分词

最新推荐文章于 2025-04-20 22:14:35 发布

macb007

最新推荐文章于 2025-04-20 22:14:35 发布

阅读量2.3k

点赞数

分类专栏： learning 文章标签：自然语言处理深度学习

learning 专栏收录该内容

32 篇文章

订阅专栏

FoolNLTK是一个基于BiLSTM模型的中文自然语言处理工具包，提供高精度的分词、词性标注及实体识别等功能，并支持用户自定义词典。采用神经网络学习特征，降低人工特征工程工作量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

该项目GitHub：https://github.com/rockyzhengwu/FoolNLTK

根据该项目所述，这个中文工具包的特点有如下几点：

可能不是最快的开源中文分词，但很可能是最准的开源中文分词
基于 BiLSTM 模型训练而成
包含分词，词性标注，实体识别, 都有比较高的准确率
用户自定义词典

如该项目所述，作者使用了双向 LSTM 来构建整个模型，这也许是作者对分词性能非常有信心的原因。在中文分词上，基于神经网络的方法，往往使用「字向量 + 双向 LSTM + CRF」模型，利用神经网络来学习特征，将传统 CRF 中的人工特征工程量将到最低。

安装

pip install foolnltk

1、分词

import fool
text = "一个傻子在北京"print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

2、加载用户自定义词典

词典格式格式如下，词的权重越高，词的长度越长就越越可能出现, 权重值请大于 1

难受香菇 10什么鬼 10分词工具 10北京 10北京天安门 10

加载词典

import fool

fool.load_userdict(path)

text='测试'.cut()

删除词典

fool.delete_userdict()

3. 词性标注

import fool
text = "一个傻子在北京"print(fool.pos_cut(text))

4、实体识别

import fool

text='一个傻子在北京'

words,ners=fool.analysis(text)

print(ners)

#[](5,8,'loaction'，'北京')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

macb007

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

自然语言处理之命名实体识别：Bi-LSTM技术教程

zhubeibei168的博客

04-17

950

自然语言处理（NLP）是理解和处理自然语言的关键技术，命名实体识别（NER）是NLP中的一个重要任务。通过使用标记和数据集，我们可以训练模型来识别文本中的实体。Bi-LSTM模型是一种有效的NER模型，它能够同时考虑序列的前后文信息。通过计算F1分数，我们可以评估NER模型的性能。在命名实体识别任务中，面对实体边界模糊、实体类型多样、实体稀疏性以及长尾实体问题，我们可以通过数据不平衡处理策略、防止过拟合与欠拟合的方法，以及模型调参技巧来提升模型性能。

自然语言处理之命名实体识别：Bi-LSTM-CRF：中文分词与词性标注

zhubeibei168的博客

04-17

1175

词性标注（Part-of-Speech Tagging，POS Tagging）是自然语言处理中的一个基础任务，它为文本中的每个词附上一个表示其语法功能的词性标签。词性标签通常包括名词、动词、形容词、副词、介词、连词、代词、数词、量词、方位词、时态词、语气词、助词、叹词、拟声词等。双向LSTM（Bi-LSTM）结合了两个LSTM层，一个正向LSTM和一个反向LSTM。正向LSTM从左到右处理序列，而反向LSTM从右到左处理序列。通过这种方式，Bi-LSTM能够同时利用序列的前后文信息，从而提高模型的性能。

1 条评论您还未登录，请先登录后发表或查看评论

CRF，LSTM，最大后向匹配法实现中文分词

06-18

3种中文分词方法：最大后向匹配法，CRF，LSTM。其中LSTM又用了三种方法输入，glove向量，Word2vec向量，还有将字映射成整数再通过embedding层映射成字向量作为输入。还包含中文分词的评分脚本。

论文：State-of-the-art Chinese Word Segmentation with Bi-LSTMs

choose_c的博客

01-18

1571

论文题目：State-of-the-art Chinese Word Segmentation with Bi-LSTMs 作者：Ji Ma Kuzman Ganchev David Weiss 机构：Google AI Language 论文发表：EMNLP2018 Github：模型：文章主要是针对中文分词任务，模型十分简单，使用的双向的LSTM...

bilstm+crf中文分词_初学者 | 分词的那些事儿

weixin_39580564的博客

11-26

408

作者 yuquanle来自 AI小白入门本文谈一谈分词的那些事儿，从定义、难点到基本方法总结，文章最后推荐一些不错的实战利器。定义先来看看维基百科上分词的定义：Word segmentation is the problem of dividing a string of written language into its component words.中文分词(Chinese Wor...

LSTM中文分词

sinat_41715275的博客

09-05

1742

预处理及训练过程：代码： # -*- coding:utf-8 -*- from tensorflow.python.keras.models import Model, load_model from tensorflow.python.keras.layers import Input, Dense, Dropout, LSTM, Embedding, TimeDistribu...

利用LSTM自动生成中文文本

qq_20373723的博客

11-19

2374

最近一直对自动生成中文文本特别着迷，这里我记录一下我的探索的过程。风过留痕，雁过拔毛。如果觉得好，给个赞吧参考链接： https://www.analyticsvidhya.com/blog/2018/03/text-generation-using-python-nlp/ https://github.com/pranjal52/text_generators 关于LSTM的理论我就不废话了，我自己也是查着资料了解的下面是我用的代码，我把训练和愚蠢的分开了，这里给你们贴一下。数据：story.tx

自然语言处理之命名实体识别：Bi-LSTM-CRF详解

最新发布

zhubeibei168的博客

04-20

732

CRF是一个无向图模型，其中节点表示随机变量，边表示变量之间的依赖关系。在序列标注任务中，每个节点代表一个输入序列中的元素，而边则表示元素之间的标签依赖。

python分词训练_CRF算法学习——自己动手实现Bi-LSTM+CRF分词（python）

weixin_42400643的博客

12-30

1449

意图识别 <= Bi-LSTM+CRF <= 先懂CRF <= 先懂HMM <= 先懂EM终于到这一步了，这一次要用python写了，使用tensorflow去写。关于tensorflow的使用不是我的重点。相关代码还是在我的GitHub上。题外话，idea可以安装一个python插件，然后设置一下python编译器，这样就可以在项目里既能运行java又能运行python了...

自然语言处理之命名实体识别：Bi-LSTM-CRF模型架构与原理

zhubeibei168的博客

04-17

862

条件随机场(Conditional Random Field, CRF)是一种用于建模序列数据的统计模型，尤其适用于序列标注和序列分类问题。在命名实体识别(NER)任务中，CRF能够捕捉序列中标签之间的依赖关系，从而提高模型的预测准确性。CRF是一种概率模型，它定义了给定输入序列Xx1x2xnXx1x2...xn时，输出序列Yy1y2ynYy1y2...yn的条件概率分布。

Python-使用keras实现的基于BiLSTMCRF的中文分词词性标注

08-10

使用keras实现的基于Bi-LSTM CRF的中文分词 词性标注

使用keras搭建BiLSTM对人民日报语料进行分词

Liu Ruilun的博客

03-24

2366

代码移步我的GITHUB——PeoplesDailyNER 其中的README已经详细说明，若有疑问请留言。

小袁讲长短期记忆网络（LSTM）

maisuiqianxun的博客

12-03

1568

一，什么是长短期 LSTM全名“ Long Short-term Memory”，中文名翻译为长短期记忆网络。小袁我刚接触这个网络的时候，一度以为长短期记忆网络既可以建模序列问题中的长期时间依赖，又可以有效地捕捉到序列数据的短期时间依赖，因而被命名为长短期记忆网络。事实上这样理解对也不对，对在LSTM确实既有捕捉序列数据的长的时间依赖，又有捕捉短的时间依赖的特性上。不对在LSTM的特性并不像我们...

基于LSTM的中文文本多分类实战（详细注释）

李姆斯的博客

01-30

7023

使用深度学习中的LSTM（Long Short-Term Memory）长短期记忆网络，来尝试一下中文文本多分类,LSTM它是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。数据集 ChineseNlpCorpus的online_shopping_10_cats 10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热...

如何实现BiLSTM实现中文分词？与jieba、LSTM进行对比如何？【文档型详解】

热门推荐

w0714的博客

07-02

3万+

1 本文算法 1.1 算法概述或框架图本次实验主要可以分为三大部分：标注序列、模型训练用于预测标签以及维特比求解最优路径。下面将依次对这三大部分进行概述。 1.1.1 标注序列这一部分主要就是给句子中的每个字进行标注，具体字标注的方为法有好几种，其中最常见的为4标注和6标注。本次实验采用MSR语料库进行，MSR数据集是人民日报标注语料库是在得到人民日报社新闻信息中心许可的条件下，以1998年和2014人民日报语料为对象，由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。我们首

tf 利用双向LSTM实现分词

斯大分的博客

02-28

1420

数据预处理：# -*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt import re from tqdm import tqdm # 以字符串的形式读入所有数据 with open('raw_data/msr_train.txt', 'rb') as inp: ...

使用RNN/LSTM/GRU实现中文分词

ion_ura的博客

07-10

565

给出了一个简单的中文分词程序

LSTM实现中文文本情感分析

KQe397773106的博客

03-28

1142

文本情感分析是在文本分析领域的典型任务，实用价值很高。本模型是第一个上手实现的深度学习模型，目的是对深度学习做一个初步的了解，并入门深度学习在文本分析领域的应用。在进行模型的上手实现之前，已学习了吴恩达的机器学习和深度学习的课程，对理论有了一定的了解，感觉需要来动手实现一下了。github对应网址https://github.com/ble55ing/LSTM-Sentiment_analysisLSTM（Long Short-Term Memory）是长短期记忆网络，在自然语言处理的领域有着较好的效果。

BitMap算法和Java的实现类BigSet

sunlen的专栏(编程技术探讨)

03-25

1554

考虑下面几个应用场景：统计每天的日活（访问量、用户数等）统计某个部门的联系客户量对大量数据进行排序针对第一种应用场景，通常的做法就是采用明细表来记录每一个访问量，然后统计每天的用户数（用一个用户，多次访问，只算一个）。这里有个问题，就是假设用户量比较大，假设一天有1000万的请求量，一个月就有3亿的数据量，对数据库的压力比较大。这是我们就可以考虑采用BigM...

Bi-LSTM实现短文本分类

12-29

### 使用双向 LSTM (Bi-LSTM) 实现短文本分类对于短文本分类任务，双向长短期记忆网络（Bidirectional Long Short-Term Memory Networks, Bi-LSTM）是一种有效的方法。这种架构可以同时利用序列中的前后上下文信息...