【tf系列4】Bi-LSTM中文分词

FoolNLTK是一个基于BiLSTM模型的中文自然语言处理工具包,提供高精度的分词、词性标注及实体识别等功能,并支持用户自定义词典。采用神经网络学习特征,降低人工特征工程工作量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该项目GitHub:https://github.com/rockyzhengwu/FoolNLTK

根据该项目所述,这个中文工具包的特点有如下几点:

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于 BiLSTM 模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典

如该项目所述,作者使用了双向 LSTM 来构建整个模型,这也许是作者对分词性能非常有信心的原因。在中文分词上,基于神经网络的方法,往往使用「字向量 + 双向 LSTM + CRF」模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低。

安装

  1. pip install foolnltk

1、分词
  1. import fool


  2. text = "一个傻子在北京"print(fool.cut(text))

  3. # ['一个', '傻子', '在', '北京']


2、加载用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于 1

  1. 难受香菇 10什么鬼 10分词工具 10北京 10北京天安门 10


加载词典

import fool

fool.load_userdict(path)

text='测试'.cut()

删除词典

fool.delete_userdict()


3. 词性标注

  1. import fool

  2. text = "一个傻子在北京"print(fool.pos_cut(text))

4、实体识别

import fool

text='一个傻子在北京'

words,ners=fool.analysis(text)

print(ners)

#[](5,8,'loaction','北京')


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值