中文实体识别(采用BERT)

该博客探讨了如何运用BERT模型进行中文实体识别。首先,进行了数据预处理,包括构建标签字典并保存为pkl文件。接着,处理输入序列,确保不超过BERT的最大长度,并进行字符到ID的转换及填充操作。然后,输入到BERT模型中,通过全连接层进行预测,再结合CRF进行序列标注。博客主要关注自然语言处理中的深度学习技术及其在中文实体识别任务上的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

中文实体识别(采用BERT)

数据预处理

构建标签字典在这里插入图片描述

保存为pkl文件方便读取。
在这里插入图片描述

读取数据

  1. 字对应标签list序列
  2. 序列截断操作,不超过最大长度,否则就截断。在这里插入图片描述
  3. 处理为BERT对应的字符在这里插入图片描述
  4. 将字符转为id索引在这里插入图片描述
  5. 长度不够,需要填充0(在bert中,填充的0不会计算self-attention,需要用到mask)在这里插入图片描述

输入到BERT模型中

  1. (见BERT学习笔记)得到输出结果为[batch_size,leng,dim]在这里插入图片描述
  2. 对输出向量进行标签预测
    W维度[dim,标签类别]、b偏差值[11]
    经过全连接层非线性函数输出每一个字对应的预测类别结果向量[batch*len,11]
    在这里插入图片描述
    在这里插入图片描述

将结果输入到CRF中在这里插入图片描述

  1. 构建转移矩阵[num_class,num_class]在这里插入图片描述
  2. 计算似然函数在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值