文章摘要智能提取【基于BERT技术】

最新推荐文章于 2025-03-30 22:53:09 发布

阳阳2013哈哈

最新推荐文章于 2025-03-30 22:53:09 发布

阅读量1.6k

点赞数

分类专栏：计算机科学 Python 学习教程文章标签：人工智能深度学习小发猫神经网络自然语言处理

本文链接：https://blog.csdn.net/mynote/article/details/125992036

版权

本文探讨了BERT技术下的摘要提取方法，包括生成式摘要与抽取式摘要的区别。重点介绍了如何通过训练四个语言模型任务，以及在完形填空中预测缺失词，来提升摘要质量。此外，还涉及到了消息摘要算法的分类和电子合同数字签名的原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BERT时代下的摘要提取长文总结，根据生成方式可以分为生成式摘要和抽取式摘要。

这里应该是一个batch里先用1/3的数据训练双向语言模型更新参数，然后再用1/3的数据进行序列到序列语言模型更新参数，再用1/6的数据从左到右的单向语料模型更新参数，最后用1/6的数据从右向左的单向语言模型更新参数。这里与multi-task些许不同，mutli-task是综合所有的loss，然后更新参数，而MASS是通过某个任务计算loss，更新参数后，再用另一个任务计算loss，更新参数。此处是挺新的一个想法，算是mutil-task的另一种变形吧。

基于四个LM任务目标预训练四个完形填空任务。在完形填空任务中，我们随机选择一些WordPiece token作为输入，并用特殊token [MASK]来替换它们。然后我们通过Transformer network来预测masked的token.

摘要算法的特点是什么？

“消息摘要”（Message Digest）是一种能产生特殊输出格式的算法，这种加密算法的特点是无论用户输入什么长度的原始数据，经过计算后输出的密文都是固定长度的，这种算法的原理是根据一定的运算规则对原数据进行某种形式的提取，这种提取就是“摘要”，被“摘要”的数据内容与原数据有密切联系，只要原数据稍有改变，输出的“摘要”便完全不同，因此基于这种原理的算法便能对数据完整性提供较为健全的保障。但是，由于输出的密文是提取原数据经过处理的定长值，所以它已经不能还原为原数据，即消息摘要算法是“不可逆”的，理论上无法通过反向运算取得原数据内容，因此它通常只能被用来做数据完整性验证，而不能作为原数据内容的加密方案使用，否则谁也无法还原。

摘要算法的分类

1、CRC8、CRC16、CRC32。

CRC（Cyclic Redundancy Check，循环冗余校验）算法出现时间较长，应用也十分广泛，尤其是通讯领域，现在应用最多的就是 CRC32 算法，它产生一个4字节（32位）的校验值，一般是以8位十六进制数，如FA 12 CD 45等。CRC算法的优点在于简便、速度快，严格的来说，CRC更应该被称为数据校验算法，但其功能与数据摘要算法类似，因此也作为测试的可选算法。

在 WinRAR、WinZIP 等软件中，也是以 CRC32 作为文件校验算法的。一般常见的简单文件校验（Simple File Verify – SFV）也是以 CRC32算法为基础，它通过生成一个后缀名为 .SFV 的文本文件，这样可以任何时候可以将文件内容 CRC32运算的结果与 .SFV 文件中的值对比来确定此文件的完整性。

与 SFV 相关工具软件有很多，如MagicSFV、MooSFV等。

2、MD2 、MD4、MD5

这是应用非常广泛的一个算法家族，尤其是 MD5（Message-Digest Algorithm 5，消息摘要算法版本5），它由MD2、MD3、MD4发展而来，由Ron Rivest（RSA公司）在1992年提出，被广泛应用于数据完整性校验、数据（消息）摘要、数据加密等。MD2、MD4、MD5 都产生16字节（128位）的校验值，一般用32位十六进制数表示。MD2的算法较慢但相对安全，MD4速度很快，但安全性下降，MD5比MD4更安全、速度更快。

在互联网上进行大文件传输时，都要得用MD5算法产生一个与文件匹配的、存储MD5值的文本文件（后缀名为 .md5或.md5sum），这样接收者在接收到文件后，就可以利用与 SFV 类似的方法来检查文件完整性，绝大多数大型软件公司或开源组织都是以这种方式来校验数据完整性，而且部分操作系统也使用此算法来对用户密码进行加密，另外，它也是目前计算机犯罪中数据取证的最常用算法。

与MD5 相关的工具有很多，如 WinMD5等。

3、SHA1、SHA256、SHA384、SHA512。

SHA（Secure Hash Algorithm）是由美国专门制定密码算法的标准机构—— 美国国家标准技术研究院（NIST）制定的，SHA系列算法的摘要长度分别为：SHA为20字节（160位）、SHA256为32字节（256位）、 SHA384为48字节（384位）、SHA512为64字节（512位），由于它产生的数据摘要的长度更长，因此更难以发生碰撞，因此也更为安全，它是未来数据摘要算法的发展方向。由于SHA系列算法的数据摘要长度较长，因此其运算速度与MD5相比，也相对较慢。

SHA1的应用较为广泛，主要应用于CA和数字证书中，另外在互联网中流行的BT软件中，也是使用SHA1来进行文件校验的。

4、RIPEMD、PANAMA、TIGER、ADLER32 等。

RIPEMD是Hans Dobbertin等3人在对MD4，MD5缺陷分析基础上，于1996年提出来的，有4个标准128、160、256和320，其对应输出长度分别为16字节、20字节、32字节和40字节。

TIGER由Ross在1995年提出。Tiger号称是最快的Hash算法，专门为64位机器做了优化。