网文校对系统 - 知识库

原创于 2025-03-19 05:30:50 发布 · 490 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AI #应用开发 #AI编程

AI应用开发教程专栏收录该内容

10 篇文章

订阅专栏

如标题所示，我们要开发的第二个AI应用是“网文校对系统”。

如果开发“拍照查卡路里APP”的过程是风平浪静的话，那么开发这个“网文校对系统”则可谓一波三折。

对我而言这是一个奇妙的旅程，我不但收获了新知更学会了如何跟AI沟通和协作，

可能有些夸张，但我现在确实迫不及待地想把整个过程与大家分享。

话不多说，下面正式开始。

看网络小说是CloudMan的一大业余爱好。

我特别佩服网络小说作者丰富的想象力和生产力。

网络小说的篇幅一般都是以百万字为单位，而且基本都是日更4，5千。这么大的体量和这么高的更新频率也带来些问题：文章中时不时会出现错误。

我指的不是那种错别字或表达不通顺之类的错误，而是内容一致性方面的逻辑错误。比如：

某个人物在前面已经死了，但几十章后又突然出现。
某丹药的功效是辅助突破，但后面主角则拿它来疗伤。
两个角色第一次出场是兄妹，再出场的却变成了同门。

这类错误往往是由于网文篇幅巨大，人物、物品、情节太多，时间跨度太大，作者难免出现记忆不清，张冠李戴，前后不一致的情况。再加上网文日更要求高，作者没有足够时间校对，确实很难避免。新章节发出来被细心读者指出bug，作者再修改的情况时有发生。在ClouMan看来，网文校对还真是个刚需。

我做了点市场调研，目前还没找到专门针对内容一致性检查的工具。而这个功能正好又是大模型擅长的，所以就把它当作咱们的案例吧。

从哪儿开始呢？

我首先想到的是“知识库”。

很多大模型平台都提供了知识库功能。大家可以把知识库理解为一个存放特定领域数据、信息和知识的地方。支持把文本、表格、图片、视频等内容放到知识库中，大模型回答问题的时候可以从知识库中查找相关信息，给出更准确和更有针对性的答案。

知识库的一个典型应用场景是智能客服。公司可以把常见的问答和话术放进知识库。用户提问时，大模型会在知识库中查找相关问题并回答。

对于网文校对，我们可以把已经发布的章节放进知识库。校对时，让大模型将新章节内容与知识库进行比对，这样就能发现前后不一致的地方了。

思路有了，接下来验证可行性。

用知识库校对网文

这里以coze为例，尝试用知识库校对网文。

知识库

效果不太理想，原因如下：

大模型有上下文窗口限制，无法包含整个知识库的内容。
对于新章节，很难确定知识库中哪些内容是这次校对真正需要的。即使能确定，也可能因超出上下文窗口限制而无法全部提取。
在网文校对中，我们与大模型只有一次交互。也就是说大模型只有一次机会从知识库中提取相关数据。提取什么完全取决于大模型对提示词和新章节内容的理解。这个与问答系统不一样。在问答系统中，大模型可以根据用户的反馈和后续问题不断地从知识库中提取内容，最终给出全面和准确的答案。

所以，我们需要一种更灵活的方式来实现网文校对。这将是下一节的任务。

公众号Cloudman6

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。