网文校对系统 - 知识库

如标题所示,我们要开发的第二个AI应用是“网文校对系统”。

如果开发“拍照查卡路里APP”的过程是风平浪静的话,那么开发这个“网文校对系统”则可谓一波三折。

对我而言这是一个奇妙的旅程,我不但收获了新知更学会了如何跟AI沟通和协作,

可能有些夸张,但我现在确实迫不及待地想把整个过程与大家分享。

话不多说,下面正式开始。

看网络小说是CloudMan的一大业余爱好。

我特别佩服网络小说作者丰富的想象力和生产力。

网络小说的篇幅一般都是以百万字为单位,而且基本都是日更4,5千。这么大的体量和这么高的更新频率也带来些问题:文章中时不时会出现错误。

我指的不是那种错别字或表达不通顺之类的错误,而是内容一致性方面的逻辑错误。比如:

  1. 某个人物在前面已经死了,但几十章后又突然出现。

  2. 某丹药的功效是辅助突破,但后面主角则拿它来疗伤。

  3. 两个角色第一次出场是兄妹,再出场的却变成了同门。

这类错误往往是由于网文篇幅巨大,人物、物品、情节太多,时间跨度太大,作者难免出现记忆不清,张冠李戴,前后不一致的情况。再加上网文日更要求高,作者没有足够时间校对,确实很难避免。新章节发出来被细心读者指出bug,作者再修改的情况时有发生。在ClouMan看来,网文校对还真是个刚需。

我做了点市场调研,目前还没找到专门针对内容一致性检查的工具。而这个功能正好又是大模型擅长的,所以就把它当作咱们的案例吧。

从哪儿开始呢?

我首先想到的是“知识库”。

很多大模型平台都提供了知识库功能。大家可以把知识库理解为一个存放特定领域数据、信息和知识的地方。支持把文本、表格、图片、视频等内容放到知识库中,大模型回答问题的时候可以从知识库中查找相关信息,给出更准确和更有针对性的答案。

知识库的一个典型应用场景是智能客服。公司可以把常见的问答和话术放进知识库。用户提问时,大模型会在知识库中查找相关问题并回答。

对于网文校对,我们可以把已经发布的章节放进知识库。校对时,让大模型将新章节内容与知识库进行比对,这样就能发现前后不一致的地方了。

思路有了,接下来验证可行性。

用知识库校对网文

这里以coze为例,尝试用知识库校对网文。

知识库

效果不太理想,原因如下:

  1. 大模型有上下文窗口限制,无法包含整个知识库的内容。

  2. 对于新章节,很难确定知识库中哪些内容是这次校对真正需要的。即使能确定,也可能因超出上下文窗口限制而无法全部提取。

  3. 在网文校对中,我们与大模型只有一次交互。也就是说大模型只有一次机会从知识库中提取相关数据。提取什么完全取决于大模型对提示词和新章节内容的理解。这个与问答系统不一样。在问答系统中,大模型可以根据用户的反馈和后续问题不断地从知识库中提取内容,最终给出全面和准确的答案。

所以,我们需要一种更灵活的方式来实现网文校对。这将是下一节的任务。

公众号Cloudman6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值