如标题所示,我们要开发的第二个AI应用是“网文校对系统”。
如果开发“拍照查卡路里APP”的过程是风平浪静的话,那么开发这个“网文校对系统”则可谓一波三折。
对我而言这是一个奇妙的旅程,我不但收获了新知更学会了如何跟AI沟通和协作,
可能有些夸张,但我现在确实迫不及待地想把整个过程与大家分享。
话不多说,下面正式开始。
看网络小说是CloudMan的一大业余爱好。
我特别佩服网络小说作者丰富的想象力和生产力。
网络小说的篇幅一般都是以百万字为单位,而且基本都是日更4,5千。这么大的体量和这么高的更新频率也带来些问题:文章中时不时会出现错误。
我指的不是那种错别字或表达不通顺之类的错误,而是内容一致性方面的逻辑错误。比如:
-
某个人物在前面已经死了,但几十章后又突然出现。
-
某丹药的功效是辅助突破,但后面主角则拿它来疗伤。
-
两个角色第一次出场是兄妹,再出场的却变成了同门。
这类错误往往是由于网文篇幅巨大,人物、物品、情节太多,时间跨度太大,作者难免出现记忆不清,张冠李戴,前后不一致的情况。再加上网文日更要求高,作者没有足够时间校对,确实很难避免。新章节发出来被细心读者指出bug,作者再修改的情况时有发生。在ClouMan看来,网文校对还真是个刚需。
我做了点市场调研,目前还没找到专门针对内容一致性检查的工具。而这个功能正好又是大模型擅长的,所以就把它当作咱们的案例吧。
从哪儿开始呢?
我首先想到的是“知识库”。
很多大模型平台都提供了知识库功能。大家可以把知识库理解为一个存放特定领域数据、信息和知识的地方。支持把文本、表格、图片、视频等内容放到知识库中,大模型回答问题的时候可以从知识库中查找相关信息,给出更准确和更有针对性的答案。
知识库的一个典型应用场景是智能客服。公司可以把常见的问答和话术放进知识库。用户提问时,大模型会在知识库中查找相关问题并回答。
对于网文校对,我们可以把已经发布的章节放进知识库。校对时,让大模型将新章节内容与知识库进行比对,这样就能发现前后不一致的地方了。
思路有了,接下来验证可行性。
用知识库校对网文
这里以coze为例,尝试用知识库校对网文。
知识库
效果不太理想,原因如下:
-
大模型有上下文窗口限制,无法包含整个知识库的内容。
-
对于新章节,很难确定知识库中哪些内容是这次校对真正需要的。即使能确定,也可能因超出上下文窗口限制而无法全部提取。
-
在网文校对中,我们与大模型只有一次交互。也就是说大模型只有一次机会从知识库中提取相关数据。提取什么完全取决于大模型对提示词和新章节内容的理解。这个与问答系统不一样。在问答系统中,大模型可以根据用户的反馈和后续问题不断地从知识库中提取内容,最终给出全面和准确的答案。
所以,我们需要一种更灵活的方式来实现网文校对。这将是下一节的任务。
公众号Cloudman6