System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理的,尤其是涉及一种用于长篇小说的分析标注方法、系统及存储介质。
技术介绍
1、当前网络小说是较为流行的文学形式,网络小说会有大量的读者用户进行阅读,而网络小说存在字数多、篇幅多、角色多、世界观庞大等特点,当前有很多读者或第三方会为对网络长篇小说进行详细分析和标注,以进行小说中的角色标注、关系梳理、世界观架构等任务。
2、在当前技术中,kimichat是一个相对先进的长文本处理算法,它理论能够支持百万字的超长文本的一次性输入,并结合类似rag(检索增强式生成)的技术在文本处理过程中从已存储的知识库中检索相关信息,以对输入的小说文本进行处理和分析,最终将结果输出,输出的结果通常包括章节概要、人物关系和重要事件的标注。
3、但实际情况中,kimichat存在一定的问题,其文本处理上限为百万字,但是大部分网络小说因更新时间较长、更新频率较短而使得字数往往超过了一百万字,故kimichat无法处理更大规模的小说文本;同时,由于rag技术的特性,kimichat处理跨章节或全文范围的人物关系时,常常会导致角色信息、关系信息等内容的丢失或不一致,影响了整体分析的准确性;最后,虽kimichat的处理上限为百万字,但其实际使用中在短文本分析中表现较好,而在较长篇幅的文本处理过程中反应速度和生成效率明显下降,影响了用户的体验。
技术实现思路
1、为了提高对较长本文篇幅的小说的重要信息分析标注效果,本申请提供一种用于长篇小说的分析标注方法、系统及存储介质。
2、第一方面,本申请提供一种用于长篇小说的分析标注方法,采用如下的技术方案:
3、一种用于长篇小说的分析标注方法,包括以下步骤:
4、获取输入的小说文本,对所述小说文本进行拆分以获取分卷或分章,所述分章表征为单个章节,所述分卷表征为预设数量的章节之和;
5、对各所述章节进行标注以获取章节标记,对各所述章节进行推理以获取章节纲要,对所述小说文本中的角色进行选择标注;
6、基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行标注,以获取标注信息,所述标注信息包括角色标注信息、关系标注信息和世界观标注信息;
7、基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行分析,以获取分析信息,所述分析信息包括势力分析信息和全文大纲分析信息;
8、将各所述分卷或各所述分章对应的所述标注信息和所述分析信息进行合并以得到合并集,对所述合并集进行多源内容处理以生成针对于所述小说文本的综合分析标注内容,所述综合分析标注内容包括完整角色信息卡片、关系图谱、势力总结和全文大纲。
9、在其中的一些实施例中,对所述小说文本进行分卷或分章,包括以下步骤:
10、判断所述小说文本的字数和章节数;
11、若所述字数大于第一预设值,则将所述小说文本拆分为包含第一数量的所述章节的若干分卷;
12、若所述字数不大于第一预设值且所述章节数不大于第二预设值,则将所述小说文本拆分为若干分章;
13、若所述字数不大于第一预设值且所述章节数大于第二预设值,则将所述小说文本拆分为包含第二数量的所述章节的若干分卷;
14、其中,所述第一数量大于所述第二数量。
15、在其中的一些实施例中,对各所述章节进行标注以获取章节标记,对各所述章节进行推理以获取章节纲要,对所述小说文本中的角色进行选择标注,包括以下步骤:
16、根据提示词工程获取各所述章节中的重要段落,并基于前后逻辑检测将若干所述重要段落进行整合以获取章节纲要;
17、提取各所述章节中的人物信息以生成出场人物列表,基于角色出场频率在所述出场人物列表中筛选并排除弱关联角色,在剩余的所述出场人物列表中基于角色出现章节数和章节别致区别主要角色和特殊角色,以获得相应的主要角色列表和特殊角色列表。
18、在其中的一些实施例中,基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行标注,以获取标注信息,包括以下步骤:
19、获取各所述章节纲要以及所述出场人物列表;
20、在所述出场人物列表中选择单个角色,基于所述提示词工程在各所述章节纲要中对所述单个角色所对应的有关剧情进行标注以得到所述角色标注信息;
21、在所述出场人物列表中任意选择角色对,并基于所述提示词工程在所述角色对同时出现的所述章节对应的所述章节纲要中对关联剧情进行标注以得到所述关系标注信息;
22、按序选择预设数量的所述分章或在所述分卷中按序选择预设数量的章节并定义为参考组,基于所述提示词工程对所述参考组中对应的各所述章节纲要中的文化内容、背景内容、时空设定、特殊设定进行标注以得到所述世界观标注信息。
23、在其中的一些实施例中,基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行分析,以获取分析信息,包括以下步骤:
24、获取各所述章节纲要以及所述出场人物列表;
25、基于提示词工程在所述章节纲要中分析出场势力,并针对每个所述出场势力分别生成势力范围,在所述出场人物列表中按序选定所述角色,基于所述提示词工程在各所述章节纲要中分析该所述角色对应的所述势力范围并进行添加;
26、基于所述提示词工程对各所述章节纲要进行分析,以对各所述章节中出场人物对应的情节进行筛选以消除无关剧情,对所述各所述章节纲要中的发展逻辑和逻辑关系进行串联以得到所述全文大纲分析信息。
27、在其中的一些实施例中,将各所述分卷或各所述分章对应的所述标注信息和所述分析信息进行合并以得到合并集,包括以下步骤:
28、获取各所述分卷或各所述分章对应的所述角色标注信息,并将同一所述角色对应的若干所述角色标注信息进行合并以得到角色合并集;
29、获取各所述分卷或各所述分章对应的所述关系标注信息,并将同一所述角色对之间的若干所述关系标注信息进行合并以得到关系合并集;
30、获取各所述分卷或各所述分章对应的所述势力分析信息,并将同一势力的若干所述势力分析信息进行合并以得到势力合并集;
31、获取各所述分卷或各所述分章对应的所述全文大纲分析信息并进行合并以得到全文大纲合并集。
32、在其中的一些实施例中,对所述合并集进行多源内容处理以生成针对于所述小说文本的综合分析标注内容,包括以下步骤:
33、将所述角色合并集中重复出现的所述角色标注信息进行删除并将各所述角色按预设排序规则进行排序以得到所述角色信息卡片;
34、将所述关系合并集中相同的所述角色对重复出现的所述关系标注信息进行删除,删除后在所述相同的所述角色对存在超过一个所述关系标注信息时根据各所述关系标注信息出现的章节位置进行排序以得到全文的所述关系图谱;
35、将所述势力分析集中各所述势力范围中重复出现的所述角色进行删除,本文档来自技高网...
【技术保护点】
1.一种用于长篇小说的分析标注方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,对所述小说文本进行分卷或分章,包括以下步骤:
3.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,对各所述章节进行标注以获取章节标记,对各所述章节进行推理以获取章节纲要,对所述小说文本中的角色进行选择标注,包括以下步骤:
4.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行标注,以获取标注信息,包括以下步骤:
5.根据权利要求4所述的用于长篇小说的分析标注方法,其特征在于,基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行分析,以获取分析信息,包括以下步骤:
6.根据权利要求5所述的用于长篇小说的分析标注方法,其特征在于,将各所述分卷或各所述分章对应的所述标注信息和所述分析信息进行合并以得到合并集,包括以下步骤:
7.根据权利要求6所述的用于长篇小说的分析标注方法,其特征在于,对
8.根据权利要求5所述的用于长篇小说的分析标注方法,其特征在于,还包括以下步骤:
9.一种用于长篇小说的分析标注系统,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1-8中任意一项权利要求所述的方法的计算机程序。
...【技术特征摘要】
1.一种用于长篇小说的分析标注方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,对所述小说文本进行分卷或分章,包括以下步骤:
3.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,对各所述章节进行标注以获取章节标记,对各所述章节进行推理以获取章节纲要,对所述小说文本中的角色进行选择标注,包括以下步骤:
4.根据权利要求1所述的用于长篇小说的分析标注方法,其特征在于,基于各所述章节纲要异步并行地对各所述分卷或各所述分章的特征内容进行标注,以获取标注信息,包括以下步骤:
5.根据权利要求4所述的用于长篇小说的分析标注方法,其特征在于,基于各所述章节纲要异步并行地对各所述分卷或各所述分...
【专利技术属性】
技术研发人员:周王春澍,姜昱辰,王天楠,
申请(专利权)人:杭州波形智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。