System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息处理,特别是涉及一种知识库信息处理的方法及装置、存储介质、计算机设备。
技术介绍
1、在当前的信息时代,学术研究已经成为推动科技进步和创新的重要驱动力。期刊论文作为学术研究成果的主要载体,其数量和质量逐年增长,涵盖了各个领域的最新发现和理论。随着信息量的爆炸性增长,可以通过文献检索的方式来使得期刊论文数据服务于学术研究。
2、传统的文献检索方法,如基于关键词的搜索,往往受限于用户提供的查询条件,可能无法全面捕获相关知识。而且,基于关键词的检索方法通常仅进行精确匹配,往往忽视了论文之间的语义关联和上下文关系。由于学术论文通常包含丰富的概念和论点,单纯依赖关键词往往无法捕捉到这些深层次的关联,因此,返回的检索结果可能只与查询关键词表面相关,而缺乏实质的关联性,导致用户需要浏览大量可能无关或不完全相关的文献,大大降低了检索效率。如何从大量的期刊论文数据中快速、准确地获取相关信息,成为了一个亟待解决的问题。
技术实现思路
1、有鉴于此,本专利技术提供一种知识库信息处理的方法及装置、存储介质、计算机设备,主要目的在于解决现有的文献检索方法效率低,检索结果相关性差和准确性低的问题。
2、依据本专利技术一个方面,提供了一种知识库信息处理的方法,包括:
3、收集期刊论文数据,对所述期刊论文数据进行标准化处理,得到标准文本数据;并基于所述标准文本数据构建期刊论文知识库;
4、对所述期刊论文知识库中的所述标准文本数据进行向量表示处理,并
5、接收用户的查询文本,基于预设的混合检索策略对所述查询文本进行改写操作,得到目标查询文本;
6、基于预训练的检索增强生成模型和所述混合索引从所述期刊论文知识库中确定与所述目标查询文本相对应的目标期刊论文数据,并基于所述预训练的检索增强生成模型和所述目标期刊论文数据生成答复文本。
7、进一步地,所述对所述期刊论文数据进行标准化处理,包括:
8、对所述期刊论文进行文本标准化处理,包括统一字符编码、格式化文本和标准化符号;
9、对所述期刊论文进行元数据标准化处理,包括统一字段处理和统一格式处理。
10、进一步地,所述对期刊论文知识库中的所述标准文本数据进行向量表示处理,并基于得到的知识向量构建与所述标准文本数据相对应的混合索引,包括:
11、采用预训练的稠密向量模型提取所述标准文本数据中的语义信息,得到对应的稠密向量表示;
12、采用预训练的稀疏向量模型提取所述标准文本数据中的关键词分析及词频统计的信息表达,得到对应的稀疏向量表示;
13、将所述稠密向量表示和所述稀疏向量表示相结合,得到所述知识向量;并在所述知识向量与所述标准文本数据之间构建混合索引。
14、进一步地,所述基于预设的混合检索策略对所述查询文本进行改写操作,得到目标查询文本,包括:
15、对所述查询文本进行查询分析处理,得到与所述查询文本相对应的关键词和查询意图;
16、从同义词扩展处理、查询补全处理、查询增强处理和上下文感知处理中选择至少一种改写方式,基于所述关键词和所述查询意图对所述查询文本进行改写操作,得到所述目标查询文本。
17、进一步地,所述检索增强生成模型包括检索模块和生成模块;预训练所述检索增强生成模型的过程包括:
18、从所述期刊论文知识库中提取部分所述标准文本数据作为训练数据集;并采用所述训练数据集对所述检索模块进行训练处理,得到训练好的检索模块;
19、基于所述检索模块的检索结果对所述生成模块进行训练处理,得到训练好的生成模块。
20、进一步地,所述基于预训练的检索增强生成模型和所述混合索引从所述期刊论文知识库中确定与所述目标查询文本相对应的目标期刊论文数据,并基于所述预训练的检索增强生成模型和所述目标期刊论文数据生成答复文本,包括:
21、将所述目标查询文本转化为查询向量,并基于所述训练好的检索模块从所述期刊论文知识库中确定相似度最高的目标知识向量;
22、基于所述目标知识向量从所述混合索引中检索出与所述目标查询文本最相关的所述目标期刊论文数据;
23、基于所述训练好的生成模块和所述目标期刊论文数据生成与所述目标查询文本相对应的答复文本。
24、进一步地,所述方法还包括:
25、收集用户反馈信息,并对所述用户反馈信息进行分类处理,得到用户反馈问题类型;
26、基于所述用户反馈问题类型对所述预训练的检索增强生成模型进行模型优化处理,包括数据增强处理、算法调整处理、模型微调处理、特征调整处理中的至少一种。
27、依据本专利技术另一个方面,提供了一种知识库信息处理的装置,包括:
28、知识库构建模块,用于收集期刊论文数据,对所述期刊论文数据进行标准化处理,得到标准文本数据;并基于所述标准文本数据构建期刊论文知识库;
29、索引构建模块,用于对所述期刊论文知识库中的所述标准文本数据进行向量表示处理,并基于得到的知识向量构建与所述标准文本数据相对应的混合索引;
30、接收及改写模块,用于接收用户的查询文本,基于预设的混合检索策略对所述查询文本进行改写操作,得到目标查询文本;
31、检索及生成模块,用于基于预训练的检索增强生成模型和所述混合索引从所述期刊论文知识库中确定与所述目标查询文本相对应的目标期刊论文数据,并基于所述预训练的检索增强生成模型和所述目标期刊论文数据生成答复文本。
32、进一步地,所述知识库构建模块还包括:
33、文本标准化单元,用于对所述期刊论文进行文本标准化处理,包括统一字符编码、格式化文本和标准化符号;
34、元数据标准化单元,用于对所述期刊论文进行元数据标准化处理,包括统一字段处理和统一格式处理。
35、进一步地,所述索引构建模块包括:
36、第一向量表示单元,用于采用预训练的稠密向量模型提取所述标准文本数据中的语义信息,得到对应的稠密向量表示;
37、第二向量表示单元,用于采用预训练的稀疏向量模型提取所述标准文本数据中的关键词分析及词频统计的信息表达,得到对应的稀疏向量表示;
38、索引构建单元,用于将所述稠密向量表示和所述稀疏向量表示相结合,得到所述知识向量;并在所述知识向量与所述标准文本数据之间构建混合索引。
39、进一步地,所述接收及改写模块包括:
40、查询分析单元,用于对所述查询文本进行查询分析处理,得到与所述查询文本相对应的关键词和查询意图;
41、改写单元,用于从同义词扩展处理、查询补全处理、查询增强处理和上下文感知处理中选择至少一种改写方式,基于所述关键词和所述查询意图对所述查询文本进行改写操作,得到所述目标查询文本。
42、进本文档来自技高网...
【技术保护点】
1.一种知识库信息处理的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述期刊论文数据进行标准化处理,包括:
3.根据权利要求1所述的方法,其特征在于,所述对期刊论文知识库中的所述标准文本数据进行向量表示处理,并基于得到的知识向量构建与所述标准文本数据相对应的混合索引,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设的混合检索策略对所述查询文本进行改写操作,得到目标查询文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述检索增强生成模型包括检索模块和生成模块;预训练所述检索增强生成模型的过程包括:
6.根据权利要求5所述的方法,其特征在于,所述基于预训练的检索增强生成模型和所述混合索引从所述期刊论文知识库中确定与所述目标查询文本相对应的目标期刊论文数据,并基于所述预训练的检索增强生成模型和所述目标期刊论文数据生成答复文本,包括:
7.根据权利要求1~6任一项所述的方法,其特征在于,所述方法还包括:
8.一种知识库信息处理的装置,其特征在于,包括:<
...【技术特征摘要】
1.一种知识库信息处理的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述期刊论文数据进行标准化处理,包括:
3.根据权利要求1所述的方法,其特征在于,所述对期刊论文知识库中的所述标准文本数据进行向量表示处理,并基于得到的知识向量构建与所述标准文本数据相对应的混合索引,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设的混合检索策略对所述查询文本进行改写操作,得到目标查询文本,包括:
5.根据权利要求1所述的方法,其特征在于,所述检索增强生成模型包括检索模块和生成模块;预训练所述检索增强生成模型的过程包括:
6.根据权利要求5所述的方法,...
【专利技术属性】
技术研发人员:刘雪冰,黄静,孙常莹,何朝辉,王海勇,谢磊,龚婷,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。