System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种支持语义查重查新的特征比对库构建方法及装置制造方法及图纸_技高网

一种支持语义查重查新的特征比对库构建方法及装置制造方法及图纸

技术编号:41844252 阅读:6 留言:0更新日期:2024-06-27 18:23
本发明专利技术公开了一种支持语义查重查新的特征比对库构建方法及装置,涉及人工智能相关领域,该方法包括:导入领域文本库,利用知识元解析模块对领域文本库进行解析,输出多个层级知识元;分别进行关键词识别,输出每个层级知识元对应的关键词特征向量;进行语义化计算,得到每个层级知识元对应的多个语义特征;构建语义多维索引库;利用语义多维索引库对第一待查文本进行多层级查重查新。解决了现有比对库构建和查询方面存在的语义挖掘不足,数据处理效率低下以及索引机制低效的技术问题,达到了实现对文本深层语义的挖掘和多层级结构的利用,提高比对库的准确性和查询效率的技术效果。

【技术实现步骤摘要】

本申请涉及人工智能相关领域,尤其涉及一种支持语义查重查新的特征比对库构建方法及装置


技术介绍

1、当今信息技术日新月异,文本数据的处理与利用已成为推动各行业发展不可或缺的一环,特别是在信息检索、文本查重、内容推荐等领域,比对数据库的构建更是扮演着举足轻重的角色。现有的比对库构建过程主要依赖于关键词匹配和词频统计等表层文本处理方法,缺乏对文本深层语义的挖掘,导致在后续的信息检索和比对过程中可能出现误解或遗漏,并且传统的比对库在查询信息时,通常需要遍历大量的文本数据,这种遍历式的查询方式不仅计算负担重,而且数据处理效率低下,同时现有技术在构建比对库索引时,往往没有充分考虑到文本结构的多层次性,这种无差别的处理方式导致索引机制低效,无法精确地定位到用户所需的信息。

2、现阶段相关技术中,比对库构建和查询方面存在语义挖掘不足,数据处理效率低下以及索引机制低效的技术问题。


技术实现思路

1、本申请通过提供一种支持语义查重查新的特征比对库构建方法及装置,采用知识元解析、关键词识别与特征向量化、语义化计算、构建语义多维索引库、多层级查重查新等技术手段,达到了实现对文本深层语义的挖掘和多层级结构的利用,提高比对库的准确性和查询效率的技术效果。

2、本申请提供一种支持语义查重查新的特征比对库构建方法,包括:

3、导入领域文本库,利用知识元解析模块对所述领域文本库进行解析,输出多个层级知识元;

4、对所述多个层级知识元分别进行关键词识别,输出每个层级知识元对应的关键词特征向量;

5、对每个层级知识元对应的关键词特征向量进行语义化计算,得到每个层级知识元对应的多个语义特征,其中,所述多个语义特征包括语步标签、科研实体和文本向量;

6、按照每个层级知识元对应的多个语义特征,构建语义多维索引库,其中,所述语义多维索引库包括多个索引比对库,且所述多个索引比对库与所述多个层级知识元相对应;

7、利用所述语义多维索引库对第一待查文本进行多层级查重查新。

8、在可能的实现方式中,执行以下处理:

9、所述多个层级知识元包括章节知识元、段落知识元、句子知识元和术语知识元,构建得到的所述语义多维索引库包括章节索引比对库、段落索引比对库、句子索引比对库和术语索引比对库;

10、其中,所述章节索引比对库、段落索引比对库以第一语义特征组进行索引,所述第一语义特征组包括语步标签和文本向量;

11、所述句子索引比对库和术语索引比对库以第二语义特征组进行索引,所述第二语义特征组包括科研实体和文本向量。

12、在可能的实现方式中,获取所述语步标签,执行以下处理:

13、确定语步要素,以所述语步要素对每个层级知识元对应的关键词特征向量进行提取,输出每个层级知识元对应的语步标签。

14、在可能的实现方式中,获取所述科研实体,执行以下处理:

15、利用训练好的双向变换器模型对每个层级知识元对应的关键词特征向量进行抽取,输出所述科研实体;

16、其中,所述双向变换器模型包括第一任务网络层和第二任务网络层,所述第一任务网络层用于对每个层级知识元对应的关键词特征向量进行科研实体预测训练,所述第二任务网络层用于对每个层级知识元对应的关键词特征向量进行连续性预测,分析两个同一层级知识元之间的连续性。

17、在可能的实现方式中,获取所述文本向量,执行以下处理:

18、以语义维度、语义相关性和语义可解释性建立高维向量映射空间;

19、将每个层级知识元对应的关键词特征向量输入所述高维向量映射空间中进行高维映射,根据高维映射的结果输出每个层级知识元对应的文本向量。

20、在可能的实现方式中,利用所述语义多维索引库对第一待查文本进行多层级查重查新,执行以下处理:

21、获取所述第一待查文本的领域特征;

22、按照所述领域特征从所述语义多维索引库中进行匹配,输出基于所述第一待查文本的匹配领域的语义多维索引库;

23、利用匹配领域的语义多维索引库对所述第一待查文本进行多层级查重查新。

24、在可能的实现方式中,利用匹配领域的语义多维索引库对所述第一待查文本进行多层级查重查新,执行以下处理:

25、提取所述第一待查文本的文本向量;

26、基于所述第一待查文本的文本向量在匹配领域的语义多维索引库进行多层级相似度识别,输出多层级相似度指标;

27、根据所述多层级相似度指标,输出查重查新结果。

28、本申请还提供了一种支持语义查重查新的特征比对库构建装置,包括:

29、多个层级知识元输出模块,所述多个层级知识元输出模块用于导入领域文本库,利用知识元解析模块对所述领域文本库进行解析,输出多个层级知识元;

30、关键词特征向量输出模块,所述关键词特征向量输出模块用于对所述多个层级知识元分别进行关键词识别,输出每个层级知识元对应的关键词特征向量;

31、多个语义特征获取模块,所述多个语义特征获取模块用于对每个层级知识元对应的关键词特征向量进行语义化计算,得到每个层级知识元对应的多个语义特征,其中,所述多个语义特征包括语步标签、科研实体和文本向量;

32、语义多维索引库构建模块,所述语义多维索引库构建模块用于按照每个层级知识元对应的多个语义特征,构建语义多维索引库,其中,所述语义多维索引库包括多个索引比对库,且所述多个索引比对库与所述多个层级知识元相对应;

33、多层级查重查新模块,所述多层级查重查新模块用于利用所述语义多维索引库对第一待查文本进行多层级查重查新。

34、本申请还提供了一种电子设备,包括:

35、存储器,用于存储可执行指令;

36、处理器,用于执行所述存储器中存储的可执行指令时,实现一种支持语义查重查新的特征比对库构建方法。

37、本申请还提供了一种计算机可读存储介质,包括:

38、其上存储有计算机程序,该程序被处理器执行时实现一种支持语义查重查新的特征比对库构建方法。

39、拟通过本申请提出的一种支持语义查重查新的特征比对库构建方法及装置,首先导入领域文本库,利用知识元解析模块对领域文本库进行解析,输出多个层级知识元,接着对多个层级知识元分别进行关键词识别,输出每个层级知识元对应的关键词特征向量,再对每个层级知识元对应的关键词特征向量进行语义化计算,得到每个层级知识元对应的多个语义特征,其中,多个语义特征包括语步标签、科研实体和文本向量,然后按照每个层级知识元对应的多个语义特征,构建语义多维索引库,其中,语义多维索引库包括多个索引比对库,且多个索引比对库与多个层级知识元相对应,最后利用语义多维索引库对第一待查文本进行多层级查重查新,达到了实现对文本深层语义的挖掘和多层级结构的利用,提高比对库的准确性和查询效率的技术效果。

本文档来自技高网...

【技术保护点】

1.一种支持语义查重查新的特征比对库构建方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,所述多个层级知识元包括章节知识元、段落知识元、句子知识元和术语知识元,构建得到的所述语义多维索引库包括章节索引比对库、段落索引比对库、句子索引比对库和术语索引比对库;

3.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述语步标签,包括:

4.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述科研实体,包括:

5.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述文本向量,包括:

6.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,利用所述语义多维索引库对第一待查文本进行多层级查重查新,包括:

7.如权利要求6所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,利用匹配领域的语义多维索引库对所述第一待查文本进行多层级查重查新,方法包括:>

8.一种支持语义查重查新的特征比对库构建装置,其特征在于,所述装置用于实施权利要求1-7任一项所述的一种支持语义查重查新的特征比对库构建方法,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种支持语义查重查新的特征比对库构建方法。

...

【技术特征摘要】

1.一种支持语义查重查新的特征比对库构建方法,其特征在于,所述方法包括:

2.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,所述多个层级知识元包括章节知识元、段落知识元、句子知识元和术语知识元,构建得到的所述语义多维索引库包括章节索引比对库、段落索引比对库、句子索引比对库和术语索引比对库;

3.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述语步标签,包括:

4.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述科研实体,包括:

5.如权利要求1所述的一种支持语义查重查新的特征比对库构建方法,其特征在于,获取所述文本向量,包括:

6.如权利要求...

【专利技术属性】
技术研发人员:李涵昱张智雄叶志飞刘熠王猛钱力谢靖
申请(专利权)人:中国科学院文献情报中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1