候选文本确定方法及装置制造方法及图纸

技术编号:39306649 阅读:34 留言:0更新日期:2023-11-12 15:54
本申请提供候选文本确定方法及装置,其中所述候选文本确定方法包括:基于获取的待答复问题,确定待答复问题的语义向量,获取文本库中多个文本的语义向量;根据待答复问题的语义向量与多个文本的语义向量的相似度,从文本库中确定与待答复问题语义相关的第一待选文本;对待答复问题进行分词处理,得到待答复问题的多个第一词单元;基于每个第一词单元的权重值、每个第一词单元与文本库中每个文本的相关性取值,确定每个文本相对于待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;基于第一待选文本和第二待选文本,确定候选文本。使用两种方式确定候选文本,提高了确定的候选文本的准确性。提高了确定的候选文本的准确性。提高了确定的候选文本的准确性。

【技术实现步骤摘要】
候选文本确定方法及装置
[0001]本申请为申请号202110484317.7,申请日2021年04月30日,专利技术名称为“一种文本处理方法及装置”的分案申请。


[0002]本申请涉及人工智能领域,特别涉及一种候选文本确定方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0003]在问答系统中,获取问题之后会先进行信息检索,以得到与问题比较相关的文本,再从得到的文本中确定问题的答案,若信息检索得到的文本是无关文本,则会影响确定的答案的准确性,进而影响问答系统的性能,因此,信息检索是至关重要的。
[0004]现有技术中,为了提升信息检索的召回率,使得检索得到的文本与问题的相关性更高,通常采用语义检索的方式确定与问题语义相关的文本。具体的,可以通过检索模型确定待答复问题的语义向量和文本库中多个文本的语义向量,确定文本的语义向量与待答复问题的语义向量的相似度,若相似度较高则说明待答复问题与文本的语义比较接近,因此可以将与待答复问题的语义向量相似度较高的文本确定为与待答复问题语义相关的文本。
[0005]但上述方式中,对待答复问题进行向量化表示得到语义向量仅根据检索模型来确定,而检索模型的性能依赖于训练情况,所以确定的待答复问题的语义向量在不能准确地表示待答复问题的情况下,这样的语义向量确定的文本可能与待答复问题不相关,即通过语义检索可能会召回无关文本,进而基于无关文本确定的待答复问题的答案可能不准确,即会影响问答系统的性能。

技术实现思路

[0006]有鉴于此,本申请实施例提供了一种候选文本确定方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0007]根据本申请实施例的第一方面,提供了一种候选文本确定方法,包括:
[0008]基于获取的待答复问题,确定所述待答复问题的语义向量,获取文本库中多个文本的语义向量;
[0009]根据所述待答复问题的语义向量与所述多个文本的语义向量的相似度,从所述文本库中确定与所述待答复问题语义相关的第一待选文本;
[0010]对所述待答复问题进行分词处理,得到所述待答复问题的多个第一词单元;
[0011]基于每个第一词单元的权重值、所述每个第一词单元与所述文本库中每个文本的相关性取值,确定所述每个文本相对于所述待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;
[0012]基于所述第一待选文本和所述第二待选文本,确定候选文本。
[0013]根据本申请实施例的第二方面,提供了一种候选文本确定装置,包括:
[0014]第一确定模块,被配置为基于获取的待答复问题,确定所述待答复问题的语义向量,获取文本库中多个文本的语义向量;
[0015]第二确定模块,被配置为根据所述待答复问题的语义向量与所述多个文本的语义向量的相似度,从所述文本库中确定与所述待答复问题语义相关的第一待选文本;
[0016]分词模块,被配置为对所述待答复问题进行分词处理,得到所述待答复问题的多个第一词单元;
[0017]第三确定模块,被配置为基于每个第一词单元的权重值、所述每个第一词单元与所述文本库中每个文本的相关性取值,确定所述每个文本相对于所述待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;
[0018]第四确定模块,被配置为基于所述第一待选文本和所述第二待选文本,确定候选文本。
[0019]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述候选文本确定方法的步骤。
[0020]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述候选文本确定方法的步骤。
[0021]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述候选文本确定方法的步骤。
[0022]本申请实施例中,基于获取的待答复问题,确定所述待答复问题的语义向量,获取文本库中多个文本的语义向量;根据待答复问题的语义向量与多个文本的语义向量的相似度,从文本库中确定与待答复问题语义相关的第一待选文本;对待答复问题进行分词处理,得到待答复问题的多个第一词单元;基于每个第一词单元的权重值、每个第一词单元与文本库中每个文本的相关性取值,确定每个文本相对于待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;基于第一待选文本和第二待选文本,确定候选文本。基于待答复问题和多个文本及待答复问题和多个文本的语义向量,使用两种方式确定的第一待选文本和第二待选文本确定候选文本,使得确定的候选文本是基于两种方式确定得到的,提高了确定的候选文本的准确性,进而提高了问答系统的性能。
附图说明
[0023]图1是本申请实施例提供的一种计算设备的结构框图;
[0024]图2是本申请实施例提供的一种文本处理方法的流程图;
[0025]图3是本申请实施例提供的一种文本处理方法的示意图;
[0026]图4是本申请实施例提供的一种确定候选文本的示意图;
[0027]图5是本申请实施例提供的一种图网络的示意图;
[0028]图6是本申请实施例提供的另一种文本处理方法的流程图;
[0029]图7是本申请实施例提供的一种文本处理装置的结构示意图。
具体实施方式
[0030]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以
很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0031]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0032]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
[0033]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0034]信息检索:一种查询信息的方法。
[0035]语义检索:根据语义进行检索的方法。
[0036]DPR模型:(Dense Passage Retrieval,密集文本段检索)模型,可以进行语义检索,用于根据输入的问题输出与该问题相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种候选文本确定方法,其特征在于,所述方法包括:基于获取的待答复问题,确定所述待答复问题的语义向量,获取文本库中多个文本的语义向量;根据所述待答复问题的语义向量与所述多个文本的语义向量的相似度,从所述文本库中确定与所述待答复问题语义相关的第一待选文本;对所述待答复问题进行分词处理,得到所述待答复问题的多个第一词单元;基于每个第一词单元的权重值、所述每个第一词单元与所述文本库中每个文本的相关性取值,确定所述每个文本相对于所述待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;基于所述第一待选文本和所述第二待选文本,确定候选文本。2.根据权利要求1所述的候选文本确定方法,其特征在于,所述候选文本的数量为多个;基于所述第一待选文本和所述第二待选文本,确定候选文本之后,还包括:确定多个候选文本的语义向量;基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。3.如权利要求2所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵之前,还包括:获取所述待答复问题的关键词和每个候选文本的关键词;若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本;若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本;确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关,或者,确定所述待答复问题和自身的关联关系是不相关,且确定每个候选文本和自身的关联关系是不相关。4.如权利要求3所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。5.如权利要求4所述的候选文本确定方法,其特征在于,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,包括:若目标位置对应的行节点和列节点的关联关系是相关,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点的关联关系是不相关,则确定所述目标位置的元素是0。6.如权利要求2所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:以所述待答复问题和所述多个候选文本为节点,将关联关系是相关的不同节点相连,得到图网络;以所述图网络中的节点作为行和列,且行节点的排列顺序和列节点的排列顺序相同,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,得到所述邻接矩阵。7.如权利要求6所述的候选文本确定方法,其特征在于,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,包括:若目标位置对应的行节点和列节点不是相同的节点且在所述图网络中存在边,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;若所述目标位置对应的行节点和列节点不是相同的节点且在所述图网络中不存在边,则确定所述目标位置的元素是0;若所述目标位置对应的行节点和列节点是相同的节点,则确定所述目标位置的元素是1或0。8.如权利要求2所述的候选文本确定方法,其特征在于,将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本,包括:将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值;将相关度分值大于第一阈值的候选文本确定为所述目标文本;若所述目标文本的数量是多个,按照相关度分值从大到小的顺序对所述目标文本进行排序,并按照顺序输出排序后的所述目标文本。9.如权利要求8所述的候选文本确定方法,其特征在于,将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值,包括:将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量;将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量;将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。10.如权利要求2所述的候选文本确定方法,其特征在于,所述文本筛选网络的训练方法如下:获取样本问题、多个样本文本和每个样本文本的样本标记,其中,每个样本文本的样本
标记用于表征所述样本文本与所述样本问题的相关性;确定所述样...

【专利技术属性】
技术研发人员:白金国李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1