【技术实现步骤摘要】
候选文本确定方法及装置
[0001]本申请为申请号202110484317.7,申请日2021年04月30日,专利技术名称为“一种文本处理方法及装置”的分案申请。
[0002]本申请涉及人工智能领域,特别涉及一种候选文本确定方法及装置、计算设备和计算机可读存储介质。
技术介绍
[0003]在问答系统中,获取问题之后会先进行信息检索,以得到与问题比较相关的文本,再从得到的文本中确定问题的答案,若信息检索得到的文本是无关文本,则会影响确定的答案的准确性,进而影响问答系统的性能,因此,信息检索是至关重要的。
[0004]现有技术中,为了提升信息检索的召回率,使得检索得到的文本与问题的相关性更高,通常采用语义检索的方式确定与问题语义相关的文本。具体的,可以通过检索模型确定待答复问题的语义向量和文本库中多个文本的语义向量,确定文本的语义向量与待答复问题的语义向量的相似度,若相似度较高则说明待答复问题与文本的语义比较接近,因此可以将与待答复问题的语义向量相似度较高的文本确定为与待答复问题语义相关的文本。
[0005]但上述方式中,对待答复问题进行向量化表示得到语义向量仅根据检索模型来确定,而检索模型的性能依赖于训练情况,所以确定的待答复问题的语义向量在不能准确地表示待答复问题的情况下,这样的语义向量确定的文本可能与待答复问题不相关,即通过语义检索可能会召回无关文本,进而基于无关文本确定的待答复问题的答案可能不准确,即会影响问答系统的性能。
技术实现思路
[0006]有鉴于此,本申请实施例提 ...
【技术保护点】
【技术特征摘要】
1.一种候选文本确定方法,其特征在于,所述方法包括:基于获取的待答复问题,确定所述待答复问题的语义向量,获取文本库中多个文本的语义向量;根据所述待答复问题的语义向量与所述多个文本的语义向量的相似度,从所述文本库中确定与所述待答复问题语义相关的第一待选文本;对所述待答复问题进行分词处理,得到所述待答复问题的多个第一词单元;基于每个第一词单元的权重值、所述每个第一词单元与所述文本库中每个文本的相关性取值,确定所述每个文本相对于所述待答复问题的相似度分值,将相似度分值大于第二阈值的文本确定为第二待选文本;基于所述第一待选文本和所述第二待选文本,确定候选文本。2.根据权利要求1所述的候选文本确定方法,其特征在于,所述候选文本的数量为多个;基于所述第一待选文本和所述第二待选文本,确定候选文本之后,还包括:确定多个候选文本的语义向量;基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,其中,所述邻接矩阵用于表征所述待答复问题与所述多个候选文本的相关性,以及所述多个候选文本之间的相关性;将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本。3.如权利要求2所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵之前,还包括:获取所述待答复问题的关键词和每个候选文本的关键词;若第一候选文本中存在所述待答复问题的关键词的对应关键词,确定所述第一候选文本与所述待答复问题的关联关系是相关,其中,所述第一候选文本是所述多个候选文本中的任一候选文本;若所述第一候选文本中存在第二候选文本的关键词的对应关键词,确定所述第一候选文本和所述第二候选文本的关联关系是相关,其中,所述第二候选文本是所述多个候选文本中除所述第一候选文本之外的任一候选文本;确定所述待答复问题和自身的关联关系是相关,且确定每个候选文本和自身的关联关系是相关,或者,确定所述待答复问题和自身的关联关系是不相关,且确定每个候选文本和自身的关联关系是不相关。4.如权利要求3所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:以所述待答复问题和所述多个候选文本为节点,以所述节点作为行和列,且行节点和列节点的排列顺序相同,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,得到所述邻接矩阵。5.如权利要求4所述的候选文本确定方法,其特征在于,基于每个位置对应的行节点和列节点的关联关系确定每个位置的元素,包括:若目标位置对应的行节点和列节点的关联关系是相关,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;
若所述目标位置对应的行节点和列节点的关联关系是不相关,则确定所述目标位置的元素是0。6.如权利要求2所述的候选文本确定方法,其特征在于,基于所述待答复问题和所述多个候选文本的关联关系构建邻接矩阵,包括:以所述待答复问题和所述多个候选文本为节点,将关联关系是相关的不同节点相连,得到图网络;以所述图网络中的节点作为行和列,且行节点的排列顺序和列节点的排列顺序相同,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,得到所述邻接矩阵。7.如权利要求6所述的候选文本确定方法,其特征在于,基于每个位置对应的行节点和列节点是否存在边确定每个位置的元素,包括:若目标位置对应的行节点和列节点不是相同的节点且在所述图网络中存在边,则确定所述目标位置的元素是1,其中,所述目标位置是所述邻接矩阵中的任一位置;若所述目标位置对应的行节点和列节点不是相同的节点且在所述图网络中不存在边,则确定所述目标位置的元素是0;若所述目标位置对应的行节点和列节点是相同的节点,则确定所述目标位置的元素是1或0。8.如权利要求2所述的候选文本确定方法,其特征在于,将所述待答复问题的语义向量、所述多个候选文本的语义向量和所述邻接矩阵输入文本筛选网络中,确定目标文本,包括:将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值;将相关度分值大于第一阈值的候选文本确定为所述目标文本;若所述目标文本的数量是多个,按照相关度分值从大到小的顺序对所述目标文本进行排序,并按照顺序输出排序后的所述目标文本。9.如权利要求8所述的候选文本确定方法,其特征在于,将所述邻接矩阵、所述待答复问题的语义向量和所述多个候选文本的语义向量输入文本筛选网络中,得到每个候选文本相对于所述待答复问题的相关度分值,包括:将所述待答复问题的语义向量和所述多个候选文本的语义向量进行拼接,得到拼接语义向量;将所述拼接语义向量和所述邻接矩阵输入文本筛选网络的隐藏层,得到隐层特征向量组,其中,所述隐层特征向量组包括所述待答复问题结合所述多个候选文本的语义向量后得到的隐层特征向量,以及每个候选文本结合其他候选文本和所述待答复问题的语义向量后得到的隐层特征向量;将所述隐层特征向量组输入全连接层,得到每个候选文本相对于所述待答复问题的相关度分值。10.如权利要求2所述的候选文本确定方法,其特征在于,所述文本筛选网络的训练方法如下:获取样本问题、多个样本文本和每个样本文本的样本标记,其中,每个样本文本的样本
标记用于表征所述样本文本与所述样本问题的相关性;确定所述样...
【专利技术属性】
技术研发人员:白金国,李长亮,李小龙,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。