System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 信息处理方法、装置、设备、计算机存储介质及程序产品制造方法及图纸_技高网

信息处理方法、装置、设备、计算机存储介质及程序产品制造方法及图纸

技术编号:41709665 阅读:2 留言:0更新日期:2024-06-19 12:39
本申请公开了一种信息处理方法、装置、设备、计算机存储介质及程序产品。该方法包括:获取第一问题;从向量数据库中查找与第一问题相关的n个第一文本块向量;再分别查找与每个第一文本块向量的语义相关度大于预设相关度的第二文本块向量,得到n个第一相关向量集合;通过去重处理,得到m个第二相关向量集合;根据预设标签长度阈值去除m个第二相关向量集合中的部分文本块向量,得到文本块向量总集合;对于其文本块向量进行组合,得到与第一问题对应的目标文本向量。根据本申请实施例,能够得到语义相对完整的文本块,提高语料信息语义的完整性,从而提高后续问答模型在应答问题时的准确性。

【技术实现步骤摘要】

本申请属于信息处理的,尤其涉及一种信息处理方法、装置、设备、计算机存储介质及程序产品


技术介绍

1、智能客服问答是人工智能技术应用最广的领域之一。智能客服问答通过借助相关问答模型,如大语言模型。大语言模型通过接收来自用户的问题并从预存储的语料库中筛选出与用户问题相关度最高的语料信息,将用户的问题与筛选出来的语料信息输入给相关问答模型进行处理。问答模型能够理解并给出针对用户问题的回答。

2、目前的大语言模型在处理文本时通常会面临语料标签长度限制。这意味着,当输入的文本信息超出了模型所能处理的长度时,就需要对文本进行预处理。常见的处理方法是将用户的问题和语料信息转换为向量化表示,然后将向量化后的语料信息切割成多个符合模型处理要求的文本块向量。随后,利用相关性匹配算法,从这些文本块中筛选出与问题向量最匹配的部分,形成一个文本块向量集合。最终,将问题向量和文本块向量集合输入至问答模型中,经过问答模型的分析和理解,生成并输出最终的问答结果。

3、然而,仅从这些文本块中筛选出与问题向量最匹配的部分,形成一个文本块向量集合,可能导致筛选出的文本块向量集合在语义上不够完整,这种文本块语义不完整可能会影响问答模型的准确性,导致模型在回答用户问题时出现偏差或误解。


技术实现思路

1、本申请实施例提供一种信息处理方法、装置、设备、计算机存储介质及程序产品,能够针对每个第一文本块向量生成对应的第一相关向量集合,充分考虑第一文本块向量的语义信息以及与其他文本块之间的关联,提高语料信息语义的完整性,从而提高后续问答模型在应答问题时的准确性。

2、第一方面,本申请实施例提供一种信息处理方法,该方法包括:

3、获取第一问题;

4、从向量数据库中查找与第一问题相关的n个第一文本块向量,n为正整数;

5、从向量数据库中分别查找与每个第一文本块向量的语义相关度大于预设相关度的第二文本块向量,得到n个第一相关向量集合;

6、对n个第一相关向量集合中的文本块向量进行去重处理,得到m个第二相关向量集合,m为小于等于n的正整数;

7、在确定n个第一文本块向量和m个第二相关向量集合的所有文本块向量的第一总长度大于预设标签长度阈值的情况下,根据预设标签长度阈值去除m个第二相关向量集合中的部分文本块向量,得到文本块向量总集合,文本块向量总集合中的所有文本块向量的长度小于或等于预设标签长度阈值;

8、对于文本块向量总集合中的文本块向量按照对应的文档中的层次结构进行组合,得到与第一问题对应的目标文本向量。

9、第二方面,本申请实施例提供了一种信息处理装置,该装置包括:

10、第一获取模块,用于获取第一问题;

11、第一查找模块,用于从向量数据库中查找与第一问题相关的n个第一文本块向量,n为正整数;

12、第二查找模块,用于从向量数据库中分别查找与每个第一文本块向量的语义相关度大于预设相关度的第二文本块向量,得到n个第一相关向量集合;

13、去重模块,用于对多个第一相关向量集合中的文本块向量进行去重处理,得到m个第二相关向量集合;

14、去除模块,用于在确定n个第一文本块向量和m个第二相关向量集合的所有文本块向量的第一总长度大于预设标签长度阈值的情况下,根据预设标签长度阈值去除m个第二相关向量集合中的部分文本块向量,得到文本块向量总集合,文本块向量总集合中的所有文本块向量的长度小于或等于预设标签长度阈值;

15、组合模块,用于对于文本块向量总集合中的文本块向量按照对应的文档中的层次结构进行组合,得到与第一问题对应的目标文本向量。

16、第三方面,本申请实施例提供了一种信息处理设备,该设备包括:处理器以及存储有计算机程序指令的存储器;

17、所述处理器执行所述计算机程序指令时实现任意一项上述信息处理方法。

18、第四方面,本申请实施例提供了一种计算机存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现任意一项上述信息处理方法。

19、第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行任意一项上述信息处理方法。

20、本申请实施例提供的一种信息处理方法、装置、设备、计算机存储介质及程序产品,在获取到第一问题后,从向量数据库中查找与该第一问题相关的n个第一文本块向量,然后再查找与每个第一文本块向量的语义相关度大于预设相关度的第二文本块向量,从而得到每个所述第一文本块向量对应的第一相关向量集合。如此,得到了与该第一问题相匹配的、语义相对完整的文本块向量。然后再对多个第一相关向量集合进行去重,得到m个第二相关向量集合。并且在n个第一文本块向量和m个第二相关向量集合的所有文本块向量的第一总长度大于预设标签长度阈值的情况下,去除m个第二相关向量集合中的部分文本块向量,得到文本向量的长度小于或等于所述预设标签长度阈值的文本块向量总集合,最后基于该文本块向量总集合的文本块向量按照对应的文档中的层次结构进行组合,得到与所述第一问题匹配的目标文本向量。所以,在上述语料匹配过程中,通过查找与问题相关的第一文本块向量以及与第一文本块向量的语义相关的第二相关向量集合,去除m个第二相关向量集合中的部分文本块向量,最终得到的目标文本向量,在长度小于预设标签长度阈值的情况下,也提高了语料语义的完整性,从而提高了问答模型的应答准确性。

本文档来自技高网...

【技术保护点】

1.一种信息处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述从向量数据库中查找与所述第一问题相关的n个第一文本块向量之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述从向量数据库中分别查找与每个所述第一文本块向量的语义相关度大于预设相关度的第二文本块向量,得到n个第一相关向量集合,包括:

4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据预设标签长度阈值去除所述m个第二相关向量集合中的部分文本块向量,得到文本块向量总集合,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.一种信息处理装置,其特征在于,所述装置包括:

8.一种信息处理设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的信息处理方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-6任意一项所述的信息处理方法。

...

【技术特征摘要】

1.一种信息处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述从向量数据库中查找与所述第一问题相关的n个第一文本块向量之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述从向量数据库中分别查找与每个所述第一文本块向量的语义相关度大于预设相关度的第二文本块向量,得到n个第一相关向量集合,包括:

4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据预设标签长度阈值去除所述m个第二相关向量集合中的部分文本块向量,得到文本块向量总集合,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法...

【专利技术属性】
技术研发人员:董灿佳陈晓鸿黄华新蔡鑫黄伟文黎智韬罗朝彤吴志强
申请(专利权)人:中移动信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1