System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据,具体涉及一种目标领域的用例数据的确定方法、装置、设备及存储介质。
技术介绍
1、目前针对大模型的学习和测试,需要大量适应性的用例数据,特别是在对大模型进行领域性学习和测试时,需要大量隶属于目标领域的用例数据。但是在采集到的海量数据中,难以对各类数据进行分类整理,无法快速的确定出用例数据所属的目标领域,从而无法丰富目标领域的用例数据。
技术实现思路
1、鉴于上述问题,本申请提供了一种目标领域的用例数据的确定方法、装置、设备及存储介质,用于快速且准确地确定出用例数据所属的目标领域。
2、根据本申请一个方面,提供了一种确定方法,所述目标领域的用例数据的确定方法包括:计算得到初始文本集合中目标初始文本与其它初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,以及小于或等于所述预设相似度的第二初始文本组合;其中,所述目标初始文本为所述初始文本集合中的任一初始文本;从所述第一初始文本组合中确定出待删除的初始文本,并将所述待删除的初始文本从所述初始文本集合中删除,得到用例文本集合;将所述用例文本集合与不同领域词表进行相似度计算,并将对应最高相似度的领域词表所属领域,作为所述用例文本集合的目标领域。
3、在一种可选的方式中,所述计算得到初始文本集合中目标初始文本与其它初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,以及小于或等于所述预设相似度的第二初始文本组合,进一步包括:将目标初始文本中的字词数量,分别与各个其它初始
4、在一种可选的方式中,所述从所述第一初始文本组合中确定出待删除的初始文本,进一步包括:从所有第一初始文本组合中确定出出现率最高的初始文本,并将所述所有第一初始文本组合中,除所述出现率最高的初始文本之外的其它初始文本,确定为待删除的初始文本;或者从所述所有第一初始文本组合中随机选取保留初始文本,并将所述所有第一初始文本组合中,除所述保留初始文本之外的其它初始文本,确定为所述待删除的初始文本。
5、在一种可选的方式中,所述将所述用例文本集合与不同领域词表进行相似度计算,进一步包括:将所述用例文本集合中的各个用例文本进行向量化处理,以得到各个用例文本对应的向量分量;其中,所述向量分量的数量与目标领域词表中预设字词的数量相同,所述目标领域词表为任一领域对应的词表;根据各个用例文本对应的向量分量,和所述目标领域词表中各个预设字词的词频向量,计算得到所述用例文本集合与所述目标领域词表之间的相似度,以得到所述用例文本与不同领域词表之间的相似度。
6、在一种可选的方式中,所述根据各个用例文本对应的向量分量,和所述目标领域词表中各个预设字词的词频向量,计算得到所述用例文本集合与所述目标领域词表之间的相似度,进一步包括:根据各个用例文本对应的向量分量构建得到第一向量矩阵,并计算得到所述第一向量矩阵的第一模长;根据所述目标领域词表中各个预设字词的词频向量构建得到第二向量矩阵,并计算得到所述第二向量矩阵的第二模长;将所述第一向量矩阵和所述第二向量矩阵的乘积,除以所述第一模长和所述第二模长的乘积,得到所述用例文本集合与所述目标领域词表之间的相似度。
7、在一种可选的方式中,所述确定方法还包括:将隶属于目标领域的实时文本数据进行分词处理,并对分词处理后的实时文本数据进行预处理,得到隶属于所述目标领域的实时字词;若所述目标领域词表中存在与所述实时字词相同的目标历史字词,则将所述目标历史字词在所述目标领域词表中的词频调高,并将不存在于所述目标领域词表中的所述实时字词,更新至所述目标领域词表中,以得到更新后的目标领域词表。
8、在一种可选的方式中,在所述从所述第一初始文本组合中确定出待删除的初始文本之前,所述确定方法还包括:检测是否存在所述第一初始文本组合;若不存在,则将所述初始文本集合作为所述用例文本集合;若存在,则执行所述从所述第一初始文本组合中确定出待删除的初始文本,并将所述待删除的初始文本从所述初始文本集合中删除,得到用例文本集合的步骤。
9、根据本申请另一方面,提供了一种确定装置,所述目标领域的用例数据的确定装置包括:计算模块,用于计算得到初始文本集合中目标初始文本与其它初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,以及小于或等于所述预设相似度的第二初始文本组合;其中,所述目标初始文本为所述初始文本集合中的任一初始文本;删除模块,用于从所述第一初始文本组合中确定出待删除的初始文本,并将所述待删除的初始文本从所述初始文本集合中删除,得到用例文本集合;确定模块,用于将所述用例文本集合与不同领域词表进行相似度计算,并将对应最高相似度的领域词表所属领域,作为所述用例文本集合的目标领域。
10、根据本申请一个方面,提供了一种电子设备,包括:控制器;存储器,用于存储一个或多个程序,当一个或多个程序被所述控制器执行时,以执行上述的确定方法。
11、根据本申请一个方面,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述的确定方法。
12、根据本申请一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的确定方法。
13、本申请通过计算初始文本集合中两两初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,并从第一初始文本组合中确定出待删除的初始文本,以避免相似度雷同的初始文本加重用例文本集合的重叠度,从而使得计算得到的用例文本集合,与不同领域词表之间的相似度更加准确,更能准确地确定出用例文本集合所属的目标领域。
14、上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请技术手段,而可依照说明书的内容予以实施,并且为了让本申请上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
本文档来自技高网...【技术保护点】
1.一种目标领域的用例数据的确定方法,其特征在于,所述确定方法包括:
2.根据权利要求1所述的确定方法,其特征在于,所述计算得到初始文本集合中目标初始文本与其它初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,以及小于或等于所述预设相似度的第二初始文本组合,进一步包括:
3.根据权利要求1所述的确定方法,其特征在于,所述从所述第一初始文本组合中确定出待删除的初始文本,进一步包括:
4.根据权利要求1所述的确定方法,其特征在于,所述将所述用例文本集合与不同领域词表进行相似度计算,进一步包括:
5.根据权利要求4所述的确定方法,其特征在于,所述根据各个用例文本对应的向量分量,和所述目标领域词表中各个预设字词的词频向量,计算得到所述用例文本集合与所述目标领域词表之间的相似度,进一步包括:
6.根据权利要求4所述的确定方法,其特征在于,所述确定方法还包括:
7.根据权利要求1至6中任一项所述的确定方法,其特征在于,在所述从所述第一初始文本组合中确定出待删除的初始文本之前,所述确定方法还包括:
>8.一种目标领域的用例数据的确定装置,其特征在于,所述确定装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的确定方法。
...【技术特征摘要】
1.一种目标领域的用例数据的确定方法,其特征在于,所述确定方法包括:
2.根据权利要求1所述的确定方法,其特征在于,所述计算得到初始文本集合中目标初始文本与其它初始文本之间的相似度,以确定出相似度大于预设相似度的第一初始文本组合,以及小于或等于所述预设相似度的第二初始文本组合,进一步包括:
3.根据权利要求1所述的确定方法,其特征在于,所述从所述第一初始文本组合中确定出待删除的初始文本,进一步包括:
4.根据权利要求1所述的确定方法,其特征在于,所述将所述用例文本集合与不同领域词表进行相似度计算,进一步包括:
5.根据权利要求4所述的确定方法,其特征在于,所述根据各个用例文本对应的向量分量,...
【专利技术属性】
技术研发人员:胡昌菊,刘楚雄,宋亮,苟川平,代秀琼,
申请(专利权)人:重庆赛力斯凤凰智创科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。