本申请涉及人工智能技术,提供一种问答搜索方法、装置及存储介质,其中方法包括:获取目标对象对于目标问题的答案搜索请求;确定目标问题的文本特征;将文本特征输入至问答搜索模型,得到目标答案;其中,问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型,目标样本集包括第一样本集和第二样本集融合得到的样本集,第一样本集是根据历史对话数据集进行处理得到的样本集,第二样本集是根据历史对话数据集和已标注文件进行处理得到的样本集。采用本申请,可提高样本的多样性,可提高了模型对训练样本的学习广度,利于提高搜索答案的准确率。案的准确率。案的准确率。
【技术实现步骤摘要】
问答搜索方法、装置及存储介质
[0001]本申请涉及人工智能
,主要涉及了一种问答搜索方法、装置及存储介质。
技术介绍
[0002]文本的问答匹配算法主要用于客服、外呼机器人等业务场景。随着互联网的迅速发展,一些由大量人工参与的问答搜索系统逐步向自动化及人工组合的方式转变,使用自动化的问答推荐来解决部分问题,可以减少人工参与,并可以快速响应用户需求。
[0003]目前,问答搜索系统中的问答搜索模型采用的训练样本是通过人工对历史对话数据进行标注得到的。然而,实际问答场景中的某类样本,例如,负样本、困难样本等的数量较少,导致这类样本的数量较少,难以提高答案搜索的准确率低。
技术实现思路
[0004]本申请实施例提供了一种问答搜索方法、装置及存储介质,可提高样本的多样性,可提高了模型对训练样本的学习广度,利于提高搜索答案的准确率。
[0005]第一方面,本申请实施例提供一种问答搜索方法,包括:获取目标对象对于目标问题的答案搜索请求;确定目标问题的文本特征;将文本特征输入至问答搜索模型,得到目标答案;其中,问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型,目标样本集包括第一样本集和第二样本集融合得到的样本集,第一样本集是根据历史对话数据集进行处理得到的样本集,第二样本集是根据历史对话数据集和已标注文件进行处理得到的样本集。
[0006]在一个可能的示例中,还包括:对历史对话数据集进行分析,得到领域词库;对领域词库进行筛选,得到高频领域词库;对领域词库进行补充,得到关联领域词库;根据高频领域词库和关联领域词库构建第一样本集。
[0007]在一个可能的示例中,对领域词库进行筛选,得到高频领域词库,包括:获取领域词库中每一领域词的向量表征;对领域词的向量表征进行聚类,得到至少两类领域词簇;获取各类领域词簇的频率;将频率大于频率阈值的领域词簇组成高频领域词库。
[0008]在一个可能的示例中,对领域词库进行补充,得到关联领域词库,包括:根据领域词库的领域类型对应的预设规则,查找领域词库中每一领域词的替换词;获取领域词库中每一领域词库的相似词;将替换词和相似词补充至领域词库,得到关联领域词库。
[0009]在一个可能的示例中,根据高频领域词库和关联领域词库构建第一样本集,包括:从历史对话数据集中查找领域词库中至少一个领域词所在的目标历史对话数据集;根据目标历史对话数据,构建包含高频领域词库中至少一个领域词的第一子样本;根据关联领域词库中的至少一个领域词,将目标历史对话数据中的领域词进行替换,得到多个第二子样本;对第一子样本和多个第二子样本进行融合,得到第一样本集。
[0010]在一个可能的示例中,还包括:从已标注文件中选取预设样本类型对应的参考样本;获取历史对话数据集中每一历史对话数据和参考样本之间的相似值;从历史对话数据
集中筛选出相似值大于相似阈值的历史对话数据集,得到第二样本集。
[0011]在一个可能的示例中,确定目标问题的文本特征,包括:确定目标问题中的关键词和目标问题的
;根据
和关键词确定目标问题的文本特征。
[0012]第二方面,本申请实施例提供一种问答搜索装置,其中:
[0013]通信单元,用于获取目标对象对于目标问题的答案搜索请求;
[0014]处理单元,用于确定目标问题的文本特征;将文本特征输入至问答搜索模型,得到目标答案;其中,问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型,目标样本集包括第一样本集和第二样本集融合得到的样本集,第一样本集是根据历史对话数据进行处理得到的样本集,第二样本集是根据历史对话数据和已标注文件进行处理得到的样本集。
[0015]在一个可能的示例中,处理单元还用于对历史对话数据集进行分析,得到领域词库;对领域词库进行筛选,得到高频领域词库;对领域词库进行补充,得到关联领域词库;根据高频领域词库和关联领域词库构建第一样本集。
[0016]在一个可能的示例中,处理单元具体用于获取领域词库中每一领域词的向量表征;对领域词的向量表征进行聚类,得到至少两类领域词簇;获取各类领域词簇的频率;将频率大于频率阈值的领域词簇组成高频领域词库。
[0017]在一个可能的示例中,处理单元具体用于根据领域词库的领域类型对应的预设规则,查找领域词库中每一领域词的替换词;获取领域词库中每一领域词库的相似词;将替换词和相似词补充至领域词库,得到关联领域词库。
[0018]在一个可能的示例中,处理单元具体用于从历史对话数据集中查找领域词库中至少一个领域词所在的目标历史对话数据集;根据目标历史对话数据,构建包含高频领域词库中至少一个领域词的第一子样本;根据关联领域词库中的至少一个领域词,将目标历史对话数据中的领域词进行替换,得到多个第二子样本;对第一子样本和多个第二子样本进行融合,得到第一样本集。
[0019]在一个可能的示例中,处理单元还用于从已标注文件中选取预设样本类型对应的参考样本;获取历史对话数据集中每一历史对话数据和参考样本之间的相似值;从历史对话数据集中筛选出相似值大于相似阈值的历史对话数据集,得到第二样本集。
[0020]在一个可能的示例中,处理单元具体用于确定目标问题中的关键词和目标问题的
;根据
和关键词确定目标问题的文本特征。
[0021]第三方面,本申请实施例提供一种计算机设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,程序包括用于如第一方面中所描述的部分或全部步骤的指令。
[0022]第四方面,本申请实施例提供了一种计算机可读存储介质,其中,计算机可读存储介质存储计算机程序,其中,计算机程序使得计算机执行以实现如第一方面中所描述的部分或全部步骤。
[0023]通过实施本申请实施例,在获取目标对象对于目标问题的答案搜索请求之后,可以先确定目标问题的文本特征。再将该文本特征输入至问答搜索模型,得到目标答案。其中,问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型,该目标样本集包括第一样本集和第二样本集融合得到的样本集。可见,问答搜索模型的训练样本采用了
至少两种不同类型的样本,可提高样本的多样性,可提高了模型对训练样本的学习广度。且第一样本集是根据历史对话数据集进行处理得到的样本集,第二样本集是根据历史对话数据集和已标注文件进行处理得到的样本集。如此,可提高了样本的实用性和准确率,利于提高搜索答案的准确率。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]其中:
[0026]图1为本申请实施例提供的一种问答搜索方法的流程示意图;...
【技术保护点】
【技术特征摘要】
1.一种问答搜索方法,其特征在于,包括:获取目标对象对于目标问题的答案搜索请求;确定所述目标问题的文本特征;将所述文本特征输入至问答搜索模型,得到目标答案;其中,所述问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型,所述目标样本集包括第一样本集和第二样本集融合得到的样本集,所述第一样本集是根据历史对话数据集进行处理得到的样本集,所述第二样本集是根据所述历史对话数据集和已标注文件进行处理得到的样本集。2.根据权利要求1所述的方法,其特征在于,还包括:对所述历史对话数据集进行分析,得到领域词库;对所述领域词库进行筛选,得到高频领域词库;对所述领域词库进行补充,得到关联领域词库;根据所述高频领域词库和所述关联领域词库构建所述第一样本集。3.根据权利要求2所述的方法,其特征在于,所述对所述领域词库进行筛选,得到高频领域词库,包括:获取所述领域词库中每一领域词的向量表征;对所述领域词的向量表征进行聚类,得到至少两类领域词簇;获取各类所述领域词簇的频率;将所述频率大于频率阈值的所述领域词簇组成高频领域词库。4.根据权利要求2所述的方法,其特征在于,所述对所述领域词库进行补充,得到关联领域词库,包括:根据所述领域词库的领域类型对应的预设规则,查找所述领域词库中每一领域词的替换词;获取所述领域词库中每一领域词库的相似词;将所述替换词和所述相似词补充至所述领域词库,得到关联领域词库。5.根据权利要求3所述的方法,其特征在于,所述根据所述高频领域词库和所述关联领域词库构建所述第一样本集,包括:从所述历史对话数据集中查找所述领域词库中至少一个领域词所在的目标历史对话数据集;根据所述目标历史对话数据,构建包含所述高频领域词库中至少一个领域词的第一子样本;根据所述关联领域词库中的至少一个领域词,将所述目标历史对...
【专利技术属性】
技术研发人员:毛宇,黄凯,贾钱森,徐伟,张文锋,纳颖泉,
申请(专利权)人:招联消费金融有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。