问答搜索方法、装置及存储介质制造方法及图纸

技术编号：38101825 阅读：35 留言：0更新日期：2023-07-06 09:20

本申请涉及人工智能技术，提供一种问答搜索方法、装置及存储介质，其中方法包括：获取目标对象对于目标问题的答案搜索请求；确定目标问题的文本特征；将文本特征输入至问答搜索模型，得到目标答案；其中，问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型，目标样本集包括第一样本集和第二样本集融合得到的样本集，第一样本集是根据历史对话数据集进行处理得到的样本集，第二样本集是根据历史对话数据集和已标注文件进行处理得到的样本集。采用本申请，可提高样本的多样性，可提高了模型对训练样本的学习广度，利于提高搜索答案的准确率。案的准确率。案的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
问答搜索方法、装置及存储介质

[0001]本申请涉及人工智能
，主要涉及了一种问答搜索方法、装置及存储介质。

技术介绍

[0002]文本的问答匹配算法主要用于客服、外呼机器人等业务场景。随着互联网的迅速发展，一些由大量人工参与的问答搜索系统逐步向自动化及人工组合的方式转变，使用自动化的问答推荐来解决部分问题，可以减少人工参与，并可以快速响应用户需求。
[0003]目前，问答搜索系统中的问答搜索模型采用的训练样本是通过人工对历史对话数据进行标注得到的。然而，实际问答场景中的某类样本，例如，负样本、困难样本等的数量较少，导致这类样本的数量较少，难以提高答案搜索的准确率低。

技术实现思路

[0004]本申请实施例提供了一种问答搜索方法、装置及存储介质，可提高样本的多样性，可提高了模型对训练样本的学习广度，利于提高搜索答案的准确率。
[0005]第一方面，本申请实施例提供一种问答搜索方法，包括：获取目标对象对于目标问题的答案搜索请求；确定目标问题的文本特征；将文本特征输入至问答搜索模型，得到目标答案；其中，问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型，目标样本集包括第一样本集和第二样本集融合得到的样本集，第一样本集是根据历史对话数据集进行处理得到的样本集，第二样本集是根据历史对话数据集和已标注文件进行处理得到的样本集。
[0006]在一个可能的示例中，还包括：对历史对话数据集进行分析，得到领域词库；对领域词库进行筛选，得到高频领域词库；对领域词库进行补充，得到关联

【技术保护点】

【技术特征摘要】
1.一种问答搜索方法，其特征在于，包括：获取目标对象对于目标问题的答案搜索请求；确定所述目标问题的文本特征；将所述文本特征输入至问答搜索模型，得到目标答案；其中，所述问答搜索模型是根据目标样本集进行训练得到的满足预设条件的模型，所述目标样本集包括第一样本集和第二样本集融合得到的样本集，所述第一样本集是根据历史对话数据集进行处理得到的样本集，所述第二样本集是根据所述历史对话数据集和已标注文件进行处理得到的样本集。2.根据权利要求1所述的方法，其特征在于，还包括：对所述历史对话数据集进行分析，得到领域词库；对所述领域词库进行筛选，得到高频领域词库；对所述领域词库进行补充，得到关联领域词库；根据所述高频领域词库和所述关联领域词库构建所述第一样本集。3.根据权利要求2所述的方法，其特征在于，所述对所述领域词库进行筛选，得到高频领域词库，包括：获取所述领域词库中每一领域词的向量表征；对所述领域词的向量表征进行聚类，得到至少两类领域词簇；获取各类所述领域词簇的频率；将所述频率大于频率阈值的所述领域词簇组成高频领域词库。4.根据权利要求2所述的方法，其特征在于，所述对所述领域词库进行补充，得到关联领域词库，包括：根据所述领域词库的领域类型对应的预设规则，查找所述领域词库中每一领域词的替换词；获取所述领域词库中每一领域词库的相似词；将所述替换词和所述相似词补充至所述领域词库，得到关联领域词库。5.根据权利要求3所述的方法，其特征在于，所述根据所述高频领域词库和所述关联领域词库构建所述第一样本集，包括：从所述历史对话数据集中查找所述领域词库中至少一个领域词所在的目标历史对话数据集；根据所述目标历史对话数据，构建包含所述高频领域词库中至少一个领域词的第一子样本；根据所述关联领域词库中的至少一个领域词，将所述目标历史对...

【专利技术属性】
技术研发人员：毛宇，黄凯，贾钱森，徐伟，张文锋，纳颖泉，
申请(专利权)人：招联消费金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人