一种问答库构建方法、终端设备及存储介质技术

技术编号：37298758 阅读：13 留言：0更新日期：2023-04-21 22:45

本发明专利技术涉及一种问答库构建方法、终端设备及存储介质，该方法中包括：S1：采集包含问答数据的语料存入语料库内；S2：基于局部敏感哈希算法和语义相似度计算算法，获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对；S3：针对所有相似句子对，递归查找互为相似句子对的所有句子标记为同一类别，针对每一类别中的所有句子，筛选一个标准句子和标准句子对应的多个代表句子，将各类别对应的标准句子和代表句子分类存入问答库内。本发明专利技术操作简单，时间复杂度低，计算效率高，粒度更细，可以快速构建出一个覆盖面广、语义信息丰富的问答库。答库。答库。

全部详细技术资料下载

【技术实现步骤摘要】
一种问答库构建方法、终端设备及存储介质

[0001]本专利技术涉及问答领域，尤其涉及一种问答库构建方法、终端设备及存储介质。

技术介绍

[0002]挖掘大数据中的问答数据已经成为对话领域中非常重要的课题。现在的问答数据库的常见构建方法为：(1)由人工智能训练师在海量的数据库中遍历查找，挑选出自己认为常见的问答对；(2)利用无监督的聚类方式，利用预训练模型，将海量的数据嵌入语义空间，认定语义空间中临近的句子簇为同一类。这些常见的构建方法均有不足之处：(1)人工无法有效遍历所有的数据，因此需要耗费大量的时间、人力与金钱，在信息日新月异的大数据时代，具有低效率、低性价比的缺点，不利于业务的高效冷启动与随时变化；(2)人为收集常见问答对时，往往带有人为偏差，语料库的覆盖率、丰富性难以保证；(3)采用无监督的聚类算法，一定程度上可以节省大量人力，但其过于依赖语义空间的准确性，当语义空间存在偏差时，算法认为同一类的句子，往往并不相关。事实上，通过该方法得到的句子类中，总会出现一些于该类别不相关的句子；(4)聚类算法往往需要确定类别个数等超参数，这些参数在不同的数据集上各有不同，难以调整；(5)实际业务场景往往复杂多样，如A公司会认为“B公司手机多少钱”与“C公司手机多少钱”属于同一类常见问题，而显然C公司并不可能这么认为，而这种个性化需求，无监督算法往往很难实现。

技术实现思路

[0003]为了解决上述问题，本专利技术提出了一种问答库构建方法、终端设备及存储介质。
[0004]具体方案如下：
[0...

【技术保护点】

【技术特征摘要】
1.一种问答库构建方法，其特征在于，包括以下步骤：S1：采集包含问答数据的语料存入语料库内；S2：基于局部敏感哈希算法和语义相似度计算算法，获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对；S3：针对所有相似句子对，递归查找互为相似句子对的所有句子标记为同一类别，针对每一类别中的所有句子，筛选一个标准句子和标准句子对应的多个代表句子，将各类别对应的标准句子和代表句子分类存入问答库内。2.根据权利要求1所述的问答库构建方法，其特征在于：步骤S1中还包括将语料进行数据清洗后再存入语料库内。3.根据权利要求1所述的问答库构建方法，其特征在于：步骤S2中具体过程包括：S21：通过局部敏感哈希算法计算语料库中每个句子的哈希值，并存入数据库内；S22：遍历语料库中所有句子，针对每个句子，从数据库中查询与该句子的基于哈希值的相似度大于第一相似度阈值的句子作为该句子的形式相似句子，并基于语义相似度计算算法，从该句子的所有形式相似句子中查询与该句子的语义相似度大于第二相似度阈值的句子作为该句子的语义相似句子，将该句子与其每个语义相似句子对应组成一个相似句...

【专利技术属性】
技术研发人员：江豪，肖龙源，邹辉，李威，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人