一种问答库构建方法、终端设备及存储介质技术

技术编号:37298758 阅读:13 留言:0更新日期:2023-04-21 22:45
本发明专利技术涉及一种问答库构建方法、终端设备及存储介质,该方法中包括:S1:采集包含问答数据的语料存入语料库内;S2:基于局部敏感哈希算法和语义相似度计算算法,获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对;S3:针对所有相似句子对,递归查找互为相似句子对的所有句子标记为同一类别,针对每一类别中的所有句子,筛选一个标准句子和标准句子对应的多个代表句子,将各类别对应的标准句子和代表句子分类存入问答库内。本发明专利技术操作简单,时间复杂度低,计算效率高,粒度更细,可以快速构建出一个覆盖面广、语义信息丰富的问答库。答库。答库。

【技术实现步骤摘要】
一种问答库构建方法、终端设备及存储介质


[0001]本专利技术涉及问答领域,尤其涉及一种问答库构建方法、终端设备及存储介质。

技术介绍

[0002]挖掘大数据中的问答数据已经成为对话领域中非常重要的课题。现在的问答数据库的常见构建方法为:(1)由人工智能训练师在海量的数据库中遍历查找,挑选出自己认为常见的问答对;(2)利用无监督的聚类方式,利用预训练模型,将海量的数据嵌入语义空间,认定语义空间中临近的句子簇为同一类。这些常见的构建方法均有不足之处:(1)人工无法有效遍历所有的数据,因此需要耗费大量的时间、人力与金钱,在信息日新月异的大数据时代,具有低效率、低性价比的缺点,不利于业务的高效冷启动与随时变化;(2)人为收集常见问答对时,往往带有人为偏差,语料库的覆盖率、丰富性难以保证;(3)采用无监督的聚类算法,一定程度上可以节省大量人力,但其过于依赖语义空间的准确性,当语义空间存在偏差时,算法认为同一类的句子,往往并不相关。事实上,通过该方法得到的句子类中,总会出现一些于该类别不相关的句子;(4)聚类算法往往需要确定类别个数等超参数,这些参数在不同的数据集上各有不同,难以调整;(5)实际业务场景往往复杂多样,如A公司会认为“B公司手机多少钱”与“C公司手机多少钱”属于同一类常见问题,而显然C公司并不可能这么认为,而这种个性化需求,无监督算法往往很难实现。

技术实现思路

[0003]为了解决上述问题,本专利技术提出了一种问答库构建方法、终端设备及存储介质。
[0004]具体方案如下:
[0005]一种问答库构建方法,包括以下步骤:
[0006]S1:采集包含问答数据的语料存入语料库内;
[0007]S2:基于局部敏感哈希算法和语义相似度计算算法,获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对;
[0008]S3:针对所有相似句子对,递归查找互为相似句子对的所有句子标记为同一类别,针对每一类别中的所有句子,筛选一个标准句子和标准句子对应的多个代表句子,将各类别对应的标准句子和代表句子分类存入问答库内。
[0009]进一步的,步骤S1中还包括将语料进行数据清洗后再存入语料库内。
[0010]进一步的,步骤S2中具体过程包括:
[0011]S21:通过局部敏感哈希算法计算语料库中每个句子的哈希值,并存入数据库内;
[0012]S22:遍历语料库中所有句子,针对每个句子,从数据库中查询与该句子的基于哈希值的相似度大于第一相似度阈值的句子作为该句子的形式相似句子,并基于语义相似度计算算法,从该句子的所有形式相似句子中查询与该句子的语义相似度大于第二相似度阈值的句子作为该句子的语义相似句子,将该句子与其每个语义相似句子对应组成一个相似句子对。
[0013]进一步的,步骤S3中标准句子的筛选方法为:设定相似句子对中一个句子为另一个句子的召回句子,根据步骤S2得到的相似句子对,提取一类别的所有句子中每个句子对应的召回句子的数量,将召回句子数量最多的句子作为该类别的标准句子。
[0014]进一步的,步骤S3中标准句子对应的多个代表句子的筛选方法为:在标准句子的所有召回句子中,计算每个召回句子对应的相似句子对的数量,根据预设的数量阈值,将相似句子对数量大于数量阈值的召回句子作为标准句子的代表句子。
[0015]进一步的,还包括S4:为问答库内的每个句子配置标准答案。
[0016]一种问答库构建终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0017]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0018]本专利技术采用如上技术方案,操作简单,时间复杂度低,计算效率高,粒度更细,可以快速构建出一个覆盖面广、语义信息丰富的问答库。
附图说明
[0019]图1所示为本专利技术实施例一的流程图。
具体实施方式
[0020]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0021]现结合附图和具体实施方式对本专利技术进一步说明。
[0022]实施例一:
[0023]本专利技术实施例提供了一种问答库构建方法,如图1所示,所述方法包括以下步骤:
[0024]S1:采集包含问答数据的语料存入语料库内。
[0025]由于语料中往往包括一些无效字符,如停用词、无关的空格、颜文字等等,而这些无效字符可能会对后续相似度的计算造成影响,因此,该实施例中还包括将语料进行数据清洗后再存入语料库内。如该实施例中将“怀孕三个月了适合什么流产方式呢???”数据清洗为“怀孕三个月适合什么流产方式呢?”。
[0026]S2:基于局部敏感哈希(Locality

Sensitive Hashing,LSH)算法和语义相似度计算算法,获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对。
[0027]局部敏感哈希是一种用于海量高维数据的近似最近邻快速查找技术,可以快速地从海量的高维数据集合中找到与某个句子最相似(距离最近)的一个句子或多个句子。通过局部敏感哈希算法采用的亚线性的时间复杂度可以避免每两个句子之间的相似度对比,极大的加快了计算速度。由于局部敏感哈希算法仅仅基于字面相似进行句子间相似度的计算,并未结合语义相似进行查询,因此还需要通过语义相似度计算算法进行的语义相似度的计算。
[0028]步骤S2中具体过程包括:
[0029]S21:通过局部敏感哈希算法计算语料库中每个句子的哈希值,并存入数据库内。
[0030]S22:遍历语料库中所有句子,针对每个句子,从数据库中查询与该句子的基于哈希值的相似度大于第一相似度阈值的句子作为该句子的形式相似句子,并基于语义相似度计算算法,从该句子的所有形式相似句子中查询与该句子的语义相似度大于第二相似度阈值的句子作为该句子的语义相似句子,将该句子与其每个语义相似句子对应组成一个相似句子对。
[0031]第一相似度阈值和第二相似度阈值的大小本领域技术人员可以根据需求自行设定,在此不做限制。语义相似度计算算法可以采用常用的语义相似度计算算法即可。
[0032]如语料库中的句子有(A,B,C,D,E,F,G,H,I),从数据库中查询得到的相似度大于第一相似度阈值的句子有:

AC,AD,AF;

CD,CF;

DC,DF;

EG;

FA,FD,FC;

GE。基于语义相似度进行二次筛选后的结果为:

AC,A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答库构建方法,其特征在于,包括以下步骤:S1:采集包含问答数据的语料存入语料库内;S2:基于局部敏感哈希算法和语义相似度计算算法,获取语料库中每个句子的形式相似且语义相似的句子并组成相似句子对;S3:针对所有相似句子对,递归查找互为相似句子对的所有句子标记为同一类别,针对每一类别中的所有句子,筛选一个标准句子和标准句子对应的多个代表句子,将各类别对应的标准句子和代表句子分类存入问答库内。2.根据权利要求1所述的问答库构建方法,其特征在于:步骤S1中还包括将语料进行数据清洗后再存入语料库内。3.根据权利要求1所述的问答库构建方法,其特征在于:步骤S2中具体过程包括:S21:通过局部敏感哈希算法计算语料库中每个句子的哈希值,并存入数据库内;S22:遍历语料库中所有句子,针对每个句子,从数据库中查询与该句子的基于哈希值的相似度大于第一相似度阈值的句子作为该句子的形式相似句子,并基于语义相似度计算算法,从该句子的所有形式相似句子中查询与该句子的语义相似度大于第二相似度阈值的句子作为该句子的语义相似句子,将该句子与其每个语义相似句子对应组成一个相似句...

【专利技术属性】
技术研发人员:江豪肖龙源邹辉李威
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1