基于机器学习的问答方法、装置、电子设备及介质制造方法及图纸

技术编号:31837696 阅读:14 留言:0更新日期:2022-01-12 13:16
本发明专利技术涉及人工智能技术领域,揭露一种基于机器学习的问答方法,包括:获取第一训练问题集、第二训练问题集、第一答案特征集、第二答案特征集,通过第一和第二答案特征集分别训练得到的数学模型计算第一训练问题集的第一置信度和第二训练问题集的第二置信度;若第一训练问题集中不存在与提问语句匹配的问题,根据第一置信度和第二置信度将第一和第二答案特征集细分,直至细分后的特征子集中出现和提问语句的特征相似度大于预设相似阈值的答案特征,根据该答案特征构建提问语句的答案。本发明专利技术还涉及区块链技术,所述题库数据集可存储于区块链节点中。本发明专利技术还提出一种基于机器学习的问答装置、电子设备以及存储介质。本发明专利技术可提高问答的准确性。提高问答的准确性。提高问答的准确性。

【技术实现步骤摘要】
基于机器学习的问答方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于机器学习的问答方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在科技发达和信息爆炸的现代社会中,如何从大规模的信息中提取出人们想要的信息已成为了技术人员研究的目标,技术人员因此研发了问答模型,具体的,问答模型可以接收用户提出的问题并进行作答,可以满足用户的需求。
[0003]现有技术中,当用户提出的问题在现存的答案数据库中不存在时,无论如何对问答模型进行训练,都不能找到这些问题的正确答案,因此导致问答模型处于卡顿状态或者提供完全不相关的答案,降低问答的准确性,影响用户体验。

技术实现思路

[0004]本专利技术提供一种基于机器学习的问答方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高问答的准确性。
[0005]为实现上述目的,本专利技术提供的一种基于机器学习的问答方法,包括:
[0006]获取包含问题题库和答案题库的题库数据集,从所述题库数据集中选取存在正确候选答案的训练问题组成第一训练问题集;
[0007]从所述答案题库中获取所述第一训练问题集对应的候选答案集,提取所述候选答案集的特征,得到第一答案特征集,利用所述第一答案特征集训练预设的数学模型,得到第一数学模型,通过所述第一数学模型计算所述第一训练问题集的置信度,得到第一置信度;
[0008]利用关联度算法获取所述答案题库中与所述第一答案特征集相关的特征,得到第二答案特征集,利用所述第二答案特征集对所述预设的数学模型进行训练,得到第二数学模型,通过所述第二数学模型计算所述第一训练问题集的置信度,得到第二置信度;
[0009]获取提问语句;
[0010]若所述第一训练问题集中不存在与所述提问语句匹配的目标训练问题,则根据所述第一置信度和所述第二置信度将所述第一答案特征集和所述第二答案特征集进行细分,直至细分后的特征子集中出现和所述提问语句的特征相似度大于预设相似阈值的答案特征,并根据所述答案特征构建所述提问语句的答案;
[0011]若所述第一训练问题集中存在与所述提问语句匹配的目标训练问题,则直接将所述目标训练问题对应的候选答案作为所述提问语句的答案。
[0012]可选地,所述根据所述第一置信度和所述第二置信度将所述第一答案特征集和所述第二答案特征集进行细分,直至细分后的特征子集中出现和所述提问语句的特征相似度大于预设相似阈值的答案特征,并根据所述答案特征构建所述提问语句的答案,包括:
[0013]根据所述第一置信度将所述第一答案特征集划分为第一特征子集和第二特征子集,所述第一特征子集的置信度大于所述第一置信度,所述第二特征子集的置信度小于所
述第一置信度;
[0014]根据所述第二置信度将所述第二答案特征集划分为第三特征子集和第四特征子集,所述第三特征子集的置信度大于所述第二置信度,所述第四特征子集的置信度小于所述第二置信度;
[0015]获取所述所述提问语句的语句特征;
[0016]从所述第一特征子集、所述第二特征子集、所述第三特征子集和所述第四特征子集中查找是否存在和所述语句特征对应的答案特征;
[0017]若不存在,则将所述第一特征子集、所述第二特征子集、所述第三特征子集和所述第四特征子集继续细分直至任一特征子集中存在和所述语句特征对应的答案特征,并根据所述答案特征构建所述提问语句的答案;
[0018]若存在,则根据和所述语句特征对应的答案特征构建所述提问语句的答案。
[0019]可选地,所述若所述第一训练问题集中存在与所述提问语句匹配的目标训练问题,则直接将所述目标训练问题对应的候选答案作为所述提问语句的答案,包括:
[0020]将所述提问语句和所述第一训练问题集中的训练问题向量化,得到提问语句向量和训练问题向量集;
[0021]利用余弦相似度计算公式计算所述提问语句向量和所述训练问题向量集中各个训练问题向量之间的相似度;
[0022]若存在相似度大于预设阈值的训练问题向量,则确定所述第一训练问题集中存在和所述提问语句匹配的目标训练问题,并将相似度大于预设阈值的目标训练问题对应的候选答案作为所述提问语句的答案;
[0023]若不存在相似度大于预设阈值的训练问题向量,则确定所述第一训练问题集中不存在与所述提问语句匹配的目标训练问题。
[0024]可选地,所述提取所述候选答案集的特征,得到第一答案特征集,包括:
[0025]根据预设的停用词表将所述候选答案集中的各个候选答案进行停用词去除,得到去词答案集;
[0026]利用预设的特征提取网络提取所述去词答案集的答案特征,得到所述第一答案特征集。
[0027]可选地,所述利用预设的特征提取网络提取所述去词答案集的答案特征,得到所述第一答案特征集,包括:
[0028]将所述去词答案集中各个去词答案文本转化为字向量,得到字向量集;
[0029]将所述字向量集中各个字向量转化为矩阵,得到字向量矩阵集,并将所述字向量矩阵集中各个字向量矩阵通过预设卷积神经网络中的卷积层、池化层、和全连接层提取特征,得到所述第一答案特征集。
[0030]可选地,所述利用预设的特征提取网络提取所述去词答案集的答案特征,得到所述第一答案特征集,包括:
[0031]将所述第一训练问题集输入至所述第一数学模型进行向量转换,得到所述第一训练问题集中每个训练问题的向量;
[0032]对每个所述训练问题的向量进行归一化计算,得到每个所述训练问题的向量对应的置信度,确定所有所述训练问题的向量对应的置信度的平均值为第一置信度。
[0033]可选地,所述从所述题库数据集中选取存在正确候选答案的训练问题组成第一训练问题集,包括:
[0034]利用答案筛选法从所述候选答案集中获取所有答案为正确的候选答案,得到正确答案集;
[0035]集合所述正确答案集中的各个正确答案对应的训练问题,得到第一训练问题集。
[0036]为了解决上述问题,本专利技术还提供一种基于机器学习的问答装置,所述装置包括:
[0037]问题集构建模块,用于获取包含问题题库和答案题库的题库数据集,从所述题库数据集中选取存在正确候选答案的训练问题组成第一训练问题集;
[0038]第一置信度计算模块,用于从所述答案题库中获取所述第一训练问题集对应的候选答案集,提取所述候选答案集的特征,得到第一答案特征集,利用所述第一答案特征集训练预设的数学模型,得到第一数学模型,通过所述第一数学模型计算所述第一训练问题集的置信度,得到第一置信度;
[0039]第二置信度计算模块,用于利用关联度算法获取所述答案题库中与所述第一答案特征集相关的特征,得到第二答案特征集,利用所述第二答案特征集对所述预设的数学模型进行训练,得到第二数学模型,通过所述第二数学模型计算所述第一训练问题集的置信度,得到第二置信度;
[0040]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的问答方法,其特征在于,所述方法包括:获取包含问题题库和答案题库的题库数据集,从所述题库数据集中选取存在正确候选答案的训练问题组成第一训练问题集;从所述答案题库中获取所述第一训练问题集对应的候选答案集,提取所述候选答案集的特征,得到第一答案特征集,利用所述第一答案特征集训练预设的数学模型,得到第一数学模型,通过所述第一数学模型计算所述第一训练问题集的置信度,得到第一置信度;利用关联度算法获取所述答案题库中与所述第一答案特征集相关的特征,得到第二答案特征集,利用所述第二答案特征集对所述预设的数学模型进行训练,得到第二数学模型,通过所述第二数学模型计算所述第一训练问题集的置信度,得到第二置信度;获取提问语句;若所述第一训练问题集中不存在与所述提问语句匹配的目标训练问题,则根据所述第一置信度和所述第二置信度将所述第一答案特征集和所述第二答案特征集进行细分,直至细分后的特征子集中出现和所述提问语句的特征相似度大于预设相似阈值的答案特征,并根据所述答案特征构建所述提问语句的答案;若所述第一训练问题集中存在与所述提问语句匹配的目标训练问题,则直接将所述目标训练问题对应的候选答案作为所述提问语句的答案。2.如权利要求1所述的基于机器学习的问答方法,其特征在于,所述根据所述第一置信度和所述第二置信度将所述第一答案特征集和所述第二答案特征集进行细分,直至细分后的特征子集中出现和所述提问语句的特征相似度大于预设相似阈值的答案特征,并根据所述答案特征构建所述提问语句的答案,包括:根据所述第一置信度将所述第一答案特征集划分为第一特征子集和第二特征子集,所述第一特征子集的置信度大于所述第一置信度,所述第二特征子集的置信度小于所述第一置信度;根据所述第二置信度将所述第二答案特征集划分为第三特征子集和第四特征子集,所述第三特征子集的置信度大于所述第二置信度,所述第四特征子集的置信度小于所述第二置信度;获取所述所述提问语句的语句特征;从所述第一特征子集、所述第二特征子集、所述第三特征子集和所述第四特征子集中查找是否存在和所述语句特征对应的答案特征;若不存在,则将所述第一特征子集、所述第二特征子集、所述第三特征子集和所述第四特征子集继续细分直至任一特征子集中存在和所述语句特征对应的答案特征,并根据所述答案特征构建所述提问语句的答案;若存在,则根据和所述语句特征对应的答案特征构建所述提问语句的答案。3.如权利要求1所述的基于机器学习的问答方法,其特征在于,所述若所述第一训练问题集中存在与所述提问语句匹配的目标训练问题,则直接将所述目标训练问题对应的候选答案作为所述提问语句的答案,包括:将所述提问语句和所述第一训练问题集中的训练问题向量化,得到提问语句向量和训练问题向量集;利用余弦相似度计算公式计算所述提问语句向量和所述训练问题向量集中各个训练
问题向量之间的相似度;若存在相似度大于预设阈值的训练问题向量,则确定所述第一训练问题集中存在和所述提问语句匹配的目标训练问题,并将相似度大于预设阈值的目标训练问题对应的候选答案作为所述提问语句的答案;若不存在相似度大于预设阈值的训练问题向量,则确定所述第一训练问题集中不存在与所述提问语句匹配的目标训练问题。4.如权利要求1所述的基于机器学习的问答方法,其特征在于,所述提取所述候选答案集的特征,得到第一答案特征集,包括:根据预设的停用词表将所述候选...

【专利技术属性】
技术研发人员:吴媚洁
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1