System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据检索,具体地涉及一种应用于流程工业的数据检索方法、一种应用于流程工业的数据检索装置、一种机器可读存储介质及一种电子设备。
技术介绍
1、流程工业中的数据量巨大,企业为了可以更好地管理和分析数据,常常需要进行数据检索。近年来伴随着人工智能浪潮,知识图谱作为大数据时代的产物,以其强大的知识语义表示、存储和推理能力,正推动着人工智能由感知向认知智能转变,为数据检索提供了有效的解决方案。
2、现有的数据检索一般是通过构建知识图谱,然后从自然语言问题中分析出语义信息生成查询语句,最后根据查询语句在构建的知识图谱中检索出最终答案。这种方法依赖于构建的知识图谱,最终答案只是通过在知识图谱中检索得到,答案来源是构建的知识图谱,答案来源单一,这就容易出现检索结果不够准确的问题。
技术实现思路
1、本专利技术实施例的目的是提供一种应用于流程工业的数据检索方法、一种应用于流程工业的数据检索装置、一种机器可读存储介质及一种电子设备,该应用于流程工业的数据检索方法通过综合考虑不同来源的答案,提供了更全面和精确的信息,使得到的检索结果更加准确,具有更好的鲁棒性与适应性。
2、为了实现上述目的,本申请第一方面提供一种应用于流程工业的数据检索方法,包括:
3、获取用户查询语句;
4、基于所述用户查询语句,采用预置的知识图谱进行查询,得到第一查询结果;
5、采用相似度计算方法分别计算所述用户查询语句与预置的历史问答知识数据库中的各个问题语
6、基于所述第一查询结果和第二查询结果,采用预设的经验判断规则和/或预置的答案选择模型确定得到检索结果;
7、其中,所述预置的历史问答知识数据库包含多组问答数据,每一组问答数据包括问题语句和对应的回答语句。
8、在本申请实施例中,所述用户查询语句为自然语言语句;
9、所述基于所述用户查询语句,采用预置的知识图谱进行查询,得到第一查询结果,包括:
10、对所述用户查询语句进行解析,得到知识图谱查询语句;
11、基于所述知识图谱查询语句,在预置的知识图谱中进行查询,得到匹配的实体和关系信息;
12、基于所述匹配的实体和关系信息,利用预设的答案模板生成第一查询结果。
13、在本申请实施例中,所述预置的知识图谱的三元组由实体、属性和关系组成,所述预置的知识图谱的构建过程包括:
14、获取多个数据源的流程工业相关数据;
15、对所述多个数据源的流程工业相关数据进行预处理,得到多源预处理数据;
16、从所述多源预处理数据中提取实体和关系信息,并将所述实体和关系信息组织成三元组形式,得到知识图谱;
17、其中,实体表示具体对象,属性表示实体的特征,关系表示不同实体之间的关联。
18、在本申请实施例中,所述从所述多源预处理数据中提取实体和关系信息,包括:
19、采用预置的bert-bilstm-crf模型从所述多源预处理数据中提取实体和关系信息;
20、其中,所述bert-bilstm-crf模型包括输入层、bert编码层、token嵌入层、crf标签预测层和knn检索库;所述输入层依次与所述bert编码层和token嵌入层连接,所述token嵌入层的输出端与所述knn检索库的输入端连接,所述token嵌入层的输出端和所述knn检索库的输出端分别与所述crf标签预测层的输入端连接。
21、在本申请实施例中,采用相似度计算方法计算所述用户查询语句与预置的历史问答知识数据库中的问题语句的相似度,得到问句相似度值,包括:
22、对所述用户查询语句进行特征提取,得到第一特征向量;
23、对所述预置的历史问答知识数据库中的问题语句进行特征提取,得到第二特征向量;
24、基于所述第一特征向量和第二特征向量,采用余弦相似度计算方法计算得到所述用户查询语句与问题语句的余弦相似度;
25、采用jaccard相似度计算方法计算得到所述用户查询语句与问题语句的jaccard相似度;
26、基于所述用户查询语句与问题语句的余弦相似度和所述用户查询语句与问题语句的jaccard相似度,得到问句相似度值。
27、在本申请实施例中,所述对所述预置的历史问答知识数据库中的问题语句进行特征提取,得到第二特征向量,包括:
28、将预置的历史问答知识数据库中的问题语句进行去除停用词,得到多个剩余的字;
29、分别从预置的中文词向量模型中查询得到各个剩余的字对应的字向量,并将各个剩余的字对应的字向量进行累加求平均,得到词向量;
30、调用lda主题模型对预置的历史问答知识数据库中的问题语句进行文档主题生成,得到lda向量;
31、获取所述预置的历史问答知识数据库中的问题语句的基础信息,并将所述基础信息作为基础特征向量;
32、将所述词向量、lda向量和基础特征向量进行拼接,得到第二特征向量。
33、在本申请实施例中,基于所述第一查询结果和第二查询结果,采用预设的经验判断规则确定得到检索结果,包括:
34、判断所述第二查询结果中是否存在问句相似度值大于预设的阈值的问题语句;
35、在所述第二查询结果中存在问句相似度值大于预设的阈值的问题语句的情况下,将该问题语句对应的回答语句作为检索结果;
36、在所述第二查询结果中不存在问句相似度值大于预设的阈值的问题语句的情况下,判断所述第一查询结果是否为空;
37、在所述第一查询结果为空的情况下,将所述第二查询结果中问句相似度值最大的问题语句对应的回答语句作为检索结果;
38、在所述第一查询结果不为空的情况下,将所述第一查询结果作为检索结果。
39、本申请第二方面提供一种应用于流程工业的数据检索装置,包括:
40、获取模块,用于获取用户查询语句;
41、查询模块,用于基于所述用户查询语句,采用预置的知识图谱进行查询,得到第一查询结果;
42、计算模块,用于采用相似度计算方法分别计算所述用户查询语句与预置的历史问答知识数据库中的各个问题语句的相似度,得到多个问句相似度值,并基于所述多个问句相似度值得到第二查询结果;其中,所述预置的历史问答知识数据库包含多组问答数据,每一组问答数据包括问题语句和对应的回答语句;
43、确定模块,用于基于所述第一查询结果和第二查询结果,采用预设的经验判断规则和/或预置的答案选择模型确定得到检索结果。
44、本申请第三方面提供一种电子设备,该电子设备包括:
45、至少一个处理器;
46、存储器,与所述至少一个处理器连接;
47、其中,所述存储器存储有能被所述至本文档来自技高网...
【技术保护点】
1.一种应用于流程工业的数据检索方法,其特征在于,包括:
2.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,所述用户查询语句为自然语言语句;
3.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,所述预置的知识图谱的三元组由实体、属性和关系组成,所述预置的知识图谱的构建过程包括:
4.根据权利要求3所述的应用于流程工业的数据检索方法,其特征在于,所述从所述多源预处理数据中提取实体和关系信息,包括:
5.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,采用相似度计算方法计算所述用户查询语句与预置的历史问答知识数据库中的问题语句的相似度,得到问句相似度值,包括:
6.根据权利要求5所述的应用于流程工业的数据检索方法,其特征在于,所述对所述预置的历史问答知识数据库中的问题语句进行特征提取,得到第二特征向量,包括:
7.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,基于所述第一查询结果和第二查询结果,采用预设的经验判断规则确定得到检索结果,包括:
9.一种电子设备,其特征在于,该电子设备包括:
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至7中任一项所述的应用于流程工业的数据检索方法。
...【技术特征摘要】
1.一种应用于流程工业的数据检索方法,其特征在于,包括:
2.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,所述用户查询语句为自然语言语句;
3.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,所述预置的知识图谱的三元组由实体、属性和关系组成,所述预置的知识图谱的构建过程包括:
4.根据权利要求3所述的应用于流程工业的数据检索方法,其特征在于,所述从所述多源预处理数据中提取实体和关系信息,包括:
5.根据权利要求1所述的应用于流程工业的数据检索方法,其特征在于,采用相似度计算方法计算所述用户查询语句与预置的历史问答知识数据库中的问题语句的相似度,得到问句相似度值,包括:...
【专利技术属性】
技术研发人员:郭峻东,张绪文,张瑞东,燕尽尘,王正君,庄栋梁,张天琦,
申请(专利权)人:青岛安工数联信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。