企业知识搜索方法及装置制造方法及图纸

技术编号:39788460 阅读:12 留言:0更新日期:2023-12-22 02:27
本申请提供一种企业知识搜索方法及装置,该方法包括:将多模态的企业知识数据转换为预设格式的预设数据;针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库;通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量,从目标向量数据库中确定与搜索特征向量的相似度最高的若干个知识特征向量,输出这些知识特征向量对应的预设数据作为搜索结果

【技术实现步骤摘要】
企业知识搜索方法及装置


[0001]本申请涉及知识搜索
,具体涉及一种企业知识搜索方法及装置


技术介绍

[0002]目前的知识搜索方法中,在数据库中搭建搜索字段的索引并将知识数据插入后,数据库可以支持根据关键词匹配进行的数据检索

模糊匹配搜索等,由于大部分用户输入的原始搜索语句中的关键词无法与数据库中知识数据进行完全字符串匹配,因此还需要分析原始搜索语句的语义意图,根据语义意图在数据库中搜索对应的知识数据

此外,在存储图片数据时通常需要添加一些额外的标签,例如图片的主题

时间

说明等,通过这些文字标签搜索对应的图片数据

然而,目前的知识搜索方法对于多模态的企业知识数据难以保证搜索结果的准确性


技术实现思路

[0003]本申请提供一种企业知识搜索方法及装置,可以解决现有技术中存在的对于多模态的企业知识数据难以保证搜索结果的准确性的技术问题

[0004]第一方面,本申请实施例提供一种企业知识搜索方法,所述企业知识搜索方法包括:
[0005]将多模态的企业知识数据转换为预设格式的预设数据;
[0006]针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库;
[0007]通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量,从目标向量数据库中确定与搜索特征向量的相似度最高的若干个知识特征向量,输出这些知识特征向量对应的预设数据作为搜索结果,目标向量数据库为搜索操作所针对的向量数据库

[0008]进一步地,一实施例中,预设格式包括文本格式和图片格式;
[0009]所述针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库的步骤包括:
[0010]针对文本格式的预设数据,通过文本向量化模型将预设数据表示为文本知识特征向量,将文本知识特征向量存储于文本向量数据库;
[0011]针对图片格式的预设数据,通过图片向量化模型将预设数据表示为图片知识特征向量,将图片知识特征向量存储于图片向量数据库

[0012]进一步地,一实施例中,多模态的企业知识数据包括文档对象

三元组对象

问答对对象

图片对象和语音对象;
[0013]所述将多模态的企业知识数据转换为预设格式的预设数据的步骤包括:
[0014]将文档对象的标题与内容拼接得到文本格式的预设数据;
[0015]将三元组对象的实体与联系拼接得到文本格式的预设数据;
[0016]将问答对对象的问题与答案拼接得到文本格式的预设数据;
[0017]将图片对象作为图片格式的预设数据;
[0018]将语音对象中提取出的文本信息作为文本格式的预设数据

[0019]进一步地,一实施例中,在所述通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量的步骤之前还包括:
[0020]对用户输入的原始搜索语句进行语言转换,得到搜索输入内容,以使搜索输入内容的语言与目标向量数据库对应的向量化模型的语言相匹配

[0021]进一步地,一实施例中,在所述将多模态的企业知识数据转换为预设格式的预设数据的步骤之后还包括:
[0022]向每个预设数据分配索引
ID
构成第一键值对,将第一键值对存储于检索数据库;
[0023]所述将知识特征向量存储于向量化模型对应的向量数据库的步骤包括:
[0024]向知识特征向量分配索引
ID
构成第二键值对,将第二键值对存储于向量化模型对应的向量数据库,预设数据及其知识特征向量的索引
ID
相同;
[0025]在所述输出这些知识特征向量对应的预设数据作为搜索结果的步骤之前还包括:
[0026]根据这些知识特征向量的索引
ID
从检索数据库中确定对应的预设数据

[0027]第二方面,本申请实施例还提供一种企业知识搜索装置,所述企业知识搜索装置包括:
[0028]转换模块,用于将多模态的企业知识数据转换为预设格式的预设数据;
[0029]向量数据库构建模块,用于针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库;
[0030]搜索模块,用于通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量,从目标向量数据库中确定与搜索特征向量的相似度最高的若干个知识特征向量,输出这些知识特征向量对应的预设数据作为搜索结果,目标向量数据库为搜索操作所针对的向量数据库

[0031]进一步地,一实施例中,预设格式包括文本格式和图片格式;
[0032]所述向量数据库构建模块用于:
[0033]针对文本格式的预设数据,通过文本向量化模型将预设数据表示为文本知识特征向量,将文本知识特征向量存储于文本向量数据库;
[0034]针对图片格式的预设数据,通过图片向量化模型将预设数据表示为图片知识特征向量,将图片知识特征向量存储于图片向量数据库

[0035]进一步地,一实施例中,多模态的企业知识数据包括文档对象

三元组对象

问答对对象

图片对象和语音对象;
[0036]所述转换模块用于:
[0037]将文档对象的标题与内容拼接得到文本格式的预设数据;
[0038]将三元组对象的实体与联系拼接得到文本格式的预设数据;
[0039]将问答对对象的问题与答案拼接得到文本格式的预设数据;
[0040]将图片对象作为图片格式的预设数据;
[0041]将语音对象中提取出的文本信息作为文本格式的预设数据

[0042]进一步地,一实施例中,所述搜索模块还用于对用户输入的原始搜索语句进行语言转换,得到搜索输入内容,以使搜索输入内容的语言与目标向量数据库对应的向量化模型的语言相匹配

[0043]进一步地,一实施例中,所述企业知识搜索装置还包括检索数据库构建模块;
[0044]所述检索数据库构建模块用于向每个预设数据分配索引
ID
构成第一键值对,将第一键值对存储于检索数据库;
[0045]所述向量数据库构建模块用于向知识特征向量分配索引
ID
构成第二键值对,将第二键值对存储于向量化模型对应的向量数据库,预设数据及其知识特征向量的索引
ID
相同;
[0046]所述搜索模块还用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种企业知识搜索方法,其特征在于,所述企业知识搜索方法包括:将多模态的企业知识数据转换为预设格式的预设数据;针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库;通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量,从目标向量数据库中确定与搜索特征向量的相似度最高的若干个知识特征向量,输出这些知识特征向量对应的预设数据作为搜索结果,目标向量数据库为搜索操作所针对的向量数据库
。2.
如权利要求1所述的企业知识搜索方法,其特征在于,预设格式包括文本格式和图片格式;所述针对每种预设格式的预设数据,通过预设格式对应的向量化模型将预设数据表示为知识特征向量,将知识特征向量存储于向量化模型对应的向量数据库的步骤包括:针对文本格式的预设数据,通过文本向量化模型将预设数据表示为文本知识特征向量,将文本知识特征向量存储于文本向量数据库;针对图片格式的预设数据,通过图片向量化模型将预设数据表示为图片知识特征向量,将图片知识特征向量存储于图片向量数据库
。3.
如权利要求2所述的企业知识搜索方法,其特征在于,多模态的企业知识数据包括文档对象

三元组对象

问答对对象

图片对象和语音对象;所述将多模态的企业知识数据转换为预设格式的预设数据的步骤包括:将文档对象的标题与内容拼接得到文本格式的预设数据;将三元组对象的实体与联系拼接得到文本格式的预设数据;将问答对对象的问题与答案拼接得到文本格式的预设数据;将图片对象作为图片格式的预设数据;将语音对象中提取出的文本信息作为文本格式的预设数据
。4.
如权利要求1所述的企业知识搜索方法,其特征在于,在所述通过目标向量数据库对应的向量化模型将搜索输入内容表示为搜索特征向量的步骤之前还包括:对用户输入的原始搜索语句进行语言转换,得到搜索输入内容,以使搜索输入内容的语言与目标向量数据库对应的向量化模型的语言相匹配
。5.
如权利要求1所述的企业知识搜索方法,其特征在于,在所述将多模态的企业知识数据转换为预设格式的预设数据的步骤之后还包括:向每个预设数据分配索引
ID
构成第一键值对,将第一键值对存储于检索数据库;所述将知识特征向量存储于向量化模型对应的向量数据库的步骤包括:向知识特征向量分配索引
ID
构成第二键值对,将第二键值对存储于向量化模型对应的向量数据库,预设数据及其知识特征向量的索引
ID
相同;在所述输出这些知识特征向量对应的预设数据作为搜索结果的步...

【专利技术属性】
技术研发人员:胡波杨航张倩董逢华
申请(专利权)人:武汉天喻信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1