表搜索方法、装置、设备及存储介质制造方法及图纸

技术编号:35873149 阅读:18 留言:0更新日期:2022-12-07 11:09
本发明专利技术涉及数据处理技术,揭露了一种表搜索方法、装置、电子设备以及存储介质,所述方法包括:对获取的用户输入进行类型识别,对类型识别结果为文本输入的进行数据清洗,对清洗数据抽取实体得到的输入实体进行向量计算得到第一表示向量,对预设的表数据库中的表进行向量计算得到第二表示向量,根据第一及第二表示向量相似度计算的结果从表数据库中选取匹配表;若类型识别结果为表输入,分别根据对用户输入及表数据库中的每个表进行表列名识别及内容识别的结果计算每个表的表列名相关度及内容相关度;根据表列名相关度及内容相关度进行综合打分得到的综合相关度从表数据库中选取匹配表。本发明专利技术可以提高用户输入的表搜索效率及准确率。率及准确率。率及准确率。

【技术实现步骤摘要】
表搜索方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种表搜索方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]面对海量的数据,用户往往需要从中精准搜索到有效数据,表作为重要的数据存储方式之一,便成为用户搜索对象的载体。在使用过程中,表中既存在有效数据又含有大量的干扰数据,因此快速识别用户输入、精准匹配数据并满足用户需求有助于提高表搜索的高效性和精准性。现有的表搜索技术由于支持搜索的对象单一,缺乏完善的匹配机制,导致了基于用户输入的表搜索效率低以及准确率低的问题,从而很难满足用户对所需数据的高效获取。

技术实现思路

[0003]本专利技术提供一种表搜索方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决基于用户输入的表搜索效率低以及准确率低的问题。
[0004]为实现上述目的,本专利技术提供的一种表搜索方法,包括:
[0005]获取用户输入,对所述用户输入进行类型识别,根据类型识别的结果判断所述用户输入为文本输入还是表输入;
[0006]当所述用户输入为文本输入时,对所述用户输入进行数据清洗,得到清洗数据,从所述清洗数据中抽取实体,得到输入实体;
[0007]对所述输入实体及预设的表数据库中的表进行向量计算,得到所述输入实体的第一表示向量以及所述表数据库中表的第二表示向量;
[0008]对所述第一表示向量以及所述第二表示向量进行相似度计算,根据相似度计算的结果从所述表数据库中选取匹配表;
[0009]当所述用户输入为表输入时,分别对所述用户输入以及所述表数据库中的每个表进行表列名识别和内容识别,并根据表列名识别的结果及内容识别的结果计算每个表的表列名相关度及内容相关度;
[0010]根据所述表列名相关度及所述内容相关度进行综合打分,得到综合相关度,通过所述综合相关度从所述表数据库中选取匹配表。
[0011]可选地,所述对所述用户输入进行类型识别,根据类型识别的结果判断所述用户输入为文本输入还是表输入,包括:
[0012]提取所述用户输入的数据格式,得到目标数据格式;
[0013]利用所述目标数据格式在预设的文本数据格式集合及预设的表数据格式集合中进行同类检索,得到匹配类型;
[0014]若所述匹配类型属于所述文本数据格式集合,则判定所述用户输入为文本输入;
[0015]若所述匹配类型属于所述表数据格式集合,则判定所述用户输入为表输入。
[0016]可选地,所述对所述用户输入进行数据清洗,得到清洗数据,包括:
[0017]根据预设的文本规则对所述用户输入进行句法分析,得到干扰数据;
[0018]对所述干扰数据进行过滤及数据纠正,得到清洗数据。
[0019]可选地,所述从所述清洗数据中抽取实体,得到输入实体,包括:
[0020]对所述清洗数据进行词性分析及分词处理,得到输入分词以及对应的词性;
[0021]获取预设的停用词性标签,根据所述词性标签所述输入分词的词性对所述输入分词进行筛选,得到标准分词;
[0022]利用所述标准分词在预设的实体数据库中进行检索,并将检索到的标准分词作为输入实体。
[0023]可选地,所述对所述输入实体及预设的表数据库中的表进行向量计算,得到所述输入实体的第一表示向量以及所述表数据库中表的第二表示向量,包括:
[0024]对所述输入实体进行词向量转换,得到所述输入实体对应的词向量;
[0025]对所述词向量进行加权平均,得到所述输入实体的第一表示向量;
[0026]获取所述表数据库中的表所对应的表字段,对所述表字段进行向量转换,得到所述表字段对应的表字段向量;
[0027]根据所述表字段的词频及表频率生成所述表字段对应的权重系数,并根据所述表字段向量及所述权重系数进行向量综合计算,得到所述表数据库中表的第二表示向量。
[0028]可选地,所述根据所述表字段向量及所述权重系数进行向量综合计算,得到所述表数据库中表的第二表示向量,包括:
[0029]利用下式根据所述表字段向量及所述权重系数进行向量综合计算:
[0030][0031]其中,为所述表数据库中的表所对应的第j个表字段j=1,2,3,

,N(N为自然数);w(t
j
)为第j个表字段的权重系数;为所述表数据库中表的第二表示向量。
[0032]可选地,所述根据表列名识别的结果及内容识别的结果计算每个表的表列名相关度及内容相关度,包括:
[0033]利用下式根据表列名识别的结果计算每个表的表列名相关度:
[0034][0035]其中,H为表列名识别的标识;为所述表列名识别的结果中用户输入的表列名数据;为所述表列名识别的结果中表数据库的第i个表的表列名数据;为表数据库中第i个表的表列名相关度。
[0036]利用下式根据内容识别的结果计算每个表的内容相关度:
[0037][0038]其中,C为内容识别的标识;为所述内容识别的结果中用户输入的内容数据;为所述内容识别的结果中表数据库第i个表的内容数据;为表数据库中第i个表的内容相关度。
[0039]为了解决上述问题,本专利技术还提供一种表搜索装置,所述装置包括:
[0040]类型识别模块,用于获取用户输入,对所述用户输入进行类型识别,根据类型识别的结果判断所述用户输入为文本输入还是表输入;
[0041]输入实体生成模块,用于当所述用户输入为文本输入时,对所述用户输入进行数据清洗,得到清洗数据,从所述清洗数据中抽取实体,得到输入实体;
[0042]向量计算模块,用于对所述输入实体及预设的表数据库中的表进行向量计算,得到所述输入实体的第一表示向量以及所述表数据库中表的第二表示向量;
[0043]相似度计算模块,用于对所述第一表示向量以及所述第二表示向量进行相似度计算,根据相似度计算的结果从所述表数据库中选取匹配表;
[0044]相关度生成模块,用于当所述用户输入为表输入时,分别对所述用户输入以及所述表数据库中的每个表进行表列名识别和内容识别,并根据表列名识别的结果及内容识别的结果计算每个表的表列名相关度及内容相关度;
[0045]综合打分模块,用于根据所述表列名相关度及所述内容相关度进行综合打分,得到综合相关度,通过所述综合相关度从所述表数据库中选取匹配表。
[0046]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0047]至少一个处理器;以及,
[0048]与所述至少一个处理器通信连接的存储器;其中,
[0049]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的表搜索方法。
[0050]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表搜索方法,其特征在于,所述方法包括:获取用户输入,对所述用户输入进行类型识别,根据类型识别的结果判断所述用户输入为文本输入还是表输入;当所述用户输入为文本输入时,对所述用户输入进行数据清洗,得到清洗数据,从所述清洗数据中抽取实体,得到输入实体;对所述输入实体及预设的表数据库中的表进行向量计算,得到所述输入实体的第一表示向量以及所述表数据库中表的第二表示向量;对所述第一表示向量以及所述第二表示向量进行相似度计算,根据相似度计算的结果从所述表数据库中选取匹配表;当所述用户输入为表输入时,分别对所述用户输入以及所述表数据库中的每个表进行表列名识别和内容识别,并根据表列名识别的结果及内容识别的结果计算每个表的表列名相关度及内容相关度;根据所述表列名相关度及所述内容相关度进行综合打分,得到综合相关度,通过所述综合相关度从所述表数据库中选取匹配表。2.如权利要求1所述的表搜索方法,其特征在于,所述对所述用户输入进行类型识别,根据类型识别的结果判断所述用户输入为文本输入还是表输入,包括:提取所述用户输入的数据格式,得到目标数据格式;利用所述目标数据格式在预设的文本数据格式集合及预设的表数据格式集合中进行同类检索,得到匹配类型;若所述匹配类型属于所述文本数据格式集合,则判定所述用户输入为文本输入;若所述匹配类型属于所述表数据格式集合,则判定所述用户输入为表输入。3.如权利要求1所述的表搜索方法,其特征在于,所述对所述用户输入进行数据清洗,得到清洗数据,包括:根据预设的文本规则对所述用户输入进行句法分析,得到干扰数据;对所述干扰数据进行过滤及数据纠正,得到清洗数据。4.如权利要求1所述的表搜索方法,其特征在于,所述从所述清洗数据中抽取实体,得到输入实体,包括:对所述清洗数据进行词性分析及分词处理,得到输入分词以及对应的词性;获取预设的停用词性标签,根据所述词性标签所述输入分词的词性对所述输入分词进行筛选,得到标准分词;利用所述标准分词在预设的实体数据库中进行检索,并将检索到的标准分词作为输入实体。5.如权利要求1所述的表搜索方法,其特征在于,所述对所述输入实体及预设的表数据库中的表进行向量计算,得到所述输入实体的第一表示向量以及所述表数据库中表的第二表示向量,包括:对所述输入实体进行词向量转换,得到所述输入实体对应的词向量;对所述词向量进行加权平均,得到所述输入实体的第一表示向量;获取所述表数据库中的表所对应的表字段,对所述表字段进行向量转换,得到所述表字段对应的表字段向量;
根据所述表字段的词频及表频率生成所述表字段对应的权重系数,并根据所述表字段向量及所述权重系数进行向量综合计算,得到所述表数据库中表的第二表示向量。6.如权利要求5...

【专利技术属性】
技术研发人员:陈先丽王阳刘屹李楠王皖麟孙猛
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1