数据分析中的实体识别方法和装置制造方法及图纸

技术编号:32558532 阅读:15 留言:0更新日期:2022-03-05 12:00
本说明书实施例提供一种数据分析中的实体识别方法和装置,方法包括:获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。能够满足数据分析中的准确性和可解释性的要求。数据分析中的准确性和可解释性的要求。数据分析中的准确性和可解释性的要求。

【技术实现步骤摘要】
数据分析中的实体识别方法和装置


[0001]本说明书一个或多个实施例涉及计算机领域,尤其涉及数据分析中的实体识别方法和装置。

技术介绍

[0002]当前,针对数据库的数据分析需求具有灵活且大量的特点,在面对一项数据分析需求时,需要先由专业人员将数据分析需求转化为计算机可以理解的结构化查询语言(structured query language,SQL)语句,然后才能由计算机通过执行该SQL语句对数据库进行相应的数据分析。
[0003]由于专业人员数量有限,对于大量的非专业人员的数据分析需求,通常也需要借助专业人员将其转化为相应的SQL语句,这一过程往往需要等待很长的时间,无法快速满足该数据分析需求。因此希望计算机能够接收用户输入的用于表达其数据分析需求的自然语言文本,通过对该自然语言文本进行实体识别,从而基于识别出的实体,理解其数据分析需求。
[0004]在数据分析领域,对数据分析结果的要求是100%准确的,相应的,对数据分析中的实体识别的要求是100%准确的,并且要求识别结果具备可解释性,现有技术中的实体识别方法均不能满足数据分析中的准确性和可解释性的要求。

技术实现思路

[0005]本说明书一个或多个实施例描述了一种数据分析中的实体识别方法和装置,能够满足数据分析中的准确性和可解释性的要求。
[0006]第一方面,提供了一种数据分析中的实体识别方法,方法包括:获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。
[0007]在一种可能的实施方式中,所述数据分析需求包括查询第一范围的所述目标数据,以及对该第一范围的所述目标数据进行第一方式的统计分析。
[0008]在一种可能的实施方式中,所述获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,包括:获取基于历史自然语言语料集合而构建的全局词典;获取基于所述目标数据归属的目标数据库的元数据信息和数据信息而构建的专有词典;所述全局词典和所述专有词典共同构成所述多个类别的实体词典。
[0009]在一种可能的实施方式中,所述多个类别包括时间类别、单位类别、意图类别、维
度类别、维值类别中的至少一个;所述维度类别对应于所述目标数据归属的目标数据库中的字段名称,所述维值类别对应于所述目标数据库中的字段的具体取值。
[0010]进一步地,所述专有词典中的各个词以三元组的形式存储,所述三元组包括数据表的名称、类别名称和字段名称。
[0011]在一种可能的实施方式中,所述执行字符与所述多个类别的实体词典中包括的词的匹配处理,包括:通过多轮迭代的方式按照顺序依次执行当前字符与所述多个类别的实体词典中包括的词的匹配处理;其中,在每一轮迭代中,将当前字符与实体词典中包括的词进行匹配,若匹配成功,则结束本轮迭代,若匹配不成功,则将当前字符与其下一个字符组合,将组合后的字符串与实体词典中包括的词进行匹配,直到匹配成功,则结束本轮迭代。
[0012]进一步地,所述将组合后的字符串与实体词典中包括的词进行匹配,包括:若组合后的字符串与实体词典中包括的目标词完全一致,则确认所述目标词为该字符串的精确匹配结果;若组合后的字符串与实体词典中包括的目标词部分一致,且该字符串属于所述目标词的前缀部分,则确认所述目标词为该字符串的前缀匹配结果;若该字符串既存在精确匹配结果,也存在前缀匹配结果,则选取精确匹配结果作为其最终的匹配结果。
[0013]进一步地,所述每一轮迭代中,将当前字符与实体词典中包括的词进行匹配之前,还包括:判断所述自然语言文本中是否存在连续数字;若判断出存在连续数字,则将该连续数字作为单个字符处理,将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配。
[0014]进一步地,所述将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配,包括若该连续数字包括中文数字且带有中文单位,则将该连续数字中的中文数字转换为阿拉伯数字;将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配。
[0015]进一步地,所述将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配,包括:将阿拉伯数字与中文单位组合后,进行数字泛化处理,得到第一泛化结果,以忽略具体数字的影响;将第一泛化结果与实体词典中包括的词进行匹配。
[0016]进一步地,所述方法还包括:若匹配结果显示该连续数字对应时间类别的实体,则判断该匹配结果的时间高位是否完整;若判断出该匹配结果的时间高位不完整,则根据当前时间补齐该匹配结果的时间高位。
[0017]第二方面,提供了一种数据分析中的实体识别装置,装置包括:第一获取单元,用于获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;
第二获取单元,用于获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;匹配单元,用于针对所述第一获取单元获取的自然语言文本中包括的字符,执行字符与所述第二获取单元获取的多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。
[0018]第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
[0019]第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
[0020]通过本说明书实施例提供的方法和装置,首先获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;然后获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;最后针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。由上可见,本说明书实施例,面对用户输入的自然语言文本,不是采用通常的深度学习方法来进行实体识别,而是针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体,其中,上述多个类别的实体词典是基于历史自然语言语料集合和所述目标数据而构建的,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关,从而有利于利用识别出的实体及其类别,理解用户的数据分析需求,并且上述识别过程能够满足数据分析中的准确性和可解释性的要求。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析中的实体识别方法,所述方法包括:获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,所述多个类别与所述目标数据的数据维度和/或数据分析意图相关;针对所述自然语言文本中包括的字符,执行字符与所述多个类别的实体词典中包括的词的匹配处理,将匹配结果作为识别出的对应类别中的实体。2.如权利要求1所述的方法,其中,所述数据分析需求包括查询第一范围的所述目标数据,以及对该第一范围的所述目标数据进行第一方式的统计分析。3.如权利要求1所述的方法,其中,所述获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典,包括:获取基于历史自然语言语料集合而构建的全局词典;获取基于所述目标数据归属的目标数据库的元数据信息和数据信息而构建的专有词典;所述全局词典和所述专有词典共同构成所述多个类别的实体词典。4.如权利要求1所述的方法,其中,所述多个类别包括时间类别、单位类别、意图类别、维度类别、维值类别中的至少一个;所述维度类别对应于所述目标数据归属的目标数据库中的字段名称,所述维值类别对应于所述目标数据库中的字段的具体取值。5.如权利要求3所述的方法,其中,所述专有词典中的各个词以三元组的形式存储,所述三元组包括数据表的名称、类别名称和字段名称。6.如权利要求1所述的方法,其中,所述执行字符与所述多个类别的实体词典中包括的词的匹配处理,包括:通过多轮迭代的方式按照顺序依次执行当前字符与所述多个类别的实体词典中包括的词的匹配处理;其中,在每一轮迭代中,将当前字符与实体词典中包括的词进行匹配,若匹配成功,则结束本轮迭代,若匹配不成功,则将当前字符与其下一个字符组合,将组合后的字符串与实体词典中包括的词进行匹配,直到匹配成功,则结束本轮迭代。7.如权利要求6所述的方法,其中,所述将组合后的字符串与实体词典中包括的词进行匹配,包括:若组合后的字符串与实体词典中包括的目标词完全一致,则确认所述目标词为该字符串的精确匹配结果;若组合后的字符串与实体词典中包括的目标词部分一致,且该字符串属于所述目标词的前缀部分,则确认所述目标词为该字符串的前缀匹配结果;若该字符串既存在精确匹配结果,也存在前缀匹配结果,则选取精确匹配结果作为其最终的匹配结果。8.如权利要求6所述的方法,其中,所述每一轮迭代中,将当前字符与实体词典中包括的词进行匹配之前,还包括:判断所述自然语言文本中是否存在连续数字;若判断出存在连续数字,则将该连续数字作为单个字符处理,将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配。9.如权利要求8所述的方法,其中,所述将该连续数字作为当前字符,执行所述将当前字符与实体词典中包括的词进行匹配,包括
若该连续数字包括中文数字且带有中文单位,则将该连续数字中的中文数字转换为阿拉伯数字;将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配。10.如权利要求9所述的方法,其中,所述将阿拉伯数字与中文单位组合后,与实体词典中包括的词进行匹配,包括:将阿拉伯数字与中文单位组合后,进行数字泛化处理,得到第一泛化结果,以忽略具体数字的影响;将第一泛化结果与实体词典中包括的词进行匹配。11.如权利要求10所述的方法,其中,所述方法还包括:若匹配结果显示该连续数字对应时间类别的实体,则判断该匹配结果的时间高位是否完整;若判断出该匹配结果的时间高位不完整,则根据当前时间补齐该匹配结果的时间高位。12.一种数据分析中的实体识别装置,所述装置包括:第一获取单元,用于获取用户输入的自然语言文本,所述自然语言文本用于表达用户对目标数据的数据分析需求;第二获取单元,用于获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词...

【专利技术属性】
技术研发人员:田有朋刘海波李俊黄亚东王小卫朱文嘉
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1