数据分析中的实体识别方法和装置制造方法及图纸

技术编号：32558532 阅读：15 留言：0更新日期：2022-03-05 12:00

本说明书实施例提供一种数据分析中的实体识别方法和装置，方法包括：获取用户输入的自然语言文本，所述自然语言文本用于表达用户对目标数据的数据分析需求；获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典，所述多个类别与所述目标数据的数据维度和/或数据分析意图相关；针对所述自然语言文本中包括的字符，执行字符与所述多个类别的实体词典中包括的词的匹配处理，将匹配结果作为识别出的对应类别中的实体。能够满足数据分析中的准确性和可解释性的要求。数据分析中的准确性和可解释性的要求。数据分析中的准确性和可解释性的要求。

全部详细技术资料下载

【技术实现步骤摘要】
数据分析中的实体识别方法和装置

[0001]本说明书一个或多个实施例涉及计算机领域，尤其涉及数据分析中的实体识别方法和装置。

技术介绍

[0002]当前，针对数据库的数据分析需求具有灵活且大量的特点，在面对一项数据分析需求时，需要先由专业人员将数据分析需求转化为计算机可以理解的结构化查询语言（structured query language,SQL）语句，然后才能由计算机通过执行该SQL语句对数据库进行相应的数据分析。
[0003]由于专业人员数量有限，对于大量的非专业人员的数据分析需求，通常也需要借助专业人员将其转化为相应的SQL语句，这一过程往往需要等待很长的时间，无法快速满足该数据分析需求。因此希望计算机能够接收用户输入的用于表达其数据分析需求的自然语言文本，通过对该自然语言文本进行实体识别，从而基于识别出的实体，理解其数据分析需求。
[0004]在数据分析领域，对数据分析结果的要求是100%准确的，相应的，对数据分析中的实体识别的要求是100%准确的，并且要求识别结果具备可解释性，现有技术中的实体识别方法均不能满足数据分析中的准确性和可解释性的要求。

技术实现思路

[0005]本说明书一个或多个实施例描述了一种数据分析中的实体识别方法和装置，能够满足数据分析中的准确性和可解释性的要求。
[0006]第一方面，提供了一种数据分析中的实体识别方法，方法包括：获取用户输入的自然语言文本，所述自然语言文本用于表达用户对目标数据的数据分析需求；获取基于历史自然语言语料集合和所述...

【技术保护点】

【技术特征摘要】
1.一种数据分析中的实体识别方法，所述方法包括：获取用户输入的自然语言文本，所述自然语言文本用于表达用户对目标数据的数据分析需求；获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典，所述多个类别与所述目标数据的数据维度和/或数据分析意图相关；针对所述自然语言文本中包括的字符，执行字符与所述多个类别的实体词典中包括的词的匹配处理，将匹配结果作为识别出的对应类别中的实体。2.如权利要求1所述的方法，其中，所述数据分析需求包括查询第一范围的所述目标数据，以及对该第一范围的所述目标数据进行第一方式的统计分析。3.如权利要求1所述的方法，其中，所述获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词典，包括：获取基于历史自然语言语料集合而构建的全局词典；获取基于所述目标数据归属的目标数据库的元数据信息和数据信息而构建的专有词典；所述全局词典和所述专有词典共同构成所述多个类别的实体词典。4.如权利要求1所述的方法，其中，所述多个类别包括时间类别、单位类别、意图类别、维度类别、维值类别中的至少一个；所述维度类别对应于所述目标数据归属的目标数据库中的字段名称，所述维值类别对应于所述目标数据库中的字段的具体取值。5.如权利要求3所述的方法，其中，所述专有词典中的各个词以三元组的形式存储，所述三元组包括数据表的名称、类别名称和字段名称。6.如权利要求1所述的方法，其中，所述执行字符与所述多个类别的实体词典中包括的词的匹配处理，包括：通过多轮迭代的方式按照顺序依次执行当前字符与所述多个类别的实体词典中包括的词的匹配处理；其中，在每一轮迭代中，将当前字符与实体词典中包括的词进行匹配，若匹配成功，则结束本轮迭代，若匹配不成功，则将当前字符与其下一个字符组合，将组合后的字符串与实体词典中包括的词进行匹配，直到匹配成功，则结束本轮迭代。7.如权利要求6所述的方法，其中，所述将组合后的字符串与实体词典中包括的词进行匹配，包括：若组合后的字符串与实体词典中包括的目标词完全一致，则确认所述目标词为该字符串的精确匹配结果；若组合后的字符串与实体词典中包括的目标词部分一致，且该字符串属于所述目标词的前缀部分，则确认所述目标词为该字符串的前缀匹配结果；若该字符串既存在精确匹配结果，也存在前缀匹配结果，则选取精确匹配结果作为其最终的匹配结果。8.如权利要求6所述的方法，其中，所述每一轮迭代中，将当前字符与实体词典中包括的词进行匹配之前，还包括：判断所述自然语言文本中是否存在连续数字；若判断出存在连续数字，则将该连续数字作为单个字符处理，将该连续数字作为当前字符，执行所述将当前字符与实体词典中包括的词进行匹配。9.如权利要求8所述的方法，其中，所述将该连续数字作为当前字符，执行所述将当前字符与实体词典中包括的词进行匹配，包括
若该连续数字包括中文数字且带有中文单位，则将该连续数字中的中文数字转换为阿拉伯数字；将阿拉伯数字与中文单位组合后，与实体词典中包括的词进行匹配。10.如权利要求9所述的方法，其中，所述将阿拉伯数字与中文单位组合后，与实体词典中包括的词进行匹配，包括：将阿拉伯数字与中文单位组合后，进行数字泛化处理，得到第一泛化结果，以忽略具体数字的影响；将第一泛化结果与实体词典中包括的词进行匹配。11.如权利要求10所述的方法，其中，所述方法还包括：若匹配结果显示该连续数字对应时间类别的实体，则判断该匹配结果的时间高位是否完整；若判断出该匹配结果的时间高位不完整，则根据当前时间补齐该匹配结果的时间高位。12.一种数据分析中的实体识别装置，所述装置包括：第一获取单元，用于获取用户输入的自然语言文本，所述自然语言文本用于表达用户对目标数据的数据分析需求；第二获取单元，用于获取基于历史自然语言语料集合和所述目标数据而构建的多个类别的实体词...

【专利技术属性】
技术研发人员：田有朋，刘海波，李俊，黄亚东，王小卫，朱文嘉，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人