一种提取限定词的方法、系统及电子设备技术方案

技术编号:37074379 阅读:12 留言:0更新日期:2023-03-29 19:51
本申请公开了一种提取限定词的方法、系统及电子设备,该方法包括:获取当前业务信息表中的N个数据项;按照数据项处理操作对N个数据项进行属性转化,得到N个输入文本;将N个输入文本输入目标模型,得到N个数据项各自对应的第一限定词;通过过滤N个数据项各自对应的第一限定词中的预设内容,确定N个数据项各自对应的目标限定词,提取N个数据项各自对应的目标限定词。通过本申请实施例提供的技术方案,避免了基于人工经验来匹配限定词与数据信息,进而提高了限定词的提取效率与提取准确率。进而提高了限定词的提取效率与提取准确率。进而提高了限定词的提取效率与提取准确率。

【技术实现步骤摘要】
一种提取限定词的方法、系统及电子设备


[0001]本申请涉及数据分析和数据治理
,尤其涉及一种提取限定词的方法、系统及电子设备。

技术介绍

[0002]随着互联网技术的普及和发展,数据种类逐渐多样化。由于数据形式以及数据内容均具有多样性,使得原始数据在接入大数据系统后,增加了数据的整合难度,从而无法真正的实现数据的快捷使用,因此,迫切需要一套完整的数据管理系统来对数据进行管理。
[0003]在数据管理系统包含的各个子系统中,各个子系统相对独立且数据录入时针对数据项名称的录入标准不统一,使得各个子系统的数据杂乱,进而导致用户难以根据数据项名称快速、准确的获取自己需要的数据。因此,在数据管理系统中,针对各种各样的数据采用标准化的数据项命名极具重要性。
[0004]目前,传统的标准化数据项命名是通过人工提取数据项中的数据信息的限定词的方式来对数据项进行标准化命名。在人工提取限定词来标准化命名数据项的过程中,操作人员基于自身经验来确定数据项中的数据信息对应的限定词以及数据元,进而实现对数据项的标准化命名。
[0005]例如,在图1所示的待处理的原业务信息表中,首先操作人员根据数据元的数据库确定四个数据项中对应的数据元均为姓名;然后操作人员根据数据项的具体数据信息,并依据自身经验提取四个数据项中的限定词为父亲、母亲、配偶以及子女,进而将四个数据项名称分别设置为父亲_姓名、母亲_姓名、配偶_姓名以及子女_姓名。
[0006]然而,在提取限定词时,通过人工的方式提取描述数据项的限定词时,若数据项的数量较多,则需要耗费大量时间来匹配限定词与数据信息,导致限定词的提取效率较低;并且,基于人工经验来提取限定词不具客观性,比如操作人员A依据自身经验将图1中第三列的限定词设置为配偶,而操作人员B依据自身经验将第三列的限定词设置为兄弟,使得限定词的提取极具主观性,进而导致限定词的提取准确率较低。

技术实现思路

[0007]本申请提供了一种,用以解决提取限定词时效率低以及准确率低的问题。具体实现方案如下:
[0008]第一方面,本申请提供了一种提取限定词的方法,所述方法包括:
[0009]获取当前业务信息表中的N个数据项,其中,N是大于零的整数;
[0010]按照数据项处理操作对所述N个数据项进行属性转化,得到N个输入文本;
[0011]将所述N个输入文本输入目标模型,得到所述N个数据项各自对应的第一限定词;
[0012]通过过滤所述N个数据项各自对应的第一限定词中的预设内容,确定所述N个数据项各自对应的目标限定词,提取所述N个数据项各自对应的目标限定词。
[0013]通过数据项处理操作对业务信息表中的数据项进行属性转化,将转化后得到的中
文字段和数据元作为输入文本,并输入符合预设条件的目标模型,针对输出的第一限定词过滤其中的预设内容,得到了目标限定词,避免了基于人工经验来匹配限定词与数据信息,从而降低了人力成本,并减少了由于人为经验导致的错误,进而提高了限定词的提取效率与提取准确率。
[0014]在一种可能的实施方式中,在所述获取当前业务信息表中的N个数据项前,还包括:
[0015]获取历史业务信息表中的M个数据项,其中,M是大于零的整数;
[0016]按照数据项处理操作对所述M个数据项进行属性转化,得到M个训练文本;
[0017]通过所述M个训练文本训练第一模型,得到第二模型,其中,所述第一模型是深度学习模型;
[0018]若所述第二模型符合第一预设条件,将所述第二模型作为目标模型。
[0019]通过对模型进行训练确定了模型的各个参数,使得模型可以直接用于限定词的提取,并基于第一预设条件确定了目标模型,使得目标模型是深度学习模型集合中提取限定词的准确率最高或者提取限定词的误差最低的一个模型,进一步的提高了限定词的提取准确率。
[0020]在一种可能的实施方式中,所述按照数据项处理操作对所述N个数据项进行属性转化,得到N个输入文本,包括:
[0021]针对所述N个数据项中的每一个数据项,均执行以下数据项处理操作:
[0022]获取数据项中的中文字段以及数据元;
[0023]过滤所述中文字段中的第一指定数据,得到第一中文字段;
[0024]基于所述目标模型中的数据属性,将所述数据元以及所述第一中文字段转化为词向量格式的输入文本;
[0025]在对所述N个数据项中的每一个数据项均执行所述数据项处理操作后,得到N个输入文本。
[0026]通过数据项处理操作过滤了数据项中的冗余描述信息与无关标识符,并且将数据项转化为了符合目标模型输入属性的词向量格式的输入文本,避免了干扰数据对模型预测的影响,进一步的提高了限定词的提取准确率。
[0027]在一种可能的实施方式中,所述过滤所述中文字段中的第一指定数据,包括:
[0028]判断所述中文字段是否包含英文;
[0029]若是,通过中文释义映射将所述英文中的第二指定数据转化为中文,得到第二中文字段,过滤所述第二中文字段中的第一指定数据;
[0030]若否,过滤所述中文字段中的所述第一指定数据。
[0031]通过判断中文字段是否包含英文确定了是否需要进行中文释义映射,在包含英文时,先通过中文释义映射将除具有业务信息以外的英文映射为中文后才过滤第一指定数据,在不包含英文时就可以直接过滤第一指定数据,避免了不必要的英文数据对模型预测的影响,进一步的提高了目标模型提取限定词时的准确率。
[0032]在一种可能的实施方式中,所述将所述数据元以及所述第一中文字段转化为词向量格式的输入文本,包括:
[0033]判断所述数据元以及所述第一中文字段是否符合第二预设条件;
[0034]若是,将所述数据元以及所述第一中文字段共同对应的数据项标记为指定数据项,并将所述数据元以及所述第一中文字段转化为词向量格式的输入文本;
[0035]若否,将所述数据元以及所述第一中文字段转化为词向量格式的输入文本。
[0036]通过判断数据元以及第一中文字段是否符合第一中文字段为空或数据元是“名称”的第二预设条件,确定了是否要将该数据元以及该第一中文字段对应的数据项标记出来,以此来确定数据项是否需要提取限定词,进而实现了对数据项的异常情况的筛选,然后才将该数据元以及该第一中文字段转化为词向量格式的输入文本,避免了在数据项命名时对没有限定词或不存在限定词说法的数据项还要进行标准化命名的问题,进一步的提高了限定词提取的准确率。
[0037]在一种可能的实施方式中,在所述提取所述N个数据项各自对应的目标限定词后,还包括:
[0038]针对所述N个数据项中的每一个数据项,均执行以下命名操作:
[0039]判断数据项是否为指定数据项;
[0040]若是,过滤所述数据项,确定所述数据项对应的名称预测值为空;
[0041]若否,基于所述数据项对应的数据元以及所述数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提取限定词的方法,其特征在于,所述方法包括:获取当前业务信息表中的N个数据项,其中,N是大于零的整数;按照数据项处理操作对所述N个数据项进行属性转化,得到N个输入文本;将所述N个输入文本输入目标模型,得到所述N个数据项各自对应的第一限定词;通过过滤所述N个数据项各自对应的第一限定词中的预设内容,确定所述N个数据项各自对应的目标限定词,提取所述N个数据项各自对应的目标限定词。2.如权利要求1所述的方法,其特征在于,在所述获取当前业务信息表中的N个数据项前,还包括:获取历史业务信息表中的M个数据项,其中,M是大于零的整数;按照数据项处理操作对所述M个数据项进行属性转化,得到M个训练文本;通过所述M个训练文本训练第一模型,得到第二模型,其中,所述第一模型是深度学习模型;若所述第二模型符合第一预设条件,将所述第二模型作为目标模型。3.如权利要求1所述的方法,其特征在于,所述按照数据项处理操作对所述N个数据项进行属性转化,得到N个输入文本,包括:针对所述N个数据项中的每一个数据项,均执行以下数据项处理操作:获取数据项中的中文字段以及数据元;过滤所述中文字段中的第一指定数据,得到第一中文字段;基于所述目标模型中的数据属性,将所述数据元以及所述第一中文字段转化为词向量格式的输入文本;在对所述N个数据项中的每一个数据项均执行所述数据项处理操作后,得到N个输入文本。4.如权利要求3所述的方法,其特征在于,所述过滤所述中文字段中的第一指定数据,包括:判断所述中文字段是否包含英文;若是,通过中文释义映射将所述英文中的第二指定数据转化为中文,得到第二中文字段,过滤所述第二中文字段中的第一指定数据;若否,过滤所述中文字段中的所述第一指定数据。5.如权利要求3所述的方法,其特征在于,所述将所述数据元以及所述第一中文字段转化为词向量格式的输入文本,包括:判断所述数据元以及所述第一中文字段是否符合第二预设条件;若是,将所述数据元以及所述第一中文字段共同对应的数据项标记为指定数据项,并将所述数据元以及...

【专利技术属性】
技术研发人员:陈银吕晓陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1