股东类型识别模型的训练方法、股东类型识别方法及其装置制造方法及图纸

技术编号:32365000 阅读:12 留言:0更新日期:2022-02-20 03:37
本申请实施例提供了一种股东类型识别模型的训练方法、股东类型识别方法及其装置,股东类型识别模型的训练方法包括:获取股东名称样本以及所述股东名称样本的股东类型标签;基于所述股东名称样本以及所述股东名称样本的股东类型标签,对所述模型参数进行调整以对所述股东类别识别模型进行训练;其中,所述股东名称样本包括自然人股东名称样本、法人股东名称样本、非自然人且非法人股东名称样本中至少其一,所述股东类型标签包括自然人股东标签、法人股东标签、非自然人且非法人股东中至少其一,基于该股东类型识别模型有效地识别出了股东类型。东类型。东类型。

【技术实现步骤摘要】
股东类型识别模型的训练方法、股东类型识别方法及其装置


[0001]本申请涉及数据处理
,具体涉及一种股东类型识别模型的训练方法、股东类型识别方法及其装置。

技术介绍

[0002]基于大数据解决方案,通过对收集的源数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括股东情况等。
[0003]但是,现有技术中,收集到的源数据中,反映股东情况的数据比较杂乱无章,比如股东名称不规范,导致股东类型难以识别。

技术实现思路

[0004]本申请实施例提供一种股东类型识别模型的训练方法、股东类型识别方法及其装置,用以克服或者缓解现有技术中存在的上述技术问题。
[0005]本申请采用的技术方案为:
[0006]一种股东类别识别模型的训练方法,所述股东类别识别模型具有模型参数,所述训练方法包括:
[0007]获取股东名称样本以及所述股东名称样本的股东类型标签;
[0008]基于所述股东名称样本以及所述股东名称样本的股东类型标签,对所述模型参数进行调整以对所述股东类别识别模型进行训练;
[0009]其中,所述股东名称样本包括自然人股东名称样本、法人股东名称样本、非自然人且非法人股东名称样本中至少其一,所述股东类型标签包括自然人股东标签、法人股东标签、非自然人且非法人股东中至少其一。
[0010]可选地,所述模型参数包括向量化参数以及映射参数,所述基于所述股东名称样本以及所述股东名称样本的股东类型标签,对所述模型参数进行调整以对所述股东类别识别模型进行训练,包括:
[0011]基于所述向量化参数,对所述股东名称样本进行向量化得到对应的描述向量;
[0012]基于所述映射参数,对所述描述向量进行映射处理以生成股东类型预测结果;
[0013]根据所述股东类型预测结果以及所述股东类型标签,调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理,直至所述股东类型预测结果与股东类型标签具有预设的相似度,以完成所述股东类别识别模型的训练。
[0014]可选地,所述基于所述向量化参数,对所述股东名称样本进行向量化得到对应的描述向量,之前包括:对所述股东名称样本进行字符切分得到样本词和样本字;
[0015]所述基于向量化参数,对所述股东名称样本进行向量化得到对应的描述向量,包括:
[0016]基于第一向量化参数,对所述样本词和所述样本字进行向量化得到词描述向量以及字描述向量;
[0017]基于第二向量化参数,根据所述字描述向量和词描述向量生成所述股东名称样本对应的描述向量。
[0018]可选地,所述基于第二向量化参数,根据所述字描述向量和词描述向量生成所述股东名称样本对应的描述向量,包括:基于第二向量化参数,对所述字描述向量和词描述向量进行叠加处理,以生成所述股东名称样本对应的描述向量。
[0019]可选地,所述根据所述股东类型预测结果以及所述股东类型标签,调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理,包括:
[0020]计算所述股东类型预测结果以及所述股东类型标签的相似度,若相似度小于设定相似度阈值,则调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理。
[0021]一种股东类型识别方法,其包括:
[0022]获取待识别股东名称;
[0023]基于预先训练的股东类别识别模型,识别出所述待识别股东名称对应的股东类型;
[0024]其中,所述股东类别识别模型为根据本申请实施例任一项训练方法得到的模型。
[0025]可选地,所述获取待识别股东名称之前,包括:
[0026]根据设定的股东名称关键词,从源文本数据中提取出所述待识别股东名称。
[0027]可选地,所述根据设定的股东名称关键词,从源文本数据中提取出所述待识别股东名称,包括:
[0028]根据设定的股东名称关键词,从源文本数据中提取出包括所述待识别股东名称的源文本数据;
[0029]对提取的所述源文本数据进行滤噪处理,去除其中的脏数据,以得到目标文本数据并从中提取出所述待识别股东名称。
[0030]可选地,所述根据设定的股东名称关键词,从源文本数据中提取出包括所述待识别股东名称的源文本数据之后,包括:
[0031]识别所述源文本数据的表述语言;
[0032]若所述表述语言为非目标语言,则将所述源文本数据转换为使用所述目标语言表述的源文本数据;
[0033]其中,所述对提取的所述源文本数据进行滤噪处理,去除其中的脏数据,以得到目标文本数据并从中提取出所述待识别股东名称,包括:对使用所述目标语言表述的源文本数据进行滤噪处理,去除其中的脏数据,以得到所述目标文本数据并从中提取出所述待识别股东名称。
[0034]可选地,所述对提取的所述源文本数据进行滤噪处理,去除其中的脏数据,以得到目标文本数据并从中提取出所述待识别股东名称,包括:
[0035]识别出所述源文本数据中包括的非实体含义的表述,将所述非实体含义的表述作为脏数据;
[0036]去除所述源文本数据中的所述非实体含义的表述,以得到所述目标文本数据并从中提取出所述待识别股东名称,其中,所述非实体含义的表述包括多余的空格、标点符号和停用词中的至少一种。
[0037]可选地,所述基于预先训练的股东类别识别模型,识别出所述待识别股东名称对
应的股东类型,包括:
[0038]基于所述股东类别识别模型中的向量化参数,对所述待识别股东名称进行向量化得到对应的描述向量;
[0039]基于所述股东类别识别模型中的映射参数,对所述待识别股东名称对应的描述向量进行映射处理,以识别出所述待识别股东名称对应的股东类型。
[0040]可选地,所述基于股东类别识别模型中的向量化参数,对所述待识别股东名称进行向量化得到对应的描述向量,之前包括:对所述待识别股东名称进行字符切分得到特征词和特征字;
[0041]所述基于向量化参数,对所述股东名称样本进行向量化得到对应的描述向量,包括:
[0042]基于第一向量化参数,对所述特征词和所述特征字进行向量化得到词描述向量以及字描述向量;
[0043]基于第二向量化参数,根据所述字描述向量和词描述向量,生成所述待识别股东名称特征对应的描述向量。
[0044]可选地,所述基于第二向量化参数,根据所述字描述向量和词描述向量,生成所述股东名称样本对应的描述向量,包括:基于第二向量化参数,对所述字描述向量和词描述向量进行叠加处理,以生成所述待识别股东名称对应的描述向量。
[0045]一种股东类别识别模型的训练装置,所述股东类别识别模型具有模型参数,所述训练装置包括:
[0046]样本获取单元,用于获取股东名称样本以及所述股东名称样本的股东类型标签;
[0047]训练单元,用于基于所述股东名称样本以及所述股东名称样本的股东类型标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种股东类别识别模型的训练方法,其特征在于,所述股东类别识别模型具有模型参数,所述训练方法包括:获取股东名称样本以及所述股东名称样本的股东类型标签;基于所述股东名称样本以及所述股东名称样本的股东类型标签,对所述模型参数进行调整以对所述股东类别识别模型进行训练;其中,所述股东名称样本包括自然人股东名称样本、法人股东名称样本、非自然人且非法人股东名称样本中至少其一,所述股东类型标签包括自然人股东标签、法人股东标签、非自然人且非法人股东中至少其一。2.根据权利要求1所述的方法,其特征在于,所述模型参数包括向量化参数以及映射参数,所述基于所述股东名称样本以及所述股东名称样本的股东类型标签,对所述模型参数进行调整以对所述股东类别识别模型进行训练,包括:基于所述向量化参数,对所述股东名称样本进行向量化得到对应的描述向量;基于所述映射参数,对所述描述向量进行映射处理以生成股东类型预测结果;根据所述股东类型预测结果以及所述股东类型标签,调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理,直至所述股东类型预测结果与股东类型标签具有预设的相似度,以完成所述股东类别识别模型的训练。3.根据权利要求2所述的方法,其特征在于,所述基于所述向量化参数,对所述股东名称样本进行向量化得到对应的描述向量,之前包括:对所述股东名称样本进行字符切分得到样本词和样本字;所述基于向量化参数,对所述股东名称样本进行向量化得到对应的描述向量,包括:基于第一向量化参数,对所述样本词和所述样本字进行向量化得到词描述向量以及字描述向量;基于第二向量化参数,根据所述字描述向量和词描述向量生成所述股东名称样本对应的描述向量。4.根据权利要求3所述的方法,其特征在于,所述基于第二向量化参数,根据所述字描述向量和词描述向量生成所述股东名称样本对应的描述向量,包括:基于第二向量化参数,对所述字描述向量和词描述向量进行叠加处理,以生成所述股东名称样本对应的描述向量。5.根据权利要求2所述的方法,其特征在于,所述根据所述股东类型预测结果以及所述股东类型标签,调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理,包括:计算所述股东类型预测结果以及所述股东类型标签的相似度,若相似度小于设定相似度阈值,则调整所述向量化参数、映射参数以重新进行所述向量化以及映射处理。6.一种股东类型识别方法,其特征在于,包括:获取待识别股东名称;基于预先训练的股东类别识别模型,识别出所述待识别股东名称对应的股东类型;其中,所述股东类别识别模型为根据权利要求1

5任一项训练方法得到的模型。7.根据权利要求6所述的方法,其特征在于,所述获取待识别股东名称之前,包括:根据设定的股东名称关键词,从源文本数据中提取出所述待识别股东名称。
8.根据权利要求7所述的方法,其特征在于,所述根据设定的股东名称关键词,从源文本数据中提取出所述待识别股东名称,包括:根据设定的股东名称关键词,从源文本数据中提取出包括所述待识别股东名称的源文本数据;对提取的所述源文本数据进行滤噪处理,去除其中的脏数据,以得到目标文本数据并从中提取出所述待识别股东名称。9.根据权利要求8所述的方法,其特征在于,所述根据设定的股东名称关键词,从源文本数据中提取出包括所述待识别股东名称的源文本数据之后,包括:识别所述源文本数据的表述语言;若所述表述语言为非目标语言,则将所述源文本数据转换为使用所述目...

【专利技术属性】
技术研发人员:佟德超
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1