基于企业标签的企业匹配度处理方法及装置制造方法及图纸

技术编号:36895133 阅读:23 留言:0更新日期:2023-03-15 22:24
本发明专利技术提出了一种基于企业标签的企业匹配度处理方法及装置,涉及计算机数据处理技术领域,该方法包括:获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;基于语料库训练自然语言出模型;利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。用组合模型匹配度预测模型预测企业匹配度。用组合模型匹配度预测模型预测企业匹配度。

【技术实现步骤摘要】
基于企业标签的企业匹配度处理方法及装置


[0001]本专利技术涉及计算机数据处理
,尤指一种基于企业标签的企业匹配度处理方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着社会的不断发展和国际化发展步伐的加快,在全球范围内提升企业及其品牌国际知名度、加强企业间的联系合作成为了很多企业发展的战略目标。为建立跨国企业间的交流平台,促成高质量的企业跨境合作,银行需要从获取到的企业信息中建立企业的行业及产品标签,设计实现基于企业标签的企业匹配方案,为联系紧密的企业提供洽谈的机会。
[0004]目前,传统的企业间匹配度预测方法存在以下问题:
[0005]1、缺少对企业标签生僻词的处理;在传统的企业标签处理方法中,当遇到无法被自然语言处理模型识别的生僻词时,通常直接删除该词汇。然而,在实际应用过程中,由于爬取数据的平台不同,获取的企业标签数据通常存在统计粒度不一的问题,有的标签可能会因为包含两个或多个简单词汇无法被模型识别,成为标签生僻词。如果直接删除这些可被进一步拆分的生僻词,将会导致企业标签关键数据的缺失,严重影响企业间匹配度的预测结果。
[0006]2、只考虑目标企业对标签一致性,未考虑其相似度;在传统的企业标签相似度计算中,仅考虑到了目标企业对所含标签是否相同,根据标签的一致性设计后续的匹配度预测方案。然而,由于爬取到的企业信息数据不存在统一的行业标签填写规范,当两个企业标签中存在同义词或近义词时,匹配度预测结果的准确性无法得到保障。
[0007]3、缺少对标签相似度的有效整合方案;在传统的企业匹配度预测方法中,往往对企业的行业标签相似度和产品标签相似度进行简单求和,得到最终的企业匹配度。但是,在实际预测过程中,不同的标签相似度对企业间匹配程度的影响是不均等的,需设计更为合理且有效的标签相似度整合方案。
[0008]综上来看,亟需一种能够克服上述缺陷,可以对生僻词进行处理,考虑企业对标签的相似度,并能够整合标签相似度的企业匹配度处理技术方案。

技术实现思路

[0009]为解决现有技术存在的问题,本专利技术提出了一种基于企业标签的企业匹配度处理方法及装置,对不能被自然语言处理模型识别的标签生僻词进行处理,在相同标签匹配的基础上将企业产品标签中的同义词和近义词纳入匹配度预测方案中,通过对行业标签中高频词的统计和替换实现大规模企业数据的高效处理。在标签相似度聚合方法上采用了组合模型的方式,实现了可靠且有效的企业匹配度预测,从而发掘合作可能性较高的目标企业
对,促成企业间的高质量洽谈。
[0010]在本专利技术实施例的第一方面,提出了一种基于企业标签的企业匹配度处理方法,包括:
[0011]获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;
[0012]基于语料库训练自然语言出模型;
[0013]利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
[0014]若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
[0015]若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
[0016]将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
[0017]在本专利技术实施例的第二方面,提出了一种基于企业标签的企业匹配度处理装置,包括:企业标签信息提取子系统及企业标签信息管理与评价子系统;
[0018]企业标签信息提取子系统包括:异常数据清洗模块、企业标签识别模块及高频行业标签替换模块;
[0019]异常数据清洗模块,用于获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;
[0020]企业标签识别模块,用于提取企业标签;
[0021]高频行业标签替换模块,用于替换高频行业标签,得到企业标签数据;
[0022]企业标签信息管理与评价子系统包括:自然语言处理模型训练模块、企业标签分流管理模块、企业标签生僻词处理模块、企业标签相似度计算模块及组合模型匹配度计算模块;
[0023]自然语言处理模型训练模块,用于基于语料库训练自然语言出模型;
[0024]企业标签分流管理模块,用于利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;
[0025]企业标签生僻词处理模块,用于若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;
[0026]企业标签相似度计算模块,用于若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;
[0027]组合模型匹配度计算模块,用于将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。
[0028]在本专利技术实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于企业标签的企业匹配度处理方法。
[0029]在本专利技术实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于企业标签的企业匹配度处理方法。
[0030]在本专利技术实施例的第五方面,提出了一种计算机程序产品,所述计算机程序产品
包括计算机程序,所述计算机程序被处理器执行时实现基于企业标签的企业匹配度处理方法。
[0031]本专利技术提出的基于企业标签的企业匹配度处理方法及装置通过对标签生僻词进行处理,最大程度上保留企业有效信息,避免数据缺失,还利用自然语言处理模型实现了多标签相似度计算,确保企业特征相似性评价结果的可靠性,根据相似性评价结果结合组合模型实现准确、有效的企业匹配度预测,为企业磋商业务提供了有力的技术支持。
附图说明
[0032]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0033]图1是本专利技术一实施例的基于企业标签的企业匹配度处理方法流程示意图。
[0034]图2是本专利技术一具体实施例的提取企业标签信息的流程示意图。
[0035]图3是本专利技术一具体实施例的生僻词处理的流程示意图。
[0036]图4是本专利技术一具体实施例的组合模型的示意图。
[0037]图5是本专利技术一实施例的基于企业标签的企业匹配度处理装置架构示意图。
[0038]图6是本专利技术一具体实施例的示例性场景示意图。
[0039]图7是本专利技术一实施例的计算机设备结构示意图。
具体实施方式
[0040]下面将参考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于企业标签的企业匹配度处理方法,其特征在于,包括:获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;基于语料库训练自然语言出模型;利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。2.根据权利要求1所述的方法,其特征在于,清洗所述企业信息原始数据中的异常数据,包括:检查所述企业信息原始数据中的缺失数据或冗余数据,丢弃或补全所述缺失数据,清洗所述冗余数据。3.根据权利要求1所述的方法,其特征在于,所述企业信息原始数据中包含企业信息表和企业洽谈结果表;该方法还包括:将企业信息表中的合作信息和企业基本信息进行汇总,将企业信息表中的企业主营产品、目标产品、所属行业、目标行业信息添加至企业洽谈结果表中。4.根据权利要求3所述的方法,其特征在于,提取企业标签,包括:从企业洽谈结果表的语义描述信息中提取关键词作为企业标签;其中,调用信息检索算法,对企业描述性信息中词汇进行评分,输出评分最高的前N个词汇作为该企业描述信息对应的企业标签。5.根据权利要求4所述的方法,其特征在于,所述企业标签至少包括:企业标识、企业行业标签及企业产品标签;其中,所述企业行业标签包括:企业所属行业标签、企业目标行业标签;所述企业产品标签包括:企业主营产品标签及企业目标产品标签。6.根据权利要求5所述的方法,其特征在于,替换高频行业标签,包括:提取所有企业行业标签中完全匹配的企业行业标签;统计企业行业标签的频次,将频次超过设定阈值的企业行业标签作为高频行业标签,得到K个高频行业标签;将含义相同的高频行业标签进行合并;将所有企业的企业行业标签用统计出的高频行业标签表示,若企业行业标签不与任何一个高频行业标签含义相同或相近,采用其他字段填充。7.根据权利要求6所述的方法,其特征在于,基于语料库训练自然语言出模型,包括:建立自然语言处理模型;将语料库进行格式转换,繁体字转换为简体字,对语料库的数据文件进行分词,基于Word2Vec训练所述自然语言处理模型。8.根据权利要求7所述的方法,其特征在于,若包含生僻词,对所述生僻词进行处理,得
到不含生僻词的企业标签数据,包括:当自然语言处理模型无法识别企业产品标签时,判断生僻词删除后是否还有其他词语;若删除后还存在其他词语,直接删除生僻词;若删除后不存在其他词语,对生僻词进行近一步的拆分,利用自然语言处理模型识别拆分词;如果识别出拆分词,利用拆分词替换生僻词;如果无法识别拆分词,填入无替换生僻词。9.根据权利要求7所述的方法,其特征在于,若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度,包括:采用以下计算公式计算企业对之间的企业标签相似度,其中,similarity(A,B)为企业A与企业B之间的企业产品标签相似度;A1至A
n
为企业A的n个企业产品标签数据;B
k
为企业B的第k个企业产品标签数据;m为企业B的企业产品标签数量;在计算时,选取企业产品标签数量更少的企业B,将企业B对应的企业产品标签数量m作为分母,依次计算B
k
与企业A的各个企业产品标签的相似度,选取m个最高相似度并计算平均值,得到企业A与企业B之间的企业产品标签相似度。10.根据权利要求9所述的方法,其特征在于,该方法还包括:根据企业对的高频行业标签进行行业一致性匹配,得到企业对之间的企业行业标签的匹配度。11.根据权利要求10所述的方法,其特征在于,将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度,包括:将企业对数据分为三类:未洽谈企业对、洽谈未合作企业对、洽谈且合作企业对;将未洽谈企业对划分为负样本,将洽谈未合作企业对、洽谈且合作企业对划分为正样本;根据负样本及正样本数据,分别对SVM模型、随机森林模型和lightGBM模型进行高召回倾向训练,选定组合模型中的高召回模型;将所述企业对之间的企业标签相似度作为输入样本,输入至高召回模型,输出企业匹配度的预测结果。12.一种基于企业标签的企业匹配度处理装置,其特征在于,包括:企业标签信息提取子系统及企业标签信息管理与评价子系统;企业标签信息提取子系统包括:异常数据清洗模块、企业标签识别模块及高频行业标签替换模块;异常数据清洗模块,用于获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;企业标签识别模块,用于提取企业标签;高频行业标签替换模块,用于替换高频行业标签,得到企业标签数据;企业标签信息管理与评价子系统包括:自然语言处理模型训练模块、企业标签...

【专利技术属性】
技术研发人员:赵唯一孙龙堂
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1