【技术实现步骤摘要】
基于企业标签的企业匹配度处理方法及装置
[0001]本专利技术涉及计算机数据处理
,尤指一种基于企业标签的企业匹配度处理方法及装置。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着社会的不断发展和国际化发展步伐的加快,在全球范围内提升企业及其品牌国际知名度、加强企业间的联系合作成为了很多企业发展的战略目标。为建立跨国企业间的交流平台,促成高质量的企业跨境合作,银行需要从获取到的企业信息中建立企业的行业及产品标签,设计实现基于企业标签的企业匹配方案,为联系紧密的企业提供洽谈的机会。
[0004]目前,传统的企业间匹配度预测方法存在以下问题:
[0005]1、缺少对企业标签生僻词的处理;在传统的企业标签处理方法中,当遇到无法被自然语言处理模型识别的生僻词时,通常直接删除该词汇。然而,在实际应用过程中,由于爬取数据的平台不同,获取的企业标签数据通常存在统计粒度不一的问题,有的标签可能会因为包含两个或多个简单词汇无法被模型识别,成为标签生僻词。如果直接删除这些可被进一步拆分的生僻词,将会导致企业标签关键数据的缺失,严重影响企业间匹配度的预测结果。
[0006]2、只考虑目标企业对标签一致性,未考虑其相似度;在传统的企业标签相似度计算中,仅考虑到了目标企业对所含标签是否相同,根据标签的一致性设计后续的匹配度预测方案。然而,由于爬取到的企业信息数据不存在统一的行业标签填写规范,当两个企业 ...
【技术保护点】
【技术特征摘要】
1.一种基于企业标签的企业匹配度处理方法,其特征在于,包括:获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据,提取企业标签并替换高频行业标签,得到企业标签数据;基于语料库训练自然语言出模型;利用所述自然语言处理模型对所述企业标签数据中的生僻词进行识别;若包含生僻词,对所述生僻词进行处理,得到不含生僻词的企业标签数据;若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度;将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度。2.根据权利要求1所述的方法,其特征在于,清洗所述企业信息原始数据中的异常数据,包括:检查所述企业信息原始数据中的缺失数据或冗余数据,丢弃或补全所述缺失数据,清洗所述冗余数据。3.根据权利要求1所述的方法,其特征在于,所述企业信息原始数据中包含企业信息表和企业洽谈结果表;该方法还包括:将企业信息表中的合作信息和企业基本信息进行汇总,将企业信息表中的企业主营产品、目标产品、所属行业、目标行业信息添加至企业洽谈结果表中。4.根据权利要求3所述的方法,其特征在于,提取企业标签,包括:从企业洽谈结果表的语义描述信息中提取关键词作为企业标签;其中,调用信息检索算法,对企业描述性信息中词汇进行评分,输出评分最高的前N个词汇作为该企业描述信息对应的企业标签。5.根据权利要求4所述的方法,其特征在于,所述企业标签至少包括:企业标识、企业行业标签及企业产品标签;其中,所述企业行业标签包括:企业所属行业标签、企业目标行业标签;所述企业产品标签包括:企业主营产品标签及企业目标产品标签。6.根据权利要求5所述的方法,其特征在于,替换高频行业标签,包括:提取所有企业行业标签中完全匹配的企业行业标签;统计企业行业标签的频次,将频次超过设定阈值的企业行业标签作为高频行业标签,得到K个高频行业标签;将含义相同的高频行业标签进行合并;将所有企业的企业行业标签用统计出的高频行业标签表示,若企业行业标签不与任何一个高频行业标签含义相同或相近,采用其他字段填充。7.根据权利要求6所述的方法,其特征在于,基于语料库训练自然语言出模型,包括:建立自然语言处理模型;将语料库进行格式转换,繁体字转换为简体字,对语料库的数据文件进行分词,基于Word2Vec训练所述自然语言处理模型。8.根据权利要求7所述的方法,其特征在于,若包含生僻词,对所述生僻词进行处理,得
到不含生僻词的企业标签数据,包括:当自然语言处理模型无法识别企业产品标签时,判断生僻词删除后是否还有其他词语;若删除后还存在其他词语,直接删除生僻词;若删除后不存在其他词语,对生僻词进行近一步的拆分,利用自然语言处理模型识别拆分词;如果识别出拆分词,利用拆分词替换生僻词;如果无法识别拆分词,填入无替换生僻词。9.根据权利要求7所述的方法,其特征在于,若不包含生僻词,根据所述不包含生僻词的企业标签数据,计算企业对之间的企业标签相似度,包括:采用以下计算公式计算企业对之间的企业标签相似度,其中,similarity(A,B)为企业A与企业B之间的企业产品标签相似度;A1至A
n
为企业A的n个企业产品标签数据;B
k
为企业B的第k个企业产品标签数据;m为企业B的企业产品标签数量;在计算时,选取企业产品标签数量更少的企业B,将企业B对应的企业产品标签数量m作为分母,依次计算B
k
与企业A的各个企业产品标签的相似度,选取m个最高相似度并计算平均值,得到企业A与企业B之间的企业产品标签相似度。10.根据权利要求9所述的方法,其特征在于,该方法还包括:根据企业对的高频行业标签进行行业一致性匹配,得到企业对之间的企业行业标签的匹配度。11.根据权利要求10所述的方法,其特征在于,将所述企业对之间的企业标签相似度作为输入样本,利用组合模型匹配度预测模型预测企业匹配度,包括:将企业对数据分为三类:未洽谈企业对、洽谈未合作企业对、洽谈且合作企业对;将未洽谈企业对划分为负样本,将洽谈未合作企业对、洽谈且合作企业对划分为正样本;根据负样本及正样本数据,分别对SVM模型、随机森林模型和lightGBM模型进行高召回倾向训练,选定组合模型中的高召回模型;将所述企业对之间的企业标签相似度作为输入样本,输入至高召回模型,输出企业匹配度的预测结果。12.一种基于企业标签的企业匹配度处理装置,其特征在于,包括:企业标签信息提取子系统及企业标签信息管理与评价子系统;企业标签信息提取子系统包括:异常数据清洗模块、企业标签识别模块及高频行业标签替换模块;异常数据清洗模块,用于获取企业信息原始数据,清洗所述企业信息原始数据中的异常数据;企业标签识别模块,用于提取企业标签;高频行业标签替换模块,用于替换高频行业标签,得到企业标签数据;企业标签信息管理与评价子系统包括:自然语言处理模型训练模块、企业标签...
【专利技术属性】
技术研发人员:赵唯一,孙龙堂,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。