本申请涉及基于相似企业的项目匹配方法、装置、设备及介质,该方法通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,确定目标企业的相似企业,基于相似企业曾获政策项目输出目标企业的匹配项目推荐数据,大幅提高了项目匹配精准度。了项目匹配精准度。了项目匹配精准度。
【技术实现步骤摘要】
基于相似企业的项目匹配方法、装置、设备及介质
[0001]本专利技术属于大数据处理
,涉及一种基于相似企业的项目匹配方法、装置、设备及介质。
技术介绍
[0002]随着互联网技术的发展,在互联网上的信息呈指数级增长,这无疑会增大获取准确有用信息的难度。在企业推荐领域,一些场景中需要根据一个企业名称来获取与其相似的一个或者多个企业,这就需要根据互联网上的企业相关信息进行相应的推荐。现有的企业推荐的相关技术中,通常是根据互联网上的公开信息(企业社保人数、工商注册、招投标等信息)或人工录入的企业信息(财务报表、经营信息等),来得到企业的特征信息,然后根据该特征信息基于推荐算法进行企业推荐。其中,“政策
‑
企业”的精准匹配是既是经济管理者的研究方向,也是企业战略分析的重要指标。目前通用的“政策
‑
企业”匹配方法是标签匹配,将政策解读内容进行标签化和图谱化处理,通过将企业的资质条件标签化形成企业画像并通过算法进行匹配。
[0003]由于企业填写交付实际经营数据的意愿较低,在互联网上公开的企业信息有限且公开的企业信息也与企业实际经营情况存在出入。传统的标签匹配方法仍存在着项目匹配精准度不足的技术问题。
技术实现思路
[0004]针对上述传统方法中存在的问题,本专利技术提出了一种基于相似企业的项目匹配方法、一种基于相似企业的项目匹配装置、一种计算机设备和一种计算机可读存储介质,能够大幅提高项目匹配精准度。
[0005]为了实现上述目的,本专利技术实施例采用以下技术方案:一方面,提供一种基于相似企业的项目匹配方法,包括步骤:获取目标企业的名称对应的公开互联网数据并存入第一维度数组;获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;根据各相似企业对于各曾获政策项目的次数与各相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0006]在其中一个实施例中,公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、技术专利数、专利技术授权数、外观设计数、专利技术公布数、上市类型维度和招投标数据。
[0007]在其中一个实施例中,数据归一化处理过程中采用的归一化方法包括最小
‑
最大规范化、Z
‑
score标准化、均值方差归一化、小数定标标准化或Log函数转换。
[0008]在其中一个实施例中,核函数为RBF核函数。
[0009]在其中一个实施例中,上述方法还包括步骤:根据相似企业利用协同过滤算法输出匹配目标企业的政策项目数据。
[0010]在其中一个实施例中,上述方法还包括步骤:根据目标企业的推介文案,分别生成匹配于各相似企业的推介文案。
[0011]在其中一个实施例中,上述方法还包括步骤:根据设定的星级分配区间,按照匹配项目推荐数据中各曾获政策项目的推荐指数从高到低的顺序,为各曾获政策项目分配推荐星级标签;按照各曾获政策项目的推荐星级从高到低进行推荐输出。
[0012]另一方面,还提供一种基于相似企业的项目匹配装置,包括:第一获取模块,用于获取目标企业的名称对应的公开互联网数据并存入第一维度数组;第二获取模块,用于获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;归一映射模块,用于将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;得分计算模块,用于在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;企业确定模块,用于将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;项目采集模块,用于采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;匹配输出模块,用于根据各相似企业获得各曾获政策项目的次数与各所述相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0013]又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的基于相似企业的项目匹配方法的步骤。
[0014]再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的基于相似企业的项目匹配方法的步骤。
[0015]上述技术方案中的一个技术方案具有如下优点和有益效果:上述基于相似企业的项目匹配方法、装置、设备及介质,通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解
析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,剔除内积差为负的高维新数据对应的企业,输出排序后的目标企业的相似企业推荐数据,实现关于目标企业的企业推荐处理。最后,采集相似企业曾获得的曾获政策项目并基于此计算出各曾获政策项目的推荐指数,从而得到目标企业的匹配项目推荐数据。
[0016]相比于传统方法,上述技术方案一方面将反向推导获得的企业具备的申报条件加入企业的特征信息,以有效丰富企业的特征信息,另一方面在数据分类预测过程中避免了直接计算高维新数据到高维特征空间中最优超平面的距离,而是直接使用支持向量来简化分类计算,又一方面基于相似企业来推荐目标企业也能匹配的政策项目,从而最终实现又快又准确的企业项目匹配推荐,达到了大幅提高企业项目匹配精准度的目的。
附图说明
[0017]为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为一个实施例中基于相似企业的项目匹配方法的流程示意本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于相似企业的项目匹配方法,其特征在于,包括步骤:获取目标企业的名称对应的公开互联网数据并存入第一维度数组;获取各官网上公布的各政策文件和各相关公示文件,解析各所述政策文件和各所述相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;将所述第一维度数组和所述第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;在所述高维特征空间中,对所述低维特征向量对应的高维新数据进行中心化处理,计算中心化后的所述高维新数据与所述高维特征空间的支持向量的内积差;将所述内积差为负的所述高维新数据对应的企业剔除,将所述内积差为正的所述高维新数据对应的企业确定为所述目标企业的相似企业;采集各所述相似企业的曾获政策项目并统计各所述相似企业获得各所述曾获政策项目的次数;根据各所述相似企业获得各所述曾获政策项目的次数与各所述相似企业的总数,计算得到各所述曾获政策项目的推荐指数并输出为所述目标企业的匹配项目推荐数据。2.根据权利要求1所述的基于相似企业的项目匹配方法,其特征在于,所述公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数、发明公布数、上市类型维度和招投标数据。3.根据权利要求1或2所述的基于相似企业的项目匹配方法,其特征在于,数据归一化处理过程中采用的归一化方法包括最小
‑
最大规范化、Z
‑
score标准化、均值方差归一化、小数定标标准化或Log函数转换。4.根据权利要求3所述的基于相似企业的项目匹配方法,其特征在于,所述核函数为RBF核函数。5.根据权利要求3所述的基于相似企业的项目匹配方法,其特征在于,还包括步骤:根据所述相似企业利用协同过滤算法输出匹配所述目标企业的政策项目数据。6.根据权利要求3所述的基于相似企业的项目匹配方法,...
【专利技术属性】
技术研发人员:刘宪锋,阳晓,杨阿磊,彭俊,潘妮娜,肖涛,
申请(专利权)人:湖南省拾牛网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。