本发明专利技术属于数据处理技术领域,公开了一种人员在机构间流动情况的分析方法及分析系统,获取工商、专利、期刊、论文信息、将信息分别处理、工商信息提取;基于所属机构初步计算;基于工商关系计算;基于时间线上的内容相似性计算,最终确定人员的唯一id。本发明专利技术可有效针对技术人员发布的文献进行计算,根据文献语义相似程度判断是否为同一作者其准确性比仅使用文档分类号高。通过对所属企业名称的标准化以及基于工商信息进行企业计算可以简单高效压缩初始分组数量。通过对人员基于时间线上的计算,可梳理出该人员的职业生涯历程得到其个人履历。
【技术实现步骤摘要】
一种人员在机构间流动情况的分析方法及分析系统
本专利技术属于数据处理
,尤其涉及一种人员在机构间流动情况的分析方法及分析系统。
技术介绍
目前,对于一个企业,一般的人员流动是正常的,然而核心人员的流动对企业的影响确实及其重大的。核心人员的流失,轻则影响项目进度,重则企业因核心业务无法推进而被迫调整方向。而高能力人员的吸收则能够将企业带向正确的方向,使企业在发展的道路上势如破竹、如虎添翼。在科创版申请上市的企业,更是被要求近两年内董事、高级管理人员及核心技术人员均没有发生重大不利变化,其中,核心技术人员将作为科创版的规范对象,其原则上包括公司技术负责人、研发负责人、研发部门主要成员、主要知识产权和非专利技术的专利技术人或设计人、主要技术标准的起草者等。由此可见,对于科技型企业,核心人员,尤其是核心技术人员的流动,对其企业的影响力是极其可观的。此外,员工更为珍贵是其多年积累下来的经验,核心技术人员更为突出,只有丰富的经验才能完成某些操控工作及应对突发事件,而这份经验是一种无法通过工作交接而留在企业的无形资产,评定某一员工的价值更多的也是看其经验。由此可见,要充分评估一家企业的现状和潜力,需要了解其核心人员的变动情况,以及核心人员的过往经历和综合能力。针对想要了解某一企业的综合实力,了解其核心人员的变动及过往经历这一需求,其技术实现往往被压缩进一个小的范围内,或是精度过低,可信度较低等。如:当前很多针对工商信息提供服务的网站会对董监高信息进行计算、加工,因为董监高的信息相对容易被曝光,许多地方会要求企业填写较为详细或是唯一确定的董监高信息,技术服务网站可根据唯一确定的身份证号、手机号或邮箱等进行数据计算,然而除了董监高,一些核心技术人员也是企业的综合实力的重要组成部分,但技术人员的曝光率往往很低,只是论文、专利、期刊等中的一个名词,再加之重名现象严重,文献登记时也不会登记一个作者唯一的身份信息,因此针对技术人员的数据计算相对困难。有些提供文献查询的服务商会根据作者及其所在公司作为联合身份标识,然而同样存在严重问题,如果某一核心技术人员在多家单位就职,则会出现多个身份标识,而且多个身份标识不能关联,查询到某一核心技术人员后并不能了解其过往,不足以真正方便分析。现有技术中,最为简单的方法是使用“作者-机构”联合标识符作为人员唯一id,但该方法割断了人员在企业间的流动关系,无法分析人员履历。同时,部分系统通过对作者所发布的文献数据进行打标签,通过计算标签集合的相似度确定作者是否为同一人,并给予唯一id,但标签体系往往较为范范,通过标签进行领域限定,限定范围较大,在同一领域下,依旧会存在大量的重名人员,如在同一IPC小组下,名为“张三”的专利技术人依旧很多。通过上述分析,现有技术存在的问题及缺陷为:(1)现有技术没有基于大数据,对企业的核心人员的流动情况进行判断和识别。不能有效帮助企业的技术风险问题;(2)技术人员曝光率低,人员流动不会通过信息公示或新闻进行披露,难以捕捉及验证;(3)文献发布者不会登记唯一id标识,作者重名现象严重;(4)国内技术人员逐年增加,即使在某一专精领域依旧会存在大量重名者;(5)人员流动性较强的企业、高校等,即使在同一机构内部,依旧会存在较强重名现象;解决以上问题及缺陷的难度为:为解决上述问题一,需基于时间线对人员履历进行梳理,整理出某一人员曾经的过往公司,且人员流动影响对个人声誉存在影响,在给予结论的同时需要能够进行举证,充分考虑现实问题中存在的各种复杂场景,应当在任何计算环节都可解释并能有具体证据说明。为解决上述问题二,需要收集大量的企业技术人员职业履历,但因技术人员曝光率较低,相关新闻很难被报道,因此需要凭借社会经验甚至是人际网络,去逐一整理。为解决上述问题三四五,需要通过秉持科学严谨的态度,在给予结论前,需要同时从多角度进行分析,考虑各种现实中的复杂场景,不能通过单一评估维度妄下结论。解决以上问题及缺陷的意义为:本专利技术提出了一种分析人员在机构间流动情况的方法,针对以上问题,自动分析企业核心技术人员基础数据,而不仅局限在董监高,并将核心技术人员的过往数据信息进行计算,以此得到该核心技术人员的职业履历。通过对以上问题的解决,还具有如下意义:精确的对企业进行市值评估;衡量企业人员的综合实力;核心技术人员离职预警;精准人才挖掘等等。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种人员在机构间流动情况的分析方法及分析系统。本专利技术是这样实现的,一种人员在机构间流动情况的分析方法,包括:①收集人员相关数据,包括但不限于:工商信息、专利、期刊、论文;②根据人员名单,对所收集数据进行特征加工,计算、合并、拆解等;③进行人员过往信息计算,得到职业履历。具体包括:步骤一,获取工商、专利、期刊、论文信息等信息;步骤二,对上述信息进行特征加工;步骤三,基于人员姓名、标准化公司名、文献语言特征向量等进行层级化聚类;步骤四,基于所属机构初步计算、合并、拆解;步骤五,基于工商关系计算、合并、拆解;步骤六,基于时间线上的内容相似性计算,最终确定人员的唯一id。进一步,所述步骤一将信息分别处理包括:将基础数据分成两大类,工商数据和文献数据;通过使用具有作者及所属机构信息的文献、图片或视频数据作为数据集;所述步骤二对信息进行特征加工包括:①对得到的工商信息进行数据计算,得到企业之间的上下级关系;②对文献类数据中的人名、机构名进行标准化;③对文献类数据进行关键词、领域词汇、技术名词等特征进行提取;④对文献类数据进行语义特征提取;所述步骤三,层级化聚类包括:①根据标准化人员名称进行聚类;②根据标准化公司名进行聚类;所述步骤四基于所属机构进行初步计算、合并、拆解包括:①提取名为“A”的人员在“B”公司下的所有文献集合C;②提取集合C中文献的语义特征;③根据集合C的语义特征进行聚类;④根据聚类结果确定人员id;所述步骤五基于工商关系计算的方法包括:根据得到的企业上下级关系及得到的人员id进行数据计算;进行企业1中存在叫“A”的员工和企业2中也存在叫“A”的员工的验证,进行两个人员文献集的语义对比,满足预定阀值则认定为同一人。所述步骤六基于时间线上的内容相似性计算包括:通过计算在“A”员工在企业1中最后一个合作时间与之后发起的每一个“A”员工的时间差,同时计算企业1中“A”员工所发表文献与之后发起的每一个“A”员工发布的文献的语义相似度,通过时间差与平均语义相似度进行计算,得到两个之间的转移概率,如果转移概率超过预定阀值,则判定为同一个人员。所述步骤六得到人员唯一id包括:将每个人员在时间线上与其关联公司本文档来自技高网...
【技术保护点】
1.一种人员在机构间流动情况的分析方法,其特征在于,所述人员在机构间流动情况的分析方法包括:/n收集人员相关数据,包括但不限于:工商信息、专利、期刊、论文;/n根据人员名单,对所收集数据进行特征加工,计算、合并、拆解;/n进行人员过往信息计算,得到职业履历。/n
【技术特征摘要】
1.一种人员在机构间流动情况的分析方法,其特征在于,所述人员在机构间流动情况的分析方法包括:
收集人员相关数据,包括但不限于:工商信息、专利、期刊、论文;
根据人员名单,对所收集数据进行特征加工,计算、合并、拆解;
进行人员过往信息计算,得到职业履历。
2.如权利要求1所示的人员在机构间流动情况的分析方法,其特征在于,所述人员在机构间流动情况的分析方法具体包括:
步骤一,获取工商、专利、期刊、论文信息;
步骤二,对上述信息进行特征加工;
步骤三,基于人员姓名、标准化公司名、文献语言特征向量等进行层级化聚类;
步骤四,基于所属机构初步计算、合并、拆解;
步骤五,基于工商关系计算、合并、拆解;
步骤六,基于时间线上的内容相似性计算,最终确定人员的唯一id。
3.如权利要求2所示的人员在机构间流动情况的分析方法,其特征在于,
所述步骤一将信息分别处理包括:将基础数据分成两大类,工商数据和文献数据;通过使用具有作者及所属机构信息的文献、图片或视频数据作为数据集。
4.如权利要求2所示的人员在机构间流动情况的分析方法,其特征在于,所述步骤二对信息进行特征加工包括:
对得到的工商信息进行数据计算,得到企业之间的上下级关系;
对文献类数据中的人名、机构名进行标准化;
对文献类数据进行关键词、领域词汇、技术名词等特征进行提取;
对文献类数据进行语义特征提取。
5.如权利要求2所示的人员在机构间流动情况的分析方法,其特征在于,所述步骤三,层级化聚类包括:
根据标准化人员名称进行聚类;
根据标准化公司名进行聚类。
6.如权利要求2所示的人员在机构间流动情况的分析方法,其特征在于,所述步骤四基于所属机构进行初步计算、合并、拆解包括:
提取名为A的人员在B公司下的所有文献集合C;
提取集合C中文献的语义特征;
根据集合C的语义特征进行聚类;
根据聚类结果确定人员id。
7.如权利要求2所示的人员在机构间流动情况的分析方法,其特征在于,所述步骤五基于工商关系计算的方法包括:根据得到的企业上下级关系及得到的人员id进行数据计算;
进行企业1中存在叫“A”的员工和企业2中...
【专利技术属性】
技术研发人员:杨万征,蔡超,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。