当前位置: 首页 > 专利查询>北京大学专利>正文

基于论文数据分析的专家推荐方法、装置、设备及存储介质制造方法及图纸

技术编号:26762923 阅读:43 留言:0更新日期:2020-12-18 23:18
本发明专利技术提供了一种基于论文数据分析的专家推荐方法、装置、设备及存储介质,其中的专家推荐方法包括:获取需求文档及需求文档的关键词;使用网络爬虫爬取到与需求文档的关键词相关论文的论文标题、论文摘要、作者及所属期刊;基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度;基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率;基于所属期刊获取所述论文的经标准化处理后的复合影响因子;基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。本发明专利技术以文本相似度、作者贡献率及论文影响因子三个维度计算出候选专家的推荐分数,最终实现专家推荐,显著提升了专家推荐的推荐精准度及推荐效率。

【技术实现步骤摘要】
基于论文数据分析的专家推荐方法、装置、设备及存储介质
本专利技术设置文本处理领域,具体而言,本申请涉及一种基于论文数据分析的专家推荐方法、装置、设备及存储介质。
技术介绍
在科技服务领域,企业对技术专家的依赖度较高,当企业遇到特定技术问题时往往希望能够寻求到最合适的相关专家的帮助。但是由于信息不对称,寻找合适的专家的成本比较高,效率低,专家查找困难。因此,高效的专家推荐方法是有必要的。传统的专家推荐一般采用专家库查找方式,但是专家库缺乏统一的标准和规范,且存在信息量少、信息更新不及时等明显缺陷。
技术实现思路
为了解决上述技术问题中的至少一个,本专利技术第一方面提供了一种基于论文数据分析的专家推荐方法,其包括:获取需求文档及所述需求文档的关键词;使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度;基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率;基于所属期刊获取所述论文的经标准化处理后的复合影响因子;基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数。本专利技术第二方面提供了一种基于论文数据分析的专家推荐装置,其包括:需求文档获取模块,用于获取需求文档及所述需求文档的关键词;爬取模块,用于使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;文本相似度获取模块,用于基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度;贡献率获取模块,用于基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率;复合影响因子获取模块,用于基于所属期刊获取所述论文的经标准化处理后的复合影响因子;推荐分数计算模块,用于基于所述文本相似度、所述贡献率及所述复合影响因子计算各论文作者的推荐分数。本专利技术第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术第一方面提供的专家推荐方法。本专利技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行所述程序时实现本专利技术第一方面提供的专家推荐方法。采用网络爬虫技术,本专利技术能够获得到大量的与需求文档相关的论文数据。在此基础上,本专利技术于文本相似度、论文作者的贡献率及论文的复合影响因子三个维度计算出各候选专家的推荐分数,最终实现专家推荐,本专利技术显著提升了专家推荐的推荐精准度及推荐效率,降低了推荐成本。附图说明图1为本申请实施例的基于论文数据分析的专家推荐方法的流程图;图2为本申请实施例的基于论文数据分析的专家推荐方法的流程图;图3为本申请实施例的基于论文数据分析的专家推荐装置的结构框图;图4为本申请实施例的电子设备的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。传统的专家推荐一般采用专家库查找方式,但是专家库缺乏统一的标准和规范,且存在信息量少、信息更新不及时等明显缺陷。本申请提供的基于论文数据分析的专家推荐方法、装置、设备及存储介质,旨在解决现有技术中的上述技术问题。下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。实施例一本申请实施例提供了一种基于论文数据分析的专家推荐方法100,如图1所示,该专家推荐方法100包括:步骤S101、获取需求文档及所述需求文档的关键词。例如,需求文档是专家需求方提供的一份技术描述文档,其中描述了需求方所感兴趣的目标技术,需求方所需要的正是与该目标技术相关且技术水平高的专家。关键词则是与该技术最相关的词句,如该技术的名称,该技术所应有的场景等等,关键词一般由需求方提供。步骤S102、使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊。即,以需求文档的关键词为爬取基准词,采用已有的网络爬虫工具从预定的目标网站爬取与关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊等四个方面的信息。如,本实施例中,选择从知网上爬取发表时间在15年内的相关论文的链接,然后解析链接获得论文的上述四个方面的信息,最后将解析到的信息按论文标题分别整理好并保存在本地,每篇论文的相关信息被分别保存在一个文档内。至此,爬取到的所有论文中的所有论文作者均被作为候选专家,本实施例的后续步骤中所有完成的即是从这些候选专家中挑选出合适的专家进行推荐。步骤S103、基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度。人工智能发展至今,获取两篇文档之间的文本相似度的算法非常多,本领域技术人员在实现本专利技术时,可以根据需要选择已知的各种文本相似度算法。本专利技术中提供了一种优选的文本相似度计算方法,如图2所示的,其具体过程如下:S1031、将整理好的每篇文档的论文标题和论文摘要合并以形成论文索引文档,当然,每篇论文均形成一与其对应的论文索引文档。S1032、对所述论文索引文档和所述需求文档分别进行分词处理。本实施例中,采用百度公司开发的jieba(结巴)中文分词方法对论文索引文档和需求文档分别进行分词处理,从而获得分词处理后的论文索引文档和需求文档,优选的,可以参照百度停用词表、哈工大停用词表等工具剔除掉分词中的停用词。可选的,为了方便后续的LDA主题模型提取主题词,对经分词处理后的各论文索引文档和需求文档分别进行词典构造,从而将其表示为词袋模型以作为LDA主题模型的输入。S1033、使用LDA主题模型分别提取出经分词处理后的所述论文索引文档和所述需求文档的若干主题词。使用LDA主题模型提取文档的主题词是一种非常成熟的主题词提取模型,其算法思想及工作过程为本领域一般技术人员所熟悉,当然,其算法本身也并非本专利技术所要保护的对象。为了使得本专利技术更容易实施,本说明书还是选择对LDA主题模型提取文档的主题词的算法思想作出示例性描述,如图4所示,其算法思想大致如下:将目标文档看作不同主题构成的概率分布,将主题看作不同词语构成的概率分布。主题词的提取过程为:获取一篇文档d;从Dirichlet分布α中取样文档d的主题分布ρ,主题分布ρ由Dirichlet分布α生成;从主题的多项式分布ρ中取样文档d的第i个词的主题ti;从Dirichlet分布β中取样主题ti对应的词分布δti,词分布δti由Dirichlet分布β生成;从词本文档来自技高网...

【技术保护点】
1.一种基于论文数据分析的专家推荐方法,其特征在于,其包括:/n获取需求文档及所述需求文档的关键词;/n使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;/n基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度;/n基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率;/n基于所属期刊获取所述论文的经标准化处理后的复合影响因子;/n基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。/n

【技术特征摘要】
1.一种基于论文数据分析的专家推荐方法,其特征在于,其包括:
获取需求文档及所述需求文档的关键词;
使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;
基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度;
基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率;
基于所属期刊获取所述论文的经标准化处理后的复合影响因子;
基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。


2.如权利要求1所述的专家推荐方法,其特征在于,所述基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度包括:
将所述论文标题和所述论文摘要合并以形成论文索引文档,每篇论文均形成一与其对应的论文索引文档;
对所述论文索引文档和所述需求文档分别进行分词处理;
使用LDA主题模型分别提取出经分词处理后的所述论文索引文档和所述需求文档的若干主题词;
使用word2vec模型分别将所述论文索引文档和所述需求文档的若干主题词映射为若干词向量;
基于所述论文索引文档和所述需求文档的若干词向量计算所述论文索引文档与所述需求文档之间的文本相似度。


3.如权利要求2所述的专家推荐方法,其特征在于:
使用jieba中文分词方法对所述论文索引文档和所述需求文档分别进行分词处理,并剔除其中的停用词。


4.如权利要求2所述的专家推荐方法,其特征在于:在使用LDA主题模型提取经分词处理后的所述论文索引文档和所述需求文档的主题词之前,还包括:
对经分词处理后的所述论文索引文档和所述需求文档进行词典构造,将其表示为词袋模型以作为LDA主题模型的输入。


5.如权利要求2所述专家推荐方法,其特征在于:基于所述论文索引文档和所述需求文...

【专利技术属性】
技术研发人员:孙圣力李杰李青山司华友
申请(专利权)人:北京大学南京博雅区块链研究院有限公司北京国信云服科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1