融合标题摘要语义关系的学术文献推荐方法技术

技术编号:33836184 阅读:55 留言:0更新日期:2022-06-16 11:52
本发明专利技术属于学术文献推荐领域,具体是一种融合标题摘要语义关系的学术文献推荐方法。解决了现有学术文献推荐方法存在的冷启动,数据稀疏性问题,包括以下步骤,S100:采集用户

【技术实现步骤摘要】
融合标题摘要语义关系的学术文献推荐方法


[0001]本专利技术属于学术文献推荐领域,具体是一种融合标题摘要语义关系的学术文献推荐方法。

技术介绍

[0002]学术文献是学者们在科学研究后,通过文章对自己的研究内容、方法、实验结果以及结论等进行总结凝练,是针对某一问题的系统性阐述与讨论,是一种有形的知识载体,具有极高价值。学者们通过学术文献获取某个学科或领域的最新研究进展、研究现状等科研信息,激发科学研究动机的出现和学术灵感的涌现。传统学术文献获取方式是阅读纸质文献,互联网时代,文献获取变的十分容易。互联网上充斥着大量学术文献,文献在信息世界里被不断转发、传播扩散,如何帮助研究者快速找到感兴趣的学术文献具有十分重要的意义,推荐系统为此打开了一种全新方式。
[0003]为了推动智慧图书馆的发展,必须充分利用海量资源数据,融合新兴技术,提升图书馆馆藏资源的利用率和用户满意度。推荐服务是当下图书馆个性化服务的核心内容,是图书馆将传统被动服务转变为主动服务的重要途径和方式,可以有效提高馆藏学术资源的利用率和用户满意度,为构建智能化、个性化、自动化的图书馆服务奠定基础。
[0004]基于内容过滤的文献推荐方法存在特征抽取表示效率低,推荐缺乏多样性和新颖性等问题。基于协同过滤的文献推荐方法提高了推荐文献的新颖性和多样性,但单纯使用协同过滤方法进行学术文献推荐将面临严重的数据稀疏问题。基于图的推荐假设引文拓扑能够准确反映文献之间的关联性,但该假设存在一些缺陷,新文献无法被旧文献引用,一些作者可能引用自己的无关的文献。混合推荐旨在将多个推荐方法结合起来弥补单个推荐方法存在的缺陷,是目前学术文献推荐的主流方向。现存方法都没有重视文献内容对于研究人员的关键作用,没有充分利用学术文献作为一种典型的结构化文本的特点。

技术实现思路

[0005]本专利技术为了解决现有学术文献推荐方法存在的冷启动,数据稀疏性问题,提供一种融合标题摘要语义关系的学术文献推荐方法。
[0006]本专利技术采取以下技术方案:一种融合标题摘要语义关系的学术文献推荐方法,包括以下步骤,S100:采集用户

文献交互数据并进行数据预处理;S200:搭建结合文本与隐反馈信息的学术文献推荐网络,文献推荐网络首先通过预训练BERT模型获得标题摘要中单词的向量表示,接着通过标题摘要注意力机制捕获标题摘要之间语义关系获得更好的文献向量表示,最后结合去掉项目嵌入模块的NCF模型处理用户

文献交互信息实现文献推荐;S300:将预处理后的数据集输入文献推荐网络,使用损失函数对文献推荐网络进行训练,并保存训练好的网络模型及参数;S400:使用训练好的网络计算每位用户对其它所有未交互过的文献的喜好分数,根据喜好分数对文献进行排序,选取前N篇文献推荐给用户。
[0007]步骤S100中,用户

文献交互数据为某位用户历史上是否收藏、浏览、点击过某篇
文献,是则存在交互对,否则不存在,具体包括每个用户历史上交互过的文献以及对应文献的标题摘要文本。
[0008]步骤S100中,数据预处理包括数据集的清洗和负采样,其中数据集的清洗包括合并重复文章、移除无效文章、去除收藏少于10篇文献的用户;负采样为对每对交互按比例随机选取几对不存在的交互。
[0009]步骤S200中,S201、将文献标题摘要文本传入预训练BERT模型,可以依次获得文献标题、摘要中单词的向量表示;S202、通过标题摘要注意力机制捕捉标题摘要之间语义关系获得更好的文献向量表示;S203、将S202中获得的文献向量表示赋值给去掉项目嵌入模块的NCF模型的GMF Item Vec和MLP Item Vec,作为 GMF文献向量表示和MLP文献向量表示,接着,通过广义矩阵分解与多层感知机两个模块分别处理用户

文献交互信息并融合得到用户对文献的喜好分数。
[0010]步骤S202的具体过程为:1)计算摘要句子中单词与标题中单词的相关性分数,,与为模型自主学习的权重参数,表示摘要第个句子中的第个单词,为标题。
[0011]2)对相关性分数进行归一化,得到摘要中每个单词的重要性权重,。
[0012]3)使用一层双向GRU网络对摘要中单词的向量表示进行编码,以捕捉摘要句子中单词之间的语义关系,得到每个单词的隐藏状态,加权聚集摘要句子中每个单词隐藏状态得到摘要句子向量表示,。
[0013]4)将标题中单词的向量表示依次通过一层单向GRU网络获得标题向量表示,将标题看作摘要的总结句,使用标题向量表示初始化另一个一层单向GRU网络的全局记忆,将摘要句子向量表示依次输入该GRU网络,得到文献向量表示。
[0014]步骤S300中,使用对数损失函数作为损失函数:
;其中,为预测喜好分数,表示正样本集,表示负样本集;对于用户

文献交互数据,为1表示用户可能对文献感兴趣,为0说明用户对文献不感兴趣或者用户根本没见过文献。
[0015]与现有技术相比,本专利技术具有以下有益效果:1)本专利技术方法使用大语料下的预训练BERT模型获取词向量表示来缓解语义理解偏差问题,将论文标题摘要文本内容输入BERT预训练模型,输出文本向量化表示,有效保证学术文献推荐效果。
[0016]2)本专利技术方法使用NCF模型建模学术文献推荐领域的用户

文献交互信息,使用多层神经网络代替传统矩阵分解模型中的内积操作,引入更多非线性特征和得到更多特征组合信息,更好捕捉用户

文献交互信息。
[0017]3)本专利技术方法注意到学术文献作为一种典型的结构化文本,标题是对整篇文章内容的凝练,充分反映论文核心主题,摘要包含更加丰富的补充信息,但不可避免会带来噪声。将标题看作摘要的总结句,将标题中的单词看作具有更重要信息的单词,提出标题摘要注意力机制捕捉标题摘要语义关系,获得更好的文献向量表示。
[0018]4)本专利技术方法使用预训练Bert模型和标题摘要注意力机制获得论文向量表示,使用其分别初始化NCF模型的论文GMF表示和论文MLP表示,进一步通过NCF模型捕获用户论文之间的隐反馈信息,结合进行推荐,很好缓解了学术论文推荐领域的稀疏性和冷启动问题,提高了论文推荐质量。
附图说明
[0019]图1为本专利技术方法中构建的学术论文推荐网络整体结构示意图;图2为本专利技术方法中使用的预训练BERT模型结构示意图;图3为本专利技术方法中使用的NCF模型结构示意图;图4为本专利技术方法中构建的标题摘要注意力机制结构示意图。
具体实施方式
[0020]下面结合说明书附图对本专利技术作进一步阐述。
[0021]本专利技术提出了一种融合标题摘要语义关系的学术文献推荐方法。该专利技术的具体实现步骤如下:S100:采集用户

文献交互数据,并对数据集进行数据预处理。数据集中有每个用户历史上交互过的文献以及对应文献的标题摘要,交互指用户历史上是否收藏、浏览、点击过某篇文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合标题摘要语义关系的学术文献推荐方法,其特征在于:包括以下步骤,S100:采集用户

文献交互数据并进行数据预处理;S200:搭建结合文本与隐反馈信息的学术文献推荐网络,文献推荐网络首先通过预训练BERT模型获得标题摘要中单词的向量表示,接着通过标题摘要注意力机制捕获标题摘要之间语义关系获得更好的文献向量表示,最后结合去掉项目嵌入模块的NCF模型处理用户

文献交互信息实现文献推荐;S300:将预处理后的数据集输入文献推荐网络,使用损失函数对文献推荐网络进行训练,并保存训练好的网络模型及参数;S400:使用训练好的网络计算每位用户对其它所有未交互过的文献的喜好分数,根据喜好分数对文献进行排序,选取前N篇推荐给用户。2.根据权利要求1所述的融合标题摘要语义关系的学术文献推荐方法,其特征在于:所述的步骤S100中,用户

文献交互数据为某位用户历史上是否收藏、浏览、点击过某篇文献,是则存在交互对,否则不存在,具体包括每个用户历史上交互过的文献以及对应文献的标题摘要文本。3.根据权利要求2所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S100中,数据预处理包括数据集的清洗和负采样,其中数据集的清洗包括合并重复文章、移除无效文章、去除收藏少于10篇论文的用户;负采样为对每对交互按比例随机选取几对不存在的交互。4.根据权利要求1所述的融合标题摘要语义关系的文献推荐方法,其特征在于:所述的步骤S200中,S201、将文献标题摘要文本传入预训练BERT模型,可以依次获得文献标题、摘要中单...

【专利技术属性】
技术研发人员:陈泽华陈雨民吕传建闫一帆
申请(专利权)人:太原理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1