基于自注意力机制的简历分类方法和装置制造方法及图纸

技术编号:34489009 阅读:19 留言:0更新日期:2022-08-10 09:07
本发明专利技术公开了一种基于自注意力机制的简历分类方法和装置,该方法包括:获取简历信息,对简历信息进行文本提取;对经过数据清洗后的纯文本信息进行信息抽取,得到工作信息;对工作信息采用卷积神经网络简历分类模型进行分类。所述的卷积神经网络简历分类模型包括嵌入层、卷积层、自注意力层、池化层与全连接层;自注意力层对所述的局部特征使用自注意力机制获取长距离依赖信息,并根据该长距离依赖信息进一步捕获简历文本中的关键分类特征;全连接层将经过降采样的卷积层的输出与自注意力层的输出进行特征融合并送入Softmax函数进行分类,得到简历的最终分类结果。本申请可以有效地进行简历分类,相比其他分类方法具有更优的分类性能和分类效率。分类性能和分类效率。分类性能和分类效率。

【技术实现步骤摘要】
基于自注意力机制的简历分类方法和装置


[0001]本专利技术涉及文本分类
,尤其涉及一种基于自注意力机制的简历 分类方法和装置。

技术介绍

[0002]随着互联网的飞速发展,电子简历信息呈爆炸性增长。简历是求职者向 在线招聘网站或公司人力资源展示自身工作经验与技能的正式文件。为实现 简历的有效分析与管理,提高人才和岗位的精确匹配性,进而提高招聘效率, 其中一个重要环节就是对简历进行准确的行业类别划分。传统的简历分类方 法主要是基于知识工程依靠人工构造规则进行简历分类,该类方法无法有效 应对大数据时代下海量的格式各异的简历文件。
[0003]文本分类的任务是指按照一定的分类体系或规则对文本集进行自动划 归类别的过程。目前,文本分类已经成为自然语言处理领域的一个热点研究 问题。简历文本分类是指基于简历文本中求职者工作技能和工作经历等内容 进行工作行业类别或工作岗位类别的划分。常见的工作行业类别包括信息技 术、教育、金融、工程、医疗、艺术等。简历文本分类技术实现了简历的自 动化分类,为后续人才推荐等提供了信息来源。
[0004]简历文本分类可以使用自然语言处理中的文本分类方法来实现。文本分 类通常包括文本预处理、分词、文本表示、模型构建和分类几个过程。基于 机器学习的文本分类模型主要有朴素贝叶斯、K

近邻算法、逻辑回归、决策 树和支持向量机等。近年来,得益于词向量技术和深度学习的发展,基于深 度学习的文本分类模型避免了基于机器学习方法特征工程构建繁琐的问题, 在分类的准确率上取得了更好的表现。已有的基于深度学习的文本分类方 法,通常先对简历文本进行词嵌入,然后送入到卷积神经网络(CNN)或循 环神经网络(RNN)等模型进行训练,最后使用训练好的模型来实现文本类 别的预测。
[0005]对简历文件按工作行业和岗位进行分类,可为后续的简历推荐提供支 撑。基于自然语言处理的简历分类方法按照有无标注数据集可分为基于无监 督的简历聚类和有监督的简历分类。在无标注简历数据集或不确定简历类别 的情况下,通常采用K

means等聚类算法将简历按相似性进行聚类。无监督 的简历聚类可以将简历按相似性分割成不同的类别,但还需要结合人工对已 聚类的简历数据进行进一步分析和类别的判断。在已确定简历类别的情况 下,为了更为精准地进行简历的分类,采用有监督的简历分类模型来对未知 简历进行类别预测。基于机器学习的简历分类需要特征工程进行特征提取与 特征选择,而基于深度学习的文本分类模型可以自动提取文本特征。近年来, 随着深度学习在自然语言处理中的兴起,基于深度学习的简历分类研究越来 越多。现有方法在提升简历分类的准确性上还有待提升。

技术实现思路

[0006]针对现有简历分类方法所存在的准确性还有待提升的问题,本申请考虑 到简历中不同词语组成的特征对于简历分类的贡献度大小不同,将自注意力 机制引入到了经典
的卷积神经网络文本分类模型中,对简历文本特征进行了 更加丰富的表达。使用简历数据集进行实验验证,实验结果表明 CNN

Attention模型有助于进一步提高简历分类的准确率。本申请将自注意 力机制引入到分类模型中,依据不同词语组成的特征对分类效果影响的大小 赋予相应的权重,使分类模型进一步提取到简历文本中的重要特征,实现更 为准确的简历分类。
[0007]本申请公开了一种基于自注意力机制的简历分类方法,包括,获取简历 信息,对简历信息进行文本提取,得到纯文本信息,对纯文本信息进行数据 清洗,对经过数据清洗后的纯文本信息进行信息抽取,得到工作信息,对工 作信息采用卷积神经网络简历分类模型进行分类。
[0008]所述的对纯文本信息进行数据清洗,包括去除文本中的特殊符号、非打 印字符、多余的空行和个人基本信息。
[0009]所述的对纯文本信息进行数据清洗,还包括对所获取的纯文本信息进行 数据平滑处理,以消除某段时间内出现的采集误差;具体包括,对一段时间 内针对同一简历获取的纯文本信息进行分段,每段构成一个文本向量y
i
,将一 段时间内获取的N个文本向量,构成文本向量组[y1,y2,

,y
N
],计算得到该 文本向量组的互相关矩阵C,对互相关矩阵C进行特征值分解,得到:
[0010]C=VDV
H

[0011]其中,V为特征向量矩阵,D为特征值矩阵,对矩阵D的对角线元素进行归 一化处理并将其作为权值向量,对一段时间内采集的文本向量组进行加权求 和,得到一段时间内针对同一简历获取的纯文本信息的平滑值,作为清洗后 的数据。
[0012]所述的工作信息,包括工作技能信息和工作经历信息。
[0013]卷积神经网络简历分类模型包括嵌入层、卷积层、自注意力层、池化层 与全连接层。嵌入层根据输入卷积神经网络简历分类模型的工作信息,获取 相应的词嵌入向量,并将其输入到卷积层中;卷积层对该词嵌入向量进行一 维卷积运算,以提取其局部特征,并将该局部特征输入到自注意力层中;自 注意力层对所述的局部特征使用自注意力机制获取长距离依赖信息,并根据 该长距离依赖信息进一步捕获简历文本中的关键分类特征。池化层采用最大 池化操作对自注意力层和卷积层的输出分别进行降采样,得到降采样的两个 结果,并将该降采样的两个结果送入全连接层,全连接层将该降采样的两个 结果进行特征融合并送入Softmax函数进行分类,得到简历的最终分类结果。
[0014]所述的嵌入层,采用训练过的Word2Vec中的连续词袋模型,获取工作 信息中每个单词的词嵌入向量,利用词嵌入向量构成矩阵,并将其作为卷积 层的输入。所述的词嵌入向量构成的矩阵,表示为一个n
×
d维度的二维矩阵 X,其表达式为:
[0015]X=[x1,x2,

x
i
,

,x
n
]T
∈R
n
×
d

[0016]其中,n是工作信息中包含的词嵌入向量个数,d是词嵌入向量维度,x
i
是 工作信息中第i个单词的词嵌入向量。
[0017]所述的将融合后的特征向量送入Softmax函数进行分类,其计算公式为:
[0018]y
i
=softmax(∑W
s
·
V+b
s
),
[0019]其中y
i
表示分类预测后得到的类别,W
s
为全连接层的权值矩阵,V为特征融 合后的特征向量,b
s
为全连接层的偏置。
[0020]自注意力层首先将局部特征所包含的文本序列映射为查询变量Q、键值 变量K和价值变量V,再对查询变量Q和键值变量K进行点积运算,然后将 点积运算结果进行归一化,把归一化后得到的数值作为价值变量的权重系 数,最后将权重系数与价值变量进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的简历分类方法,其特征在于,包括:获取简历信息,对简历信息进行文本提取,得到纯文本信息;对纯文本信息进行数据清洗;对经过数据清洗后的纯文本信息进行信息抽取,得到工作信息;对工作信息采用卷积神经网络简历分类模型进行分类。2.如权利要求1所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的对纯文本信息进行数据清洗,包括去除文本中的特殊符号、非打印字符、多余的空行和个人基本信息。3.如权利要求1所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的对纯文本信息进行数据清洗,还包括对所获取的纯文本信息进行数据平滑处理,以消除某段时间内出现的采集误差;具体包括,对一段时间内针对同一简历获取的纯文本信息进行分段,每段构成一个文本向量y
i
,将一段时间内获取的N个文本向量,构成文本向量组[y1,y2,

,y
N
],计算得到该文本向量组的互相关矩阵C,对互相关矩阵C进行特征值分解,得到:C=VDV
H
,其中,V为特征向量矩阵,D为特征值矩阵,对矩阵D的对角线元素进行归一化处理并将其作为权值向量,对一段时间内采集的文本向量组进行加权求和,得到一段时间内针对同一简历获取的纯文本信息的平滑值,作为清洗后的数据。4.如权利要求1所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的工作信息,包括工作技能信息和工作经历信息。5.如权利要求1所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的卷积神经网络简历分类模型包括嵌入层、卷积层、自注意力层、池化层与全连接层;嵌入层根据输入卷积神经网络简历分类模型的工作信息,获取相应的词嵌入向量,并将其输入到卷积层中;卷积层对该词嵌入向量进行一维卷积运算,以提取其局部特征,并将该局部特征输入到自注意力层中;自注意力层对所述的局部特征使用自注意力机制获取长距离依赖信息,并根据该长距离依赖信息进一步捕获简历文本中的关键分类特征;池化层采用最大池化操作对自注意力层和卷积层的输出分别进行降采样,得到降采样的两个结果,并将该降采样的两个结果送入全连接层,全连接层对该降采样的两个结果进行特征融合并送入Softmax函数进行分类,得到简历的最终分类结果。6.如权利要求5所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的嵌入层,采用训练过的Word2Vec中的连续词袋模型,获取工作信息中每个单词的词嵌入向量,利用词嵌入向量构成矩阵,并将其作为卷积层的输入;所述的词嵌入向量构成的矩阵,表示为一个n
×
d维度的二维矩阵X,其表达式为:X=[x1,x2,

x
i
,

,x
n
]
T
∈R
n
×
d
,其中,n是工作信息中包含的词嵌入向量个数,d是词嵌入向量维度,x
i
是工作信息中第i个单词的词嵌入向量。7.如权利要求5所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的将融合后的特征向量送入Softmax函数进行分类,其计算公式为:y
i
=softmax(∑W
s
·
V+b
s
),
其中y
i
表示分类预测后得到的类别,W
s
为全连接层的权值矩阵,V为特征融合后的特征向量,b
s
为全连接层的偏置。8.如权利要求5所述的基于自注意力机制的简历分类方法,其特征在于,包括:所述的自注意力层首先将局部特征所包含的文本序列映射为查询变量Q、键值变量K和价值变量V,再对查询变量Q和键值变量K进行点积运算,然后将点积运算结果进行归一化,把...

【专利技术属性】
技术研发人员:马涛李小伟刘金红何劲许四毛马春来常超杨方
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1