基于自注意力机制的简历分类方法和装置制造方法及图纸

技术编号：34489009 阅读：19 留言：0更新日期：2022-08-10 09:07

本发明专利技术公开了一种基于自注意力机制的简历分类方法和装置，该方法包括：获取简历信息，对简历信息进行文本提取；对经过数据清洗后的纯文本信息进行信息抽取，得到工作信息；对工作信息采用卷积神经网络简历分类模型进行分类。所述的卷积神经网络简历分类模型包括嵌入层、卷积层、自注意力层、池化层与全连接层；自注意力层对所述的局部特征使用自注意力机制获取长距离依赖信息，并根据该长距离依赖信息进一步捕获简历文本中的关键分类特征；全连接层将经过降采样的卷积层的输出与自注意力层的输出进行特征融合并送入Softmax函数进行分类，得到简历的最终分类结果。本申请可以有效地进行简历分类，相比其他分类方法具有更优的分类性能和分类效率。分类性能和分类效率。分类性能和分类效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自注意力机制的简历分类方法和装置

[0001]本专利技术涉及文本分类
，尤其涉及一种基于自注意力机制的简历分类方法和装置。

技术介绍

[0002]随着互联网的飞速发展，电子简历信息呈爆炸性增长。简历是求职者向在线招聘网站或公司人力资源展示自身工作经验与技能的正式文件。为实现简历的有效分析与管理，提高人才和岗位的精确匹配性，进而提高招聘效率，其中一个重要环节就是对简历进行准确的行业类别划分。传统的简历分类方法主要是基于知识工程依靠人工构造规则进行简历分类，该类方法无法有效应对大数据时代下海量的格式各异的简历文件。
[0003]文本分类的任务是指按照一定的分类体系或规则对文本集进行自动划归类别的过程。目前，文本分类已经成为自然语言处理领域的一个热点研究问题。简历文本分类是指基于简历文本中求职者工作技能和工作经历等内容进行工作行业类别或工作岗位类别的划分。常见的工作行业类别包括信息技术、教育、金融、工程、医疗、艺术等。简历文本分类技术实现了简历的自动化分类，为后续人才推荐等提供了信息来源。
[0004]简历文本分类可以使用自然语言处理中的文本分类方法来实现。文本分类通常包括文本预处理、分词、文本表示、模型构建和分类几个过程。基于机器学习的文本分类模型主要有朴素贝叶斯、K
‑
近邻算法、逻辑回归、决策树和支持向量机等。近年来，得益于词向量技术和深度学习的发展，基于深度学习的文本分类模型避免了基于机器学习方法特征工程构建繁琐的问题，在分类的准确率上取得了...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的简历分类方法，其特征在于，包括：获取简历信息，对简历信息进行文本提取，得到纯文本信息；对纯文本信息进行数据清洗；对经过数据清洗后的纯文本信息进行信息抽取，得到工作信息；对工作信息采用卷积神经网络简历分类模型进行分类。2.如权利要求1所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的对纯文本信息进行数据清洗，包括去除文本中的特殊符号、非打印字符、多余的空行和个人基本信息。3.如权利要求1所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的对纯文本信息进行数据清洗，还包括对所获取的纯文本信息进行数据平滑处理，以消除某段时间内出现的采集误差；具体包括，对一段时间内针对同一简历获取的纯文本信息进行分段，每段构成一个文本向量y
i
,将一段时间内获取的N个文本向量，构成文本向量组[y1,y2,
…
,y
N
]，计算得到该文本向量组的互相关矩阵C，对互相关矩阵C进行特征值分解，得到：C＝VDV
H
，其中，V为特征向量矩阵，D为特征值矩阵，对矩阵D的对角线元素进行归一化处理并将其作为权值向量，对一段时间内采集的文本向量组进行加权求和，得到一段时间内针对同一简历获取的纯文本信息的平滑值，作为清洗后的数据。4.如权利要求1所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的工作信息，包括工作技能信息和工作经历信息。5.如权利要求1所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的卷积神经网络简历分类模型包括嵌入层、卷积层、自注意力层、池化层与全连接层；嵌入层根据输入卷积神经网络简历分类模型的工作信息，获取相应的词嵌入向量，并将其输入到卷积层中；卷积层对该词嵌入向量进行一维卷积运算，以提取其局部特征，并将该局部特征输入到自注意力层中；自注意力层对所述的局部特征使用自注意力机制获取长距离依赖信息，并根据该长距离依赖信息进一步捕获简历文本中的关键分类特征；池化层采用最大池化操作对自注意力层和卷积层的输出分别进行降采样，得到降采样的两个结果，并将该降采样的两个结果送入全连接层，全连接层对该降采样的两个结果进行特征融合并送入Softmax函数进行分类，得到简历的最终分类结果。6.如权利要求5所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的嵌入层，采用训练过的Word2Vec中的连续词袋模型，获取工作信息中每个单词的词嵌入向量，利用词嵌入向量构成矩阵，并将其作为卷积层的输入；所述的词嵌入向量构成的矩阵，表示为一个n
×
d维度的二维矩阵X，其表达式为：X＝[x1,x2,
…
x
i
,
…
,x
n
]
T
∈R
n
×
d
，其中，n是工作信息中包含的词嵌入向量个数，d是词嵌入向量维度，x
i
是工作信息中第i个单词的词嵌入向量。7.如权利要求5所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的将融合后的特征向量送入Softmax函数进行分类，其计算公式为：y
i
＝softmax(∑W
s
·
V+b
s
)，
其中y
i
表示分类预测后得到的类别，W
s
为全连接层的权值矩阵，V为特征融合后的特征向量，b
s
为全连接层的偏置。8.如权利要求5所述的基于自注意力机制的简历分类方法，其特征在于，包括：所述的自注意力层首先将局部特征所包含的文本序列映射为查询变量Q、键值变量K和价值变量V，再对查询变量Q和键值变量K进行点积运算，然后将点积运算结果进行归一化，把...

【专利技术属性】
技术研发人员：马涛，李小伟，刘金红，何劲，许四毛，马春来，常超，杨方，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人