一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统技术方案

技术编号:35300647 阅读:14 留言:0更新日期:2022-10-22 12:49
本发明专利技术公开了一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统,分类方法包括:获取求职人员简历文本,进行分词与停用词去除操作;由文本序列字典,将词语转化为对应的序列后经过词嵌入操作,将词语向量化,获得简历文本的向量表示;对输入文本各个时间步上的词语提取隐藏状态,获得包含上下文语义的向量编码;解码过程中引入注意力机制,使得每个时间步的输出关注输入时的不同内容,实现多标签输出;获取输出中概率最大作为最终的输出序列,通过反转字典,将输出序列转化为预测的各行业标签,实现多标签简历的行业分类。本发明专利技术可以解决目前的算法不能很好地通过简历信息提取来划分该简历所属人员能够适应的所有行业类别的问题。业类别的问题。业类别的问题。

【技术实现步骤摘要】
一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统


[0001]本专利技术涉及简历信息提取分类与在线求职领域,对简历中所涉及的行业进行多标签分类,是一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统。

技术介绍

[0002]随着科技技术的进步,电子简历逐步成为了招聘过程中的潮流,为求职者与招聘者带来了便利。一般简历上最能体现出求职者能力的内容即为个人的工作经历,表明其曾在哪些行业有过经验。招聘单位往往会通过此来判断该求职者是否可成为所需求的人才。
[0003]随着自然语言处理技术的进步,使得从简历中自动挖取语义信息变为可能,许多研究致力于简历信息的抽取,以提高企业人工筛选简历的效率。
[0004]而伴随着新型行业的出现,许多人能胜任的工作不再同以往一样单一,同一个人很可能有过许多不同行业的工作经历和项目经历。人员的能力多样化,使得该人员能够适应的行业也是多样的。以往研究中的单一分类将不能够完全体现该人员所能适应的行业范围,企业可能会因此错失所需潜力人才。针对此问题,亟需一种新的方法来实现人员简历的多标签分类。

技术实现思路

[0005]本专利技术的目的在于,提供一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统,将简历中的工作经历作为输入,将各个行业作为标签输出,预测简历所属的所有行业类别。可以解决目前的算法不能很好地通过简历信息提取来划分该简历所属人员能够适应的所有行业类别的问题。
[0006]为了实现上述目的,本专利技术采取如下技术方案:
[0007]本专利技术的第一方面,提供一种基于注意力机制Seq2Seq多标签简历的行业分类方法,包括如下步骤:
[0008]步骤S1、获取求职人员简历中的工作经历部分文本,根据预先准备好的专业词表以及停用词表进行分词以及停用词去除操作。
[0009]步骤S2、在输入前对输入数据进行必要的处理,具体如下:
[0010]对分词后的文本以及行业标签进行Word

Sequence操作,将文本序列字典保存,每一个分词后的结果都对应着为一个序列编号。
[0011]对输入内容,即简历文本的序列进行词嵌入操作,将每个词向量化表示,获得简历信息的词向量表示。根据输入的长度对每个批次的输入进行排序,以实现在编码时pack_padded_sequence打包的便捷操作。
[0012]步骤S3、在Seq2Seq编码阶段,将批次打包后的文本向量输入到双向的门控循环神经网络(bi

gru),获得各个时间步上的隐藏状态以及整个简历文本在编码阶段的输出。
[0013]步骤S4、在Seq2Seq解码阶段,将编码阶段的输出作为解码阶段的输入,输入到门
控循环神经网络(gru),在训练过程中,使用teacher forcing方法,改善Seq2Seq模型,同时在解码阶段中添加注意力机制来让模型更加关注句子中的重点内容。
[0014]步骤S5、使用beam search方法来对简历所涵盖的行业进行预测,并将预测的结果通过反转序列字典输出为对应的行业标签。
[0015]与现有的技术相比,本专利技术的多标签简历行业分类方法的有益效果体现在:首先对照国标行业分类和所属行业分类对简历进行行业标签标注(A,B,C,...),每一个简历都对应了一种或者多种标签,将这些标签的组合视为有含义的语句,Seq2Seq模型以向量化后的简历文本语句作为输入,以标签组合作为输出进行训练,使用束搜索获取输出概率最大的标签组合,实现多标签分类。
[0016]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S1中,使用jieba分词工具对简历文本进行分词,在分词过程中,补充一些行业中的专有词汇以及习惯用语,以确保这类词语不会被分割;补充停用词表,删除简历中常常出现的无意义的高频词,以减少这类词语对句子语义的影响,在神经网络训练过程中不断更新专业词表以及停用词表,可提高模型的分类效果。
[0017]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S2中,将分词后的训练集中的简历文本和标签进行词到序列的转化,使得出现的每一个词语和标签都有对应的序列,以保证可在反向文本序列字典中将输出序列转化为可识别的文本,对于测试集中未出现的字典中的词语以及因句子长度不够而要补充的词语分别进行“UNK”和“PAD”标注识别。
[0018]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,词嵌入的过程,是由文本转化为的序列进行向量化,即由保存的字典进行序列转化为词语向量的操作。在进行词嵌入操作的时候,会设定句子的最大长度,当实际文本小于设定的最大长度时,取实际的文本长度,当实际的文本长度大于设定的最大值时,则取设定的最大长度作为输入长度。
[0019]在每个批次的输入中,按照文本的长度进行排序后,进行pack_padded_sequence打包操作,填充压缩序列,使得这个批次中的句子序列长度一致,再经过步骤S3,经过双向门控神经网络(bi

gru)处理后,再经过pad_packed_sequence解包操作,将序列恢复到原先状态,此步操作提高了批次处理的效率。
[0020]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S3中,向量化的简历文本序列输入双向门控循环神经网络(bi

gru)中,获取正向的隐藏状态以及反向的隐藏状态,将正向与反向的隐藏状态进行拼接,得到每个词语当前时间步的状态表示,最终的隐藏状态输出为向量C,是一个包含了简历文本从前往后以及从后往前的上下文语义的编码。
[0021]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S4中,解码阶段的门控循环神经网络的初始隐藏状态为编码阶段的最后隐藏状态输出,即C。以初始化的张量作为输入,在解码阶段的第一个时间步上进行计算,得到第一个时间步上的输出和隐藏层状态,在进行下一个时间步计算时,会把前一次时间步的隐藏状态作为此时间步的隐藏状态输入,前一次的输出作为此次的输入。每个时间步上的输出为预测的简历文本的一个标签。
[0022]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S4中,门
控循环神经网络在训练过程中,会将前一个预测的结果作为下一个时间步上的输入,可能会导致一步错,步步错的结果。因此,使用teacher forcing方法,用真实的标签作为下一时间步上的输入,以此来纠正预测的偏差,在实际训练过程中,预测值与真实值随机交替使用,提高模型的收敛速度。
[0023]前述的基于注意力机制Seq2Seq多标签简历的行业分类方法中,所述步骤S4中,针对注意力机制部分,需要将解码阶段第i

1个时刻的隐藏状态s
i
‑1与编码阶段第j个时刻的隐藏状态输出h
j
进行一个相关性的计算,得到解码阶段第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:将简历文本转化为向量作为输入,将包含了简历信息的行业标签作为预测输出,包括以下步骤:步骤S1、获取求职人员简历中的工作经历部分文本,根据专业词表以及停用词表进行分词以及停用词去除操作;步骤S2、对分词后的简历文本中出现的每个单词以及行业标签建立由词对应序列的字典后,通过词嵌入技术对分词后的简历文本进行词嵌入操作,获得简历文本的词向量表示;步骤S3、编码阶段将文本向量输入到双向门控循环神经网络,获得各个时间步上的隐藏状态以及整个简历文本在编码阶段的输出;步骤S4、将编码阶段的隐藏状态输出作为解码阶段隐藏状态的初始输入,输入到门控循环神经网络,使用teacher forcing加速收敛,引入注意力机制关注句子重点内容;步骤S5、通过beam search方法获得输出概率最大的序列,并通过反转字典转化为对应的标签,实现多标签简历的行业分类。2.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述步骤S3中,先将向量化后的简历文本输入到双向门控循环神经网络,获得正向隐藏状态以及反向的隐藏状态,再将正向与反向的隐藏状态进行拼接,得到当前时间步上的状态,获得最后时间步上的隐藏状态输出后,通过一个线性层和一个激活函数获得编码阶段的输出。3.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法,其特征在于:所述步骤S4中,门控循环神经网络中,每个时间步的输入为上一个时间步引入注意力机制得到的输出;隐藏状态输入为上一时间步的隐藏状态输出。teacher forcing方法以一定概率将上一时间步的真实标签代替预测标签传入下一时间步,加速收敛。4.根据权利要求3所述的基于注意力机制Seq2Seq多标签简历的行业分...

【专利技术属性】
技术研发人员:郭宏徐壮侯文闫炳南冒源原超
申请(专利权)人:太原科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1