一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统技术方案

技术编号：35300647 阅读：14 留言：0更新日期：2022-10-22 12:49

本发明专利技术公开了一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统，分类方法包括：获取求职人员简历文本，进行分词与停用词去除操作；由文本序列字典，将词语转化为对应的序列后经过词嵌入操作，将词语向量化，获得简历文本的向量表示；对输入文本各个时间步上的词语提取隐藏状态，获得包含上下文语义的向量编码；解码过程中引入注意力机制，使得每个时间步的输出关注输入时的不同内容，实现多标签输出；获取输出中概率最大作为最终的输出序列，通过反转字典，将输出序列转化为预测的各行业标签，实现多标签简历的行业分类。本发明专利技术可以解决目前的算法不能很好地通过简历信息提取来划分该简历所属人员能够适应的所有行业类别的问题。业类别的问题。业类别的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统

[0001]本专利技术涉及简历信息提取分类与在线求职领域，对简历中所涉及的行业进行多标签分类，是一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统。

技术介绍

[0002]随着科技技术的进步，电子简历逐步成为了招聘过程中的潮流，为求职者与招聘者带来了便利。一般简历上最能体现出求职者能力的内容即为个人的工作经历，表明其曾在哪些行业有过经验。招聘单位往往会通过此来判断该求职者是否可成为所需求的人才。
[0003]随着自然语言处理技术的进步，使得从简历中自动挖取语义信息变为可能，许多研究致力于简历信息的抽取，以提高企业人工筛选简历的效率。
[0004]而伴随着新型行业的出现，许多人能胜任的工作不再同以往一样单一，同一个人很可能有过许多不同行业的工作经历和项目经历。人员的能力多样化，使得该人员能够适应的行业也是多样的。以往研究中的单一分类将不能够完全体现该人员所能适应的行业范围，企业可能会因此错失所需潜力人才。针对此问题，亟需一种新的方法来实现人员简历的多标签分类。

技术实现思路

[0005]本专利技术的目的在于，提供一种基于注意力机制Seq2Seq多标签简历的行业分类方法及系统，将简历中的工作经历作为输入，将各个行业作为标签输出，预测简历所属的所有行业类别。可以解决目前的算法不能很好地通过简历信息提取来划分该简历所属人员能够适应的所有行业类别的问题。
[0006]为了实现上述目的，本专利技术采取如下技术方案：...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制Seq2Seq多标签简历的行业分类方法，其特征在于：将简历文本转化为向量作为输入，将包含了简历信息的行业标签作为预测输出，包括以下步骤：步骤S1、获取求职人员简历中的工作经历部分文本，根据专业词表以及停用词表进行分词以及停用词去除操作；步骤S2、对分词后的简历文本中出现的每个单词以及行业标签建立由词对应序列的字典后，通过词嵌入技术对分词后的简历文本进行词嵌入操作，获得简历文本的词向量表示；步骤S3、编码阶段将文本向量输入到双向门控循环神经网络，获得各个时间步上的隐藏状态以及整个简历文本在编码阶段的输出；步骤S4、将编码阶段的隐藏状态输出作为解码阶段隐藏状态的初始输入，输入到门控循环神经网络，使用teacher forcing加速收敛，引入注意力机制关注句子重点内容；步骤S5、通过beam search方法获得输出概率最大的序列，并通过反转字典转化为对应的标签，实现多标签简历的行业分类。2.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法，其特征在于：所述步骤S3中，先将向量化后的简历文本输入到双向门控循环神经网络，获得正向隐藏状态以及反向的隐藏状态，再将正向与反向的隐藏状态进行拼接，得到当前时间步上的状态，获得最后时间步上的隐藏状态输出后，通过一个线性层和一个激活函数获得编码阶段的输出。3.根据权利要求1所述的基于注意力机制Seq2Seq多标签简历的行业分类方法，其特征在于：所述步骤S4中，门控循环神经网络中，每个时间步的输入为上一个时间步引入注意力机制得到的输出；隐藏状态输入为上一时间步的隐藏状态输出。teacher forcing方法以一定概率将上一时间步的真实标签代替预测标签传入下一时间步，加速收敛。4.根据权利要求3所述的基于注意力机制Seq2Seq多标签简历的行业分...

【专利技术属性】
技术研发人员：郭宏，徐壮，侯文，闫炳南，冒源，原超，
申请(专利权)人：太原科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人