一种基于招聘文本挖掘的专业主要就业方向识别方法技术

技术编号:31755528 阅读:30 留言:0更新日期:2022-01-05 16:38
本发明专利技术公开了一种基于招聘文本挖掘的专业主要就业方向识别方法,该方法以招聘网站的招聘信息为数据来源,通过主要数据采集、数据预处理、词向量化和K

【技术实现步骤摘要】
一种基于招聘文本挖掘的专业主要就业方向识别方法


[0001]本专利技术涉及专业主要就业方向识别领域,特别是涉及一种基于招聘文本挖掘的专业主要就业方向识别方法。

技术介绍

[0002]随着高校专业教育的多元化,专业人才的就业方向也更加广泛,企业对专业不同方向人才的需求会有所不同。因此,在当前人才供需矛盾日益突出的背景下,准确洞察市场对专业人才的就业方向需求,是高校培养符合市场需求的专业人才、促进专业人才就业、解决人才供需矛盾的关键。
[0003]据艾瑞网发布的《2020年中国网络招聘行业市场发展研究报告》,2019年网络招聘企业雇主数量已经达486.6万家,网络招聘已成为企业招聘的主要方式,从网络招聘信息中提取企业的招聘需求是获取就业市场需求的有效途径径。文本挖掘是一种能从非结构化文本数据中提取有意义信息的技术。

技术实现思路

[0004]本专利技术的目的在于提供一种基于招聘文本挖掘的专业主要就业方向识别方法,通过文本挖掘技术从招聘网站中获取专业的招聘岗位名称数据,分析专业的主要就业方向,为高校优化和改进专业的人才培养方案,培养符合市场需求的专业方向人才提供决策支持。
[0005]为实现上述目的,本专利技术所采用的技术方案是:
[0006]一种基于招聘文本挖掘的专业主要就业方向识别方法,包括以下步骤:
[0007]步骤1:数据采集,以专业名称作为关键词,使用Web爬虫技术从选定的招聘网站中爬取专业的招聘岗位名称;
[0008]步骤2:数据预处理,对采集的招聘岗位名称数据进行预处理操作;
[0009]步骤3:词向量化,采用Word2vec算法对招聘岗位名称进行词向量化,得到每个招聘岗位名称的向量表示;
[0010]步骤4:K

means聚类,使用K

means聚类算法对招聘岗位名称进行聚类分析,得到该专业的主要就业方向。
[0011]优选的,所述的数据采集包括以下子步骤:
[0012]步骤1.1:制定爬虫规则,确定招聘岗位名称数据采集的网页URL、页数范围和岗位筛选条件;
[0013]步骤1.2:网络爬虫,根据制定的爬虫规则采用Web爬虫技术采集专业的网络招聘岗位名称。
[0014]优选的,所述的数据预处理包括以下子步骤:
[0015]步骤2.1:数据清洗,对采集的招聘岗位名称数据进行数据清洗,清除数据中的数据噪声,数据噪声包括空值、重复值、异常值和HTML标签等;
[0016]步骤2.2:构建自定义词典,从经过分词和去停用词处理后的数据中选择有专业特定的岗位名称组合词放入自定义分词词典,选择无研究意义的词语放入自定义停用词库;
[0017]步骤2.3:分词和去停用词,利用Python中的Jieba分词程序包和构建的自定义分词词典对数据进行分词处理,并选用哈工大停用词表结合构建的自定义分词词典进行去停用词处理。
[0018]优选的,所述的词向量化包括以下子步骤:
[0019]步骤3.1:词向量初始化,利用均匀分布产生随机定长序列初始化词典向量表示。
[0020]步骤3.2:词向量训练,通过条件概率模型把问题建模为给定目标词的上下文,预测目标词的语言模型;利用梯度下降和反向传播最大化对数似然目标函数,得到目标词的向量表达,对数似然目标函数如下,
[0021][0022]式中P(ω
t

t

c
:ω
t+c
)为条件概率,T为句子的长度;ω
t
为预测的目标单词, c为上下文大小;ω
t

c
:ω
t+c
为目标单词不包含自身的前c个到后c个单词;
[0023]条件概率P由softmax得到,
[0024][0025][0026]式中N为词表大小;为的转置;为目标单词的向量表示;exp()为以自然常数为底的指数函数;v
n
为词表中第n个次的向量表示;v
j
为目标单词上下文中第j个词的向量表示。
[0027]优选的,所述的K

means聚类包括以下子步骤:
[0028]步骤4.1:招聘岗位名称的K

means聚类,使用K

means聚类算法对招聘岗位名称进行聚类分析,K

means算法以样本与质心的平方误差和SSE的最小值作为目标函数,计算公式如下:
[0029][0030][0031]式中:K为聚类簇数,E
i
为第i个簇;e
i
为E
i
的质心;x为E
i
中的知识点样本; N
i
为E
i
中的样本数;
[0032]选择满足以下约束公式的最小k作为最优的聚类个数,即为K的值,
[0033]Gap
k
≥Gap
k+1

s
k+1
ꢀꢀꢀ
(6)
[0034][0035][0036]式中B为蒙特卡洛模拟计算的模拟次数;SSE
k
为当前样本取K值为k时计算得到的SSE;SSE
kb
为取K值为k进行第b次蒙特卡洛模拟计算时的质心的平方误差和;
[0037]步骤4.2:归纳主要就业方向,对K

means聚类后的每一类岗位进行归纳,得到专业的主要就业方向。
[0038]本专利技术的有效收益在于:相比于问卷调查、企业走访、专家咨询等传统调研方法,采用文本挖掘技术能快速、高效、准确地从网络招聘文本数据中识别出就业市场对专业人才的就业方向需求。本专利技术采用文本挖掘技术对专业的网络招聘岗位名称进行深入挖掘,经过主要数据采集、数据预处理、词向量化和K

means 聚类4个步骤,得到专业的主要就业方向,为高校人才培养方案的优化和改进提供决策支持。
附图说明
[0039]图1为本专利技术基于招聘文本挖掘的专业主要就业方向识别方法。
[0040]图2为自定义词库构建流程。
[0041]图3为Gap值随k值变化的曲线图。
具体实施方式
[0042]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,以下结合附图及实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术技术方案,并不限于本专利技术。
[0043]本专利技术提供的一种基于招聘文本挖掘的专业主要就业方向识别方法,流程如图1所示,以工业工程专业为例,实施包括以下步骤:
[0044]步骤1:数据采集,采用网络爬虫技术,选择当前热门的招聘网站前程无忧 (https://www.51job.com),以“工业工程”为搜索关键词,在全国范围内爬取工业工程专业的招聘岗位名称数据;
[0045]步骤2:数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于招聘文本挖掘的专业主要就业方向识别方法,其特征在于,包括以下步骤:步骤1:数据采集,以专业名称作为关键词,使用Web爬虫技术从选定的招聘网站中爬取专业的招聘岗位名称;步骤2:数据预处理,对采集的招聘岗位名称数据进行预处理操作;步骤3:词向量化,采用Word2vec算法对招聘岗位名称进行词向量化,得到每个招聘岗位名称的向量表示;步骤4:K

means聚类,使用K

means聚类算法对招聘岗位名称进行聚类分析,得到该专业的主要就业方向。2.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法,其特征在于,所述步骤1的数据采集包括以下子步骤:步骤1.1:制定爬虫规则,确定招聘岗位名称数据采集的网页URL、页数范围和岗位筛选条件;步骤1.2:网络爬虫,根据制定的爬虫规则采用Web爬虫技术采集专业的网络招聘岗位名称。3.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法,其特征在于,所述步骤2的数据预处理包括以下子步骤:步骤2.1:数据清洗,对采集的招聘岗位名称数据进行数据清洗,清除数据中的数据噪声,数据噪声包括空值、重复值、异常值和HTML标签;步骤2.2:构建自定义词典,从经过分词和去停用词处理后的数据中选择有专业特定的岗位名称组合词放入自定义分词词典,选择无研究意义的词语放入自定义停用词库;步骤2.3:分词和去停用词,利用Python中的Jieba分词程序包和构建的自定义分词词典对数据进行分词处理,并选用哈工大停用词表结合构建的自定义分词词典进行去停用词处理。4.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法,其特征在于,所述步骤3的词向量化包括以下子步骤:步骤3.1:词向量初始化,利用均匀分布产生随机定长序列初始化词典向量表示。步骤3.2:词向量训练,通过条件概率模型把问题建模为给定目标词的上下文,预测目标词的语言模型;利用梯度下降和反向传播最大化对数似然目标函数,得到目标词的向量表达,对数似然目标函数如下,式中P(ω
t

t

c
:ω

【专利技术属性】
技术研发人员:张建桃曾莉刘洁荧韦婷婷黄文玲宋世领
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1