一种基于招聘文本挖掘的专业主要就业方向识别方法技术

技术编号：31755528 阅读：30 留言：0更新日期：2022-01-05 16:38

本发明专利技术公开了一种基于招聘文本挖掘的专业主要就业方向识别方法，该方法以招聘网站的招聘信息为数据来源，通过主要数据采集、数据预处理、词向量化和K

全部详细技术资料下载

【技术实现步骤摘要】
一种基于招聘文本挖掘的专业主要就业方向识别方法

[0001]本专利技术涉及专业主要就业方向识别领域，特别是涉及一种基于招聘文本挖掘的专业主要就业方向识别方法。

技术介绍

[0002]随着高校专业教育的多元化，专业人才的就业方向也更加广泛，企业对专业不同方向人才的需求会有所不同。因此，在当前人才供需矛盾日益突出的背景下，准确洞察市场对专业人才的就业方向需求，是高校培养符合市场需求的专业人才、促进专业人才就业、解决人才供需矛盾的关键。
[0003]据艾瑞网发布的《2020年中国网络招聘行业市场发展研究报告》，2019年网络招聘企业雇主数量已经达486.6万家，网络招聘已成为企业招聘的主要方式，从网络招聘信息中提取企业的招聘需求是获取就业市场需求的有效途径径。文本挖掘是一种能从非结构化文本数据中提取有意义信息的技术。

技术实现思路

[0004]本专利技术的目的在于提供一种基于招聘文本挖掘的专业主要就业方向识别方法，通过文本挖掘技术从招聘网站中获取专业的招聘岗位名称数据，分析专业的主要就业方向，为高校优化和改进专业的人才培养方案，培养符合市场需求的专业方向人才提供决策支持。
[0005]为实现上述目的，本专利技术所采用的技术方案是：
[0006]一种基于招聘文本挖掘的专业主要就业方向识别方法，包括以下步骤：
[0007]步骤1：数据采集，以专业名称作为关键词，使用Web爬虫技术从选定的招聘网站中爬取专业的招聘岗位名称；
[0008]步骤2：数据预处理，对采集的招聘岗位名...

【技术保护点】

【技术特征摘要】
1.一种基于招聘文本挖掘的专业主要就业方向识别方法，其特征在于，包括以下步骤：步骤1：数据采集，以专业名称作为关键词，使用Web爬虫技术从选定的招聘网站中爬取专业的招聘岗位名称；步骤2：数据预处理，对采集的招聘岗位名称数据进行预处理操作；步骤3：词向量化，采用Word2vec算法对招聘岗位名称进行词向量化，得到每个招聘岗位名称的向量表示；步骤4：K
‑
means聚类，使用K
‑
means聚类算法对招聘岗位名称进行聚类分析，得到该专业的主要就业方向。2.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法，其特征在于，所述步骤1的数据采集包括以下子步骤：步骤1.1：制定爬虫规则，确定招聘岗位名称数据采集的网页URL、页数范围和岗位筛选条件；步骤1.2：网络爬虫，根据制定的爬虫规则采用Web爬虫技术采集专业的网络招聘岗位名称。3.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法，其特征在于，所述步骤2的数据预处理包括以下子步骤：步骤2.1：数据清洗，对采集的招聘岗位名称数据进行数据清洗，清除数据中的数据噪声，数据噪声包括空值、重复值、异常值和HTML标签；步骤2.2：构建自定义词典，从经过分词和去停用词处理后的数据中选择有专业特定的岗位名称组合词放入自定义分词词典，选择无研究意义的词语放入自定义停用词库；步骤2.3：分词和去停用词，利用Python中的Jieba分词程序包和构建的自定义分词词典对数据进行分词处理，并选用哈工大停用词表结合构建的自定义分词词典进行去停用词处理。4.根据权利要求1所述的一种基于招聘文本挖掘的专业主要就业方向识别方法，其特征在于，所述步骤3的词向量化包括以下子步骤：步骤3.1：词向量初始化，利用均匀分布产生随机定长序列初始化词典向量表示。步骤3.2：词向量训练，通过条件概率模型把问题建模为给定目标词的上下文，预测目标词的语言模型；利用梯度下降和反向传播最大化对数似然目标函数，得到目标词的向量表达，对数似然目标函数如下，式中P(ω
t
|ω
t
‑
c
：ω

【专利技术属性】
技术研发人员：张建桃，曾莉，刘洁荧，韦婷婷，黄文玲，宋世领，
申请(专利权)人：华南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人