System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及中文自然语言处理,特别是涉及一种基于时序模型的岗位任职要求命名实体识别方法及装置。
技术介绍
1、随着社会的迅速发展和科技进步,一些传统行业和职位正逐渐被自动化替代或淘汰,而新的行业和职位不断涌现,对求职者的要求也在持续更新。然而,面对浩如烟海的招聘信息,如何从这些职位中提炼出有益的信息,以指导在校大学生选择合适的知识和技能学习路径,如何优化课程设置以使学生更好地适应就业市场,以及为求职者提供明确的技能提升方向,这些都是亟待解决的问题。实时从职位信息中提取关键信息,如具体职位所需的知识、素质、技能、经验、证书、学历、职称和专业要求等,将有助于指导就业和规划技能提升路径。
技术实现思路
1、有鉴于此,本申请提供了一种基于时序模型的岗位任职要求命名实体识别方法及装置,主要目的在于解决目前如何从这些职位中提炼出有益的信息以指导在校大学生选择合适的知识和技能学习路径、如何优化课程设置以使学生更好地适应就业市场、如何为求职者提供明确的技能提升方向的问题。
2、依据本申请第一方面,提供了一种基于时序模型的岗位任职要求命名实体识别方法,该方法包括:
3、获取待训练数据,对所述待训练数据进行预处理,得到所述待训练数据中每个待训练句子的字符的词嵌入和实体标签;
4、将所述每个待训练句子的字符的词嵌入和实体标签作为训练数据输入至时序模型中进行训练,得到岗位任职要求的命名实体识别模型;
5、确定待识别的岗位任职要求数据,采用所述命名实体识别模型对
6、可选地,所述获取待训练数据,对所述待训练数据进行预处理,得到所述待训练数据中每个待训练句子的字符的词嵌入和实体标签,包括:
7、获取原始语料,从所述原始语料中提取与岗位任职要求相关的数据片段;
8、对所述数据片段进行断句处理,得到多个待训练句子,以及将所述多个待训练句子作为所述待训练数据;
9、确定预设分词器,对所述预设分词器进行改进处理,得到改进后的所述预设分词器;
10、采用改进后的所述预设分词器对所述待训练数据中的每个待训练句子进行分词处理,以及按照词嵌入训练模型对训练数据的格式要求对分词处理的分词结果进行格式调整,得到格式调整后的所述分词结果;
11、基于所述词嵌入训练模型对格式调整后的所述分词结果进行训练,得到所述待训练数据中每个待训练句子的字符的词嵌入;
12、对所述每个待训练句子进行实体标注,得到所述每个待训练句子的实体标签。
13、可选地,所述对所述预设分词器进行改进处理,得到改进后的所述预设分词器,包括:
14、获取当前已积累的字符串,所述当前已积累的字符串包括词语、短语;
15、在所述预设分词器中获取所述分词词典,将所述当前已积累的字符串添加至所述分词词典中,得到改进后的所述预设分词器。
16、可选地,所述基于所述词嵌入训练模型对格式调整后的所述分词结果进行训练,得到所述待训练数据中每个待训练句子的字符的词嵌入,包括:
17、将格式调整后的所述分词结果中的字符以字符序列的形式输入至所述词嵌入训练模型中,得到所述每个待训练句子的字符的词嵌入vecn×v,其中,
18、vecn×v=cbow(x1,x2,x3,…,xm)
19、其中,所述vecn×v为词嵌入矩阵,所述vecn×v的维度是n×v,n为词表中字符的数量,v代表词嵌入的维度,(x1,x2,x3,…,xm)为输入序列,xm表示输入序列中的第m个字符串。
20、可选地,所述将所述每个待训练句子的字符的词嵌入和实体标签作为训练数据输入至时序模型中进行训练,得到岗位任职要求的命名实体识别模型,包括:
21、按照所述每个待训练句子的字符的词嵌入中的字符顺序,制作字符与字符编号的对应关系;
22、将所述每个待训练句子中的字符按照所述对应关系转为数字,以及按照字符编号顺序和字符的词嵌入构建模型的嵌入层;
23、基于所述模型的嵌入层和每个字符的字符编号,计算所述时序模型的隐藏层结果;
24、将所述隐藏层结果输入到一线性全连接层,基于所述线性全连接层对所述隐藏层结果进行加权求和以及非线性转换,得到转换后的所述隐藏层结果fc,其中,
25、fc=softmax(wfc*h)
26、其中,转换后的所述隐藏层结果fc是输入序列中各个字符投射到各个实体标签的概率矩阵;
27、将转换后的所述隐藏层结果fc作为发射矩阵输入至条件随机场,通过所述条件随机场的计算得到所述输入序列的预测标签序列;
28、利用所述预测标签的路径与所述实体标签的路径的对数似然损失,更新所述时序模型的模型参数,直至损失函数收敛,得到所述命名实体识别模型。
29、可选地,所述基于所述模型的嵌入层和每个字符的字符编号,计算所述时序模型的隐藏层结果,包括:
30、通过所述每个字符对应的字符编号从所述模型的嵌入层得到所述每个字符的向量作为所述时序模型的输入;
31、对所述每个字符的向量进行计算,得到所述时序模型输出的隐藏层结果。
32、可选地,所述对所述每个字符的向量进行计算,得到所述时序模型输出的隐藏层结果,包括:
33、对所述每个字符的向量进行前向传播计算,得到前向传播计算输出其中,
34、
35、
36、
37、
38、
39、
40、对所述每个字符的向量进行后向传播计算,得到后向传播计算输出其中,
41、
42、
43、
44、
45、
46、
47、将所述前向传播计算输出和所述后向传播计算输出进行拼接,得到所述隐藏层结果ht。
48、可选地,在所述条件随机场中进行计算时,其中,
49、
50、其中,y=(y1,y2,...,yn)是标签序列,x=(x1,x2,...,xn)是以序列形式输入的转换后的所述隐藏层结果,fj为特征函数,θj为对应的权重参数,k为标签数目,z(x)为归一化因子;p(y|x)表示给定输入序列x的条件下,输出序列y的概率。
51、可选地,所述采用所述命名实体识别模型对所述待识别的岗位任职要求数据进行命名实体识别,得到实体数据,包括:
52、采用所述命名实体识别模型对所述待识别的岗位任职要求数据进行按词地序列化标注,得到所述岗位任职要求数据的输入字符序列的预测标签序列;
53、按照所述预测标签序列中的标签顺序以及标签类别,将对应位置的输入字符序列进行拼接,得到所述输入字符序列中的实体数据。
54、依据本申请第二方面,提供了一种基于时序模型的岗位任职要本文档来自技高网...
【技术保护点】
1.一种基于时序模型的岗位任职要求命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待训练数据,对所述待训练数据进行预处理,得到所述待训练数据中每个待训练句子的字符的词嵌入和实体标签,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述预设分词器进行改进处理,得到改进后的所述预设分词器,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述词嵌入训练模型对格式调整后的所述分词结果进行训练,得到所述待训练数据中每个待训练句子的字符的词嵌入,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述每个待训练句子的字符的词嵌入和实体标签作为训练数据输入至时序模型中进行训练,得到岗位任职要求的命名实体识别模型,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述模型的嵌入层和每个字符的字符编号,计算所述时序模型的隐藏层结果,包括:
7.根据权利要求6所述的方法,其特征在于,所述对所述每个字符的向量进行计算,得到所述时序模型输出的隐藏层结果,包括:
...【技术特征摘要】
1.一种基于时序模型的岗位任职要求命名实体识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待训练数据,对所述待训练数据进行预处理,得到所述待训练数据中每个待训练句子的字符的词嵌入和实体标签,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述预设分词器进行改进处理,得到改进后的所述预设分词器,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述词嵌入训练模型对格式调整后的所述分词结果进行训练,得到所述待训练数据中每个待训练句子的字符的词嵌入,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述每个待训练句子的字符的词嵌入和实体标签作为训练数据输入至...
【专利技术属性】
技术研发人员:李伟,刘畅,强浩,董钊材,沈冬玲,王建为,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。