本发明专利技术公开了一种基于特征离散系数和注意力机制的智能人岗匹配方法,所述方法包括获取简历/岗位文本语料对预训练语义抽取模型进行模型精调;根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征;根据不同特征类型分析简历/岗位文本语料以提取特征,并存储于向量数据库中;取应聘者在客户端最近的前N条浏览记录,在向量数据库中查找浏览记录对应的各特征值,以计算应聘者的兴趣画像和各特征对应的兴趣度;对于每一个候选岗位推荐项,根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度;对各候选项的匹配度进行排序,得到推荐结果。得到推荐结果。得到推荐结果。
【技术实现步骤摘要】
一种基于特征离散系数和注意力机制的智能人岗匹配方法
[0001]本专利技术属于岗位匹配推荐领域,尤其涉及一种基于特征离散系数和注意力机制的智能人岗匹配方法。
技术介绍
[0002]近年来随着人工智能技术的发展,以往需要专业招、应聘双方从海量候选对象中自行筛选查找目标对象的现象也不复存在,而是利用供需双方提供的文本描述或者其历史浏览记录,借助文本向量匹配技术或者序列预测技术等深度学习方法实现对供需双方的智能匹配和推荐。
[0003]上述通过文本向量匹配的方法主要是借助word2vec或者TFIDF等技术简单的将整个简历文本或者特定字段转化成文本向量,然后借助向量相似技术进行岗位匹配。这种方法存在多种问题和缺点。首先,招、应聘双方的真实需求往往存在一定的模糊性和弹性,这种模糊性和弹性本身就很难通过文字来准确地表达,如果再加上文本材料撰写人的知识水平和文字功底有限,文本材料所表示的含义就更容易偏离作者的真实意图。其次word2vce或者TFIDF等文本向量生成方法仅仅是利用词频统计或者词频共现等信息生成词向量,然后再利用词向量通过平均或者简单加权的方法来计算文本向量,这种方法计算出来的文本向量仅含浅层语义信息,无法挖掘出文本所蕴含的深度语义信息,这样在进行文本语义匹配的时候就会出现对相似文本匹配不够准确的情况。再者,这种将简历不同字段无差别的进行向量转化然后进行相似度计算的方法忽略了不同字段对岗位匹配模型的重要度差异,这明显是违背现实招聘场景的。最后这种方法还忽略了一个明显的事实,即招、应聘双方的兴趣并不是一成不变的。比如如果候选方某一方面的条件特别优秀,主选方可能就会降低或者放弃对其它一些条件的要求。或者遇上招聘淡季或者旺季,招应聘双方会根据自己投递情况的反馈情况无意中降低或者提高自己的整体要求。因为这种改变通常是短期的或者是不断变化的,所以导致双方都无意去修改文本材料,这样一来仅利用文本向量匹配进行岗位匹配的方法便不能很好的适应这种兴趣变化的场景。
技术实现思路
[0004]针对现有技术不足,本专利技术提供了一种基于特征离散系数和注意力机制的智能人岗匹配方法。
[0005]为解决上述技术问题,本专利技术的技术方案为:本专利技术实施例的第一方面提供了一种基于特征离散系数和注意力机制的智能人岗匹配方法,所述方法包括以下子步骤:
[0006]S1,获取简历/岗位文本语料,通过人工标注的方式生成相似句子对,将其标记为正例,再将相似句子对打乱顺序作为负例,然后作为正例和负例输入到预训练语义抽取模型进行模型精调;
[0007]S2,根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征;将文本特征转化为语义向量,将数值型特征、等级型特征转化为数值标量,
并将语义向量和数值标量作为特征值存储于向量数据库中;
[0008]具体地,基于精调后的预训练语义抽取模型将文本特征转化为语义向量,基于简历/岗位文本统计分析将数值型、等级型特征归一化转化为0
‑
1之间的数值标量,并将语义向量和数值标量作为特征值存储于向量数据库中;
[0009]S3,自定义浏览记录超参数N,取应聘者在客户端最近的前N条浏览记录,在向量数据库中查找浏览记录对应的各特征值,以获取应聘者的兴趣画像和各特征对应的兴趣度;
[0010]S4,对于每一个候选岗位推荐项,根据岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度;
[0011]S5,对步骤S4得到的各候选项的匹配度进行排序,得到推荐结果。
[0012]本专利技术实施例的第二方面提供了一种基于特征离散系数和注意力机制的智能人岗匹配装置,包括一个或多个处理器,用于上述的基于特征离散系数和注意力机制的智能人岗匹配方法。
[0013]本专利技术实施例的第三方面提供了一种计算机可读存储介质,其上存储有程序该程序被处理器执行时,用于实现上述的基于特征离散系数和注意力机制的智能人岗匹配方法。
[0014]与现有技术相比,本专利技术的有益效果为:
[0015](1)本专利技术对文本特征采用预训练加精调的sentence_transformer进行向量转换,可以极大地增加文本特征向量表达的准确度。对于数值型特征、等级型特征根据值域范围分析并进行合理转化,使得各特征无需样本进行训练便可得到准确合理的表征。
[0016](2)在计算特征更新向量时引入了兴趣、时长以及相似度等多维注意力机制,从用户对某一记录的浏览持续时长中提取了用户对该记录的兴趣注意力分数,作为该记录下所有特征的兴趣注意力分数;从用户浏览结束某一记录距今时长中提取了该记录的记忆注意力分数并作为该记录下所有特征的记忆注意力分数,从用户浏览记录各特征与特征画像相似度提取了特征相似注意力分数。
[0017](3)通过不同子类注意力分数的均方根来计算综合注意力分数,使得生成新画像时对单项注意力分数非常高的特征记录给予更多的关注。
[0018](4)计算候选简历/岗位与目标岗位/简历匹配度时,借助离散系数来生成特征匹配权重(即特征兴趣度),确保对用户感兴趣(表现为相似度比较稳定)的特征给予更多的权重。
[0019](5)本专利技术无需采集用户的原始数据进行训练,即可保证较高的推荐精准度,保证了用户的数据安全和隐私。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术方法的流程图。
[0022]图2为本专利技术装置的示意图。
具体实施方式
[0023]下面结合附图,对本专利技术进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0024]如图1所示,本专利技术提出了一种基于特征离散系数和注意力机制的智能人岗匹配方法,所述方法具体包括以下子步骤:
[0025]S1,获取招聘领域文档材料(即简历/岗位文本语料),通过人工标注的方式生成相似句子对,将其标记为正例,再将相似句子对打乱顺序作为负例,然后作为正例和负例输入到预训练语义抽取模型进行模型精调。
[0026]在上述步骤S1中,可以通过网上收集或自行生成的方式获取招聘领域文档材料,语料的收集以招聘领域材料为佳,若是招聘领域语料不足可以从各专业领域进行搜集补充。在完成语料搜集后最重要的是对招聘领域文档材料进行语句对的标注,语句对标注的方法是从语料库中遴选两两语义相似的句子/段落放在同一个列表中作为训练语库。为减轻人工遴选的工作量,可以先将语料分句或分段,然后转化成语句向量,再通过计算向量相似性从语料库中查找语义最相似的若干句子,最后通过人工复核的方式进行语料筛选,得到简历/岗位文本语料。在本实例中,所述预训练语义抽取模型选用sentence
‑
transf本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于特征离散系数和注意力机制的智能人岗匹配方法,其特征在于,所述方法包括以下子步骤:S1,获取简历/岗位文本语料,通过人工标注的方式生成相似句子对,将其标记为正例,再将相似句子对打乱顺序作为负例,然后作为正例和负例输入到预训练语义抽取模型进行模型精调;S2,根据各个字段的描述类型将简历/岗位文本语料划分为文本特征、数值型特征、等级型特征;将文本特征转化为语义向量,将数值型特征、等级型特征转化为数值标量,并将语义向量和数值标量作为特征值存储于向量数据库中;S3,自定义浏览记录超参数N,取应聘者在客户端最近的前N条浏览记录,在向量数据库中查找浏览记录对应的各特征值,以获取应聘者的兴趣画像和各特征对应的兴趣度;S4,对于每一个候选岗位推荐项,根据候选岗位的各个特征值与对应特征的兴趣画像之间的相似度与该特征的兴趣度得到匹配度;S5,对步骤S4得到的各候选项的匹配度进行排序,得到推荐结果。2.根据权利要求1所述的基于特征离散系数和注意力机制的智能人岗匹配方法,其特征在于,基于精调的预训练语义抽取模型、特征类型分析简历/岗位文本语料以提取特征的过程包括:对于文本特征,利用步骤S1精调后的预训练语义抽取模型将文本特征转换成语义向量;对于数值型特征,先推理得到数值型特征的数据范围,然后进行极大极小值归一化处理;对于等级型特征根据等级数量不同,将其按照等差数列形式进行极大极小值归一化处理;将上述提取的特征存储于向量数据库ES中。3.根据权利要求1所述的基于特征离散系数和注意力机制的智能人岗匹配方法,其特征在于,所述步骤S3具体包括以下子步骤:S31,对于每条浏览记录,将其浏览开始时间与浏览结束时间差值进行softmax归一化,然后将其作为每条浏览记录的兴趣注意力分数Wr_i;S32,对于每条浏览记录,将其浏览结束时间与当前时间的差值的倒数进行softmax归一化,然后将其作为每条浏览记录的记忆注意力分数Wr_m;S33,对不同浏览记录中的相同特征计算其特征平均值,对于每条浏览记录,每个特征计算其与对应特征平均值的相似度Srf;S34,对每个特征,计算其在不同浏览记录下的相似度Srf的离散系数Df;S35,对每个特征,利用其离散系数Df计算其更新权重Uf;S36,对不同特征的更新权重Uf进行softmax归一化计算,得到该特征的兴趣度If;S37,对每个特征,将步骤S33计算得到的在不同浏览记录下的相似度Srf进行softmax归一化计算,并将结果作...
【专利技术属性】
技术研发人员:魏伟,朱晓明,黄程韦,阚保春,郑海天,刘海丰,陈圆谜,
申请(专利权)人:浙江杭钢职业教育集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。