当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于预训练语言模型和白化风格化的简历重构方法技术

技术编号:39568883 阅读:8 留言:0更新日期:2023-12-03 19:19
本发明专利技术公开了一种基于预训练语言模型和白化风格化的简历重构方法,包括以下步骤:步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;步骤2:构建性别分类器和规范化分类器;步骤3:构建简历复述模型并进行训练,简历复述模型以

【技术实现步骤摘要】
一种基于预训练语言模型和白化风格化的简历重构方法


[0001]本专利技术涉及计算机
,具体涉及一种基于预训练语言模型和白化风格化的简历重构方法


技术介绍

[0002]随着人工智能与大数据技术的进一步发展,
NLP
技术渗透到了各个行业,
AI
辅助简历撰写的应用程序已经出现,并且在市场上得到了广泛应用

这些应用程序使用自然语言处理和机器学习技术,通过分析大量简历和职位描述,自动生成优化的简历,以提高求职者的招聘成功率

然而,对于简历风格化的修订尚且欠缺,而这是不那么明显却依然很重要的一块

最近,人工智能系统越来越多的用于自动化许多招聘流程
(
如智能简历筛选
)
,由于从训练数据和从简历中推断的个人信息中学习到的偏见,一些人群可能会在没有人类指导和干预的情况下被人工智能算法歧视

这引起了对算法招聘公平性和道德的担忧

如此前亚马逊使用的人工智能招聘工具,被证明是对女性求职者具有偏见的

然而,有大量证据已经证明从不含任何标签的书写文本就可以以较高的正确率
(70

80

)
推断出书写者的性别,因此通过简单的不报告性别而实施的性别匿名化可能存在问题

[0003]实际上,在自然语言文本生成领域,消除性别偏见已经得到重视

现有方法,有的通过对词嵌入向量进行编辑,消除词嵌入中的性别倾向

然而,通过编辑嵌入向量来消除单词性别倾向可能会破坏单词的语义,从而导致其在上下文中的意义发生变化

此外,编辑之后仍然可能在模型生成新文本的过程中纳入性别信息或偏见

也有方法针对消除具体文本段落中的性别歧视和倾向的研究,一种可以用来消除文本文档偏见的机器学习技术是文本风格迁移,这是一种将文本实例从一个域转换到另一个域的技术,尽可能保持原始内容和含义不变的同时改变文体风格

这些方法中,基于关键字替换的局限性较大,操作不够灵活且可能导致最后文本不够流畅

基于神经网络生成方法注重于去掉性别信息,而没有重视在这个过程中,对原始文本的其他性别无关的内容和信息的保持,可能会丢失重要信息,这对于简历的重写是十分关键的


技术实现思路

[0004]本专利技术针对现有技术存在的问题提供一种基于预训练语言模型和白化风格化的简历重构方法

[0005]本专利技术采用的技术方案是:一种基于预训练语言模型和白化风格化的简历重构方法,包括以下步骤:
[0006]步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;
[0007]步骤2:构建性别分类器和规范化分类器;
[0008]步骤3:构建简历复述模型并进行训练,简历复述模型以
GPT2
模型为主体,在靠近输出端的某一层连接用于对重构简历进行白化和风格化的白化

风格化模块;
[0009]白化

风格化模块首先对重构简历进行白化转换,即去除输入表达中的风格信息,
生成只包含基本内容信息的文本表示;然后对白化后的文本表示进行风格化恢复;
[0010]步骤4:将简历输入步骤3训练完成的简历复述模型,即可得到风格重构简历

[0011]进一步的,所述步骤1中预处理包括对简历数据进行数据清洗,通过正则表达式去除包含乱码和非法符号的数据;得到简历正文和应聘者性别数据对

[0012]进一步的,所述步骤2中性别分类器和规范化分类器采用基于
GPT
模型的分类模型,性别分类器输出简历作者性别,规范化分类器输出规范化标签;性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练

[0013]进一步的,所述白化转换过程如下:
[0014]计算潜在表达
z
的协方差矩阵
[0015]∑
z

E[(z

z
μ
)(z

z
μ
)
T
][0016]式中:
z
μ

z
的均值,
T
表示转置操作,
E
为期望;
[0017]将协方差矩阵与单位矩阵
I
之间差值的弗罗贝尔乌斯范数最小化:
[0018][0019]式中:
W
为白化矩阵,
F
表示弗罗贝尼乌斯范数;
[0020]白化变换表示为:
[0021]c

Wz
[0022]式中:
z
为输入简历的潜在表达,
c
为白化后的潜在表达

[0023]进一步的,所述风格化过程如下:
[0024]代表风格特征的协方差矩阵

s
进行分解:
[0025][0026]式中:为特征值对角矩阵,为特征向量矩阵,
S
为风格化矩阵;
[0027]风格化矩阵如下:
[0028][0029]风格化转换如下:
[0030][0031]式中:为风格化的潜在表示

[0032]进一步的,所述步骤4中训练过程中采用的多目标优化函数为将以下目标最小化:
[0033][0034]式中:
x
为输入简历,
y
为重构后的简历;
logp(y|x)
为原始简历
x
的条件概率,
f
gen
(y)
为对于重构简历的性别目标函数,
f
formal
(y)
为对于重构简历的性别目标函数,
f
cont
(x

y)
为定义在
x

y
之间的内容函数;
[0035]其中
f
gen
(y)
采用性别分类器的性别预测概率的负对数;
f
formal
(y)
采用规范化分类器的规范化预测概率的负对数;
[0036]f
cont
(x

y)
定义如下:
[0037][0038]式中:为词语层级约束函数,
f
cont_sent
(x,y)
为句子层级约束函数,
γ1和
γ2为加权超参数;
[0039][0040][0041][0042]式中:
n
为模型构建的字典的大小,
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,包括以下步骤:步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;步骤2:构建性别分类器和规范化分类器;步骤3:构建简历复述模型并进行训练,简历复述模型以
GPT2
模型为主体,在输出端连接用于对重构简历进行白化和风格化的白化

风格化模块;白化

风格化模块首先对重构简历进行白化转换,即去除输入表达中的风格信息,生成只包含基本内容信息的文本表示;然后对白化后的文本表示进行风格化恢复;步骤4:将简历输入步骤3训练完成的简历复述模型,即可得到风格重构简历
。2.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤1中预处理包括对简历数据进行数据清洗,通过正则表达式去除包含乱码和非法符号的数据;得到简历正文和应聘者性别数据对
。3.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤2中性别分类器和规范化分类器采用基于
GPT
模型的分类模型,性别分类器输出简历作者性别,规范化分类器输出规范化标签;性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练
。4.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述白化转换过程如下:计算潜在表达
z
的协方差矩阵
Σ
z

E[(z

z
μ
)(z

z
μ
)
T
]
式中:
z
μ

z
的均值,
T
表示转置操作,
E
为期望;将协方差矩阵与单位矩阵
I
之间差值的弗罗贝尔乌斯范数最小化:式中:
W
为白化矩阵,
F
表示弗罗贝尼乌斯范数;白化变换表示为:
c

Wz
式中:
z
为输入简历的潜在表达,
c
为白化后的潜在表达
。5.
根据权利要求4所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述风格化过程如下:代表风格特征的协方差矩阵
Σ
s
进行分解:式中:为特征值对角矩阵,为特征向量矩阵,
S
为风格化矩阵;风格化矩阵如下:风格化转换如下:
式中:为风格化的潜在表示
。6.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤4中训练过程中采用的多目标优化函数为将以下目标最小化:式中:
x

【专利技术属性】
技术研发人员:吕建成屈茜刘权辉刘祥根叶庆张新宇蔡云逸余兰兰
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1