【技术实现步骤摘要】
一种基于预训练语言模型和白化风格化的简历重构方法
[0001]本专利技术涉及计算机
,具体涉及一种基于预训练语言模型和白化风格化的简历重构方法
。
技术介绍
[0002]随着人工智能与大数据技术的进一步发展,
NLP
技术渗透到了各个行业,
AI
辅助简历撰写的应用程序已经出现,并且在市场上得到了广泛应用
。
这些应用程序使用自然语言处理和机器学习技术,通过分析大量简历和职位描述,自动生成优化的简历,以提高求职者的招聘成功率
。
然而,对于简历风格化的修订尚且欠缺,而这是不那么明显却依然很重要的一块
。
最近,人工智能系统越来越多的用于自动化许多招聘流程
(
如智能简历筛选
)
,由于从训练数据和从简历中推断的个人信息中学习到的偏见,一些人群可能会在没有人类指导和干预的情况下被人工智能算法歧视
。
这引起了对算法招聘公平性和道德的担忧
。
如此前亚马逊使用的人工智能招聘工具,被证明是对女性求职者具有偏见的
。
然而,有大量证据已经证明从不含任何标签的书写文本就可以以较高的正确率
(70
~
80
%
)
推断出书写者的性别,因此通过简单的不报告性别而实施的性别匿名化可能存在问题
。
[0003]实际上,在自然语言文本生成领域,消除性别偏见已经得到重视
。
现有方法,有 ...
【技术保护点】
【技术特征摘要】
1.
一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,包括以下步骤:步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;步骤2:构建性别分类器和规范化分类器;步骤3:构建简历复述模型并进行训练,简历复述模型以
GPT2
模型为主体,在输出端连接用于对重构简历进行白化和风格化的白化
‑
风格化模块;白化
‑
风格化模块首先对重构简历进行白化转换,即去除输入表达中的风格信息,生成只包含基本内容信息的文本表示;然后对白化后的文本表示进行风格化恢复;步骤4:将简历输入步骤3训练完成的简历复述模型,即可得到风格重构简历
。2.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤1中预处理包括对简历数据进行数据清洗,通过正则表达式去除包含乱码和非法符号的数据;得到简历正文和应聘者性别数据对
。3.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤2中性别分类器和规范化分类器采用基于
GPT
模型的分类模型,性别分类器输出简历作者性别,规范化分类器输出规范化标签;性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练
。4.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述白化转换过程如下:计算潜在表达
z
的协方差矩阵
Σ
z
=
E[(z
‑
z
μ
)(z
‑
z
μ
)
T
]
式中:
z
μ
为
z
的均值,
T
表示转置操作,
E
为期望;将协方差矩阵与单位矩阵
I
之间差值的弗罗贝尔乌斯范数最小化:式中:
W
为白化矩阵,
F
表示弗罗贝尼乌斯范数;白化变换表示为:
c
=
Wz
式中:
z
为输入简历的潜在表达,
c
为白化后的潜在表达
。5.
根据权利要求4所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述风格化过程如下:代表风格特征的协方差矩阵
Σ
s
进行分解:式中:为特征值对角矩阵,为特征向量矩阵,
S
为风格化矩阵;风格化矩阵如下:风格化转换如下:
式中:为风格化的潜在表示
。6.
根据权利要求1所述的一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,所述步骤4中训练过程中采用的多目标优化函数为将以下目标最小化:式中:
x
【专利技术属性】
技术研发人员:吕建成,屈茜,刘权辉,刘祥根,叶庆,张新宇,蔡云逸,余兰兰,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。