【技术实现步骤摘要】
文档处理方法、装置及计算机设备、存储介质、程序产品
[0001]本申请涉及计算机
,尤其涉及人工智能
,具体涉及一种文档处理方法、一种文档处理装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。
技术介绍
[0002]随着计算机技术的快速发展,越来越多的网络参与者会在网络平台(例如,社交平台、网络购物平台、以及对话系统等等)上发表情感化的文档内容,分析隐藏在情感背后的原因有利于理解网络参与者产生情感的原因,可以促进网络平台进行改进,使得网络平台能够更好地服务于网络参与者;基于此,从文档中提取情感原因对成为自然语言处理技术中的一项重要任务。
[0003]目前,端到端的方法是情感原因对提取任务的主流方法,所谓端到端的方法是指:训练一个文档处理模型,将文档作为文档处理模型的输入,文档处理模型执行情感原因对提取任务,并输出从文档中提取的情感原因对;在采用端到端的方法提取情感原因对时,提取的情感原因对的准确率取决于文档处理模型的训练效果,训练效果差的文档处理模型进行情感原因对提取的准确率不高。因此,如何提升用于提取情感原因对的文档处理模型的训练效果,成为当前的研究热点。
技术实现思路
[0004]本申请实施例提供了一种文档处理方法、装置及计算机设备、存储介质、程序产品,可以提升文档处理模型的训练效果,从而可以提升文档处理模型提取情感原因对的准确率。
[0005]一方面,本申请实施例提供了一种文档处理方法,该文档处理方法包括:
[0006]获取用于对文档处理模型 ...
【技术保护点】
【技术特征摘要】
1.一种文档处理方法,其特征在于,所述方法包括:获取用于对文档处理模型进行训练的样本文档;调用所述文档处理模型按照第一方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第一方向上的处理损失;所述情感原因对是指由一个情感句和一个原因句组成的语句对;所述第一方向是指以情感句为依据提取情感原因对的方向;调用所述文档处理模型按照第二方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第二方向上的处理损失;所述第二方向是指以原因句为依据提取情感原因对的方向;基于所述第一方向上的处理损失和所述第二方向上的处理损失,对所述文档处理模型进行训练;训练好的文档处理模型用于分别按照所述第一方向和所述第二方向进行情感原因对的提取。2.如权利要求1所述的方法,其特征在于,所述调用所述文档处理模型按照第一方向从所述样本文档中提取情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型在所述第一方向上的处理损失,包括:调用所述文档处理模型,对所述样本文档进行情感句预测,并获取所述情感句预测所产生情感句预测损失;调用所述文档处理模型,基于标注情感句对所述样本文档进行原因句预测,并获取所述原因句预测所产生原因句预测损失;对所述情感句预测损失和所述原因句预测损失进行求和处理,得到所述文档处理模型在所述第一方向上的处理损失。3.如权利要求2所述的方法,其特征在于,所述样本文档包括多个文档语句;所述调用所述文档处理模型,对所述样本文档进行情感句预测,并获取所述情感句预测所产生情感句预测损失,包括:获取情感查询语句;调用所述文档处理模型,基于所述情感查询语句对所述样本文档中的每个文档语句进行情感句预测,得到所述样本文档中的各个文档语句的情感预测概率;根据所述各个文档语句的情感分类类型和情感预测概率,计算情感句预测损失。4.如权利要求3所述的方法,其特征在于,所述调用所述文档处理模型,基于所述情感查询语句对所述样本文档中的每个文档语句进行情感句预测,得到所述样本文档中的各个文档语句的情感预测概率,包括:对所述情感查询语句进行向量编码,得到所述情感查询语句的向量表示;以及,分别对所述样本文档中的各个文档语句进行向量编码,得到所述各个文档语句的向量表示;对所述情感查询语句的向量表示进行上下文特征提取,得到所述情感查询语句的上下文特征;以及,分别对所述各个文档语句的向量表示进行上下文特征提取,得到所述各个文档语句的上下文特征;将所述情感查询语句的上下文特征,分别与所述各个文档语句的上下文特征进行拼接处理,得到所述各个文档语句的拼接上下文特征;基于每个文档语句的拼接上下文特征,对相应文档语句进行情感句预测,得到所述样
本文档中的各个文档语句的情感预测概率。5.如权利要求1所述的方法,其特征在于,所述方法还包括:获取所述样本文档中的非情感句和非原因句;所述非情感句用于模拟所述文档处理模型在测试过程中提取了错误情感句的情况,所述非原因句用于模拟所述文档处理模型在测试过程中提取了错误原因句的情况;调用所述文档处理模型从所述样本文档中提取所述非情感句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非情感句的测试模拟损失;调用所述文档处理模型从所述样本文档中提取所述非原因句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非原因句的测试模拟损失;所述基于所述第一方向上的处理损失和所述第二方向上的处理损失,对所述文档处理模型进行训练,包括:基于所述第一方向上的处理损失、所述第二方向上的处理损失、所述非情感句的测试模拟损失以及所述非原因句的测试模拟损失,对所述文档处理模型进行训练。6.如权利要求5所述的方法,其特征在于,所述样本文档包括多个文档语句;所述调用所述文档处理模型从所述样本文档中提取所述非情感句对应的情感原因对,并在情感原因对的提取过程中,获取所述文档处理模型针对所述非情感句的测试模拟损失,包括:生成所述非情感句对应的原因查询语句;调用所述文档处理模型,基于所述非情感句对应的原因查询语句,对所述样本文档中的各个文档语句进行原因句预测,得到所述样本文档中的各个文档语句在所述非情感句下的原因预测概率;根据所述各个文档语句在所述非情感句下的原因分类类型和原因预测概率,计算所述文档处理模型针对所述非情感句的测试模拟损失。7.如权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:周青宇,程紫峰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。