【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质
[0001]本公开属于计算机
,特别是涉及一种文本处理方法、装置、电子设备及存储介质。
技术介绍
[0002]随着机器学习等计算机技术近几年的快速发展,人们常常使用机器学习模型解决各种问题。其中,随着文本处理的要求越来越多,这也使得自然语言处理(Natural Language Processing,NLP)技术的发展越来越快。比如,在工作或学习中,往往要求用户撰写的文本为高质量文本,即,为用词与表述方式更高级的文本,尤其对于撰写语言为非母语的人员来说,撰写难度较大,且要花费较多时间。
[0003]相关技术中,自然语言处理方法主要集中在语法纠错领域。因此,现在急需一种可以调整文本表述内容及表述方式的文本处理方法。
技术实现思路
[0004]为克服相关技术中存在的问题,本公开提供一种文本处理方法、装置、电子设备及存储介质。
[0005]依据本公开的第一方面,提供了一种文本处理方法,该方法包括:
[0006]获取输入的待处理文本;
[0007]在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
[0008]在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
[0009]根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。可选的,所述预设文本库中存储有多个样本文本;
[0010]所述在预设文本库中,选取与所述待处理文本相匹配且满 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取输入的待处理文本;在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。2.根据权利要求1所述的方法,其特征在于,所述预设文本库中存储有多个样本文本;所述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本,包括:确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;筛选属于所述目标领域的样本文本,作为第二类型文本;将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本所属的目标领域,包括:获取所述待处理文本中的关键词;将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述样本文本拆分,得到不同内容属性对应的文本片段;按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。5.根据权利要求1所述的方法,其特征在于,所述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句,包括:确定所述待处理文本中的待修饰句;根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。6.根据权利要求5所述的方法,其特征在于,所述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句,包括:利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:获取多个样本语句;对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;将所述样本语句与所述样本翻译语句作为一个训练样本对;利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。9.根据权利要求7所述的方法,其特征在于,所述初始语句转换模型为Transformer模型。10.一种文本处理装置,其特征在于,所述装置包括:第一获取模块,用于获取输入的待处理文本;选取模块,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参...
【专利技术属性】
技术研发人员:姜博然,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。