文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36579222 阅读:41 留言:0更新日期:2023-02-04 17:38
本公开提供了一种文本处理方法、装置、电子设备及存储介质,属于计算机技术领域。本公开实施例中,可以获取输入的待处理文本,并在预设文本库中,选取与待处理文本相匹配且满足预设要求的参考文本,再在所参考文本中,确定与所待处理文本中待修饰句相似的目标参考句,最后,根据目标语句转换模型,对待修饰句按照目标参考句进行转换,得到待修饰句对应的目标推荐句。这样,通过语句转换模型,将待修饰句按照目标参考句进行转换,可以得到用词更为准确、表述方式更符合审核人员习惯的目标推荐句,从而可以实现对文本表述内容及表述方式的调整,无需用户手动修改文本即可得到高质量的撰写文本,提高了文本处理的效率。提高了文本处理的效率。提高了文本处理的效率。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本公开属于计算机
,特别是涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着机器学习等计算机技术近几年的快速发展,人们常常使用机器学习模型解决各种问题。其中,随着文本处理的要求越来越多,这也使得自然语言处理(Natural Language Processing,NLP)技术的发展越来越快。比如,在工作或学习中,往往要求用户撰写的文本为高质量文本,即,为用词与表述方式更高级的文本,尤其对于撰写语言为非母语的人员来说,撰写难度较大,且要花费较多时间。
[0003]相关技术中,自然语言处理方法主要集中在语法纠错领域。因此,现在急需一种可以调整文本表述内容及表述方式的文本处理方法。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种文本处理方法、装置、电子设备及存储介质。
[0005]依据本公开的第一方面,提供了一种文本处理方法,该方法包括:
[0006]获取输入的待处理文本;
[0007]在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
[0008]在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
[0009]根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。可选的,所述预设文本库中存储有多个样本文本;
[0010]所述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本,包括:
[0011]确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
[0012]对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
[0013]筛选属于所述目标领域的样本文本,作为第二类型文本;
[0014]将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
[0015]可选的,所述确定所述待处理文本所属的目标领域,包括:
[0016]获取所述待处理文本中的关键词;
[0017]将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
[0018]可选的,所述方法还包括:
[0019]对所述样本文本拆分,得到不同内容属性对应的文本片段;
[0020]按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预
设文本库中。
[0021]可选的,所述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句,包括:
[0022]确定所述待处理文本中的待修饰句;
[0023]根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
[0024]可选的,所述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句,包括:
[0025]利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
[0026]对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
[0027]可选的,所述方法还包括:
[0028]获取多个样本语句;
[0029]对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
[0030]将所述样本语句与所述样本翻译语句作为一个训练样本对;
[0031]利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
[0032]可选的,所述方法还包括:
[0033]将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
[0034]可选的,所述初始语句转换模型为Transformer模型。
[0035]依据本公开的第二方面,提供了一种文本处理装置,该装置包括:
[0036]第一获取模块,用于获取输入的待处理文本;
[0037]选取模块,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;
[0038]第一确定模块,用于在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;
[0039]转换模块,用于根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。
[0040]可选的,所述预设文本库中存储有多个样本文本;
[0041]所述选取模块,还用于:
[0042]确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;
[0043]对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;
[0044]筛选属于所述目标领域的样本文本,作为第二类型文本;
[0045]将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。
[0046]可选的,所述选取模块,还用于:
[0047]获取所述待处理文本中的关键词;
[0048]将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。
[0049]可选的,所述装置还包括:
[0050]拆分模块,用于对所述样本文本拆分,得到不同内容属性对应的文本片段;
[0051]存储模块,用于按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。
[0052]可选的,所述第一确定模块,还用于:
[0053]确定所述待处理文本中的待修饰句;
[0054]根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。
[0055]可选的,所述第一确定模块,还用于:
[0056]利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;
[0057]对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。
[0058]可选的,其特征在于,所述装置还包括:
[0059]第二获取模块,用于获取多个样本语句;
[0060]翻译模块,用于对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;
[0061]第二确定模块,用于将所述样本语句与所述样本翻译语句作为一个训练样本对;
[0062]训练模块,用于利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。
[0063]可选的,所述装置还包括:
[0064]设置模块,用于将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。
[0065]可选的,所述初始语句转换模型为Transformer模型。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取输入的待处理文本;在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本;在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句;根据目标语句转换模型,对所述待修饰句按照所述目标参考句进行转换,得到所述待修饰句对应的目标推荐句。2.根据权利要求1所述的方法,其特征在于,所述预设文本库中存储有多个样本文本;所述在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参考文本,包括:确定所述待处理文本所属的目标领域,以及确定各个所述样本文本的价值标签;对所述价值标签进行归类处理,将处理结果满足所述预设要求的样本文本作为第一类型文本;筛选属于所述目标领域的样本文本,作为第二类型文本;将同时属于所述第一类型文本与所述第二类型文本的样本文本,作为所述参考文本。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本所属的目标领域,包括:获取所述待处理文本中的关键词;将所述关键词匹配的领域,作为所述待处理文本所属的目标领域。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述样本文本拆分,得到不同内容属性对应的文本片段;按照各个所述内容属性,将每一所述内容属性对应的文本片段分别存储于所述预设文本库中。5.根据权利要求1所述的方法,其特征在于,所述在所述参考文本中,确定与所述待处理文本中待修饰句相似的目标参考句,包括:确定所述待处理文本中的待修饰句;根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句。6.根据权利要求5所述的方法,其特征在于,所述根据所述待修饰句与预设的文本筛选算法,对所述参考文本进行筛选,以确定与所述待修饰句相似的目标参考句,包括:利用第一筛选算法对所述参考文本中包含的语句进行筛选,确定与所述待修饰句相似的第一参考句;对所述第一参考句使用第二筛选算法进行筛选,将相似度满足预设阈值的第一参考句,作为所述目标参考句。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:获取多个样本语句;对所述样本语句按照预设翻译方法翻译,得到样本翻译语句;将所述样本语句与所述样本翻译语句作为一个训练样本对;利用所述训练样本对对初始语句转换模型进行训练,以获取所述目标语句转换模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述初始语句转换模型中的位置嵌入参数设置为可训练值,以便对所述位置嵌入参数进行样本训练。9.根据权利要求7所述的方法,其特征在于,所述初始语句转换模型为Transformer模型。10.一种文本处理装置,其特征在于,所述装置包括:第一获取模块,用于获取输入的待处理文本;选取模块,在预设文本库中,选取与所述待处理文本相匹配且满足预设要求的参...

【专利技术属性】
技术研发人员:姜博然
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1