文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:36607000 阅读:42 留言:0更新日期:2023-02-04 18:30
本公开提供了文本处理方法、装置、电子设备及计算机可读存储介质,涉及数据处理技术领域,尤其涉及自然语言处理或者语音转写技术领域。具体实现方案为:获取第一初始文本;基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本,第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,第二待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的,第二初始文本为连续文本中位于第一初始文本之前的文本片段;对第一待处理文本进行文本处理,得到第一待处理文本的文本处理结果,文本处理结果包括段落分割结果。本方案能够有效提供前序文本,有助于更好地进行文本处理,提升文本处理结果的准确性。结果的准确性。结果的准确性。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质


[0001]本公开涉及数据处理
,尤其涉及自然语言处理或者语音转写
,具体而言,本公开涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]自然语言处理(Natural Language Process ing,NLP),是一种用于分析人类语言的人工智能技术。
[0003]在采用NLP技术进行文本处理时,如果能够为所处理的文本提供一定的上文语境,就能够有效提升文本处理结果的准确性,因此,如何在进行文本处理时有效地提供上文语境,成为了一个重要的技术问题。

技术实现思路

[0004]本公开为了解决上述缺陷中的至少一项,提供了一种文本处理方法、装置、电子设备及计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种文本处理方法,该方法包括:
[0006]获取第一初始文本;
[0007]基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本,第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,第二待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的,第二初始文本为连续文本中位于第一初始文本之前的文本片段;
[0008]对第一待处理文本进行文本处理,得到第一待处理文本的文本处理结果,文本处理结果包括段落分割结果。
[0009]根据本公开的第二方面,提供了一种文本处理装置,该装置包括:
[0010]初始文本获取模块,用于获取第一初始文本;
[0011]待处理文本确定模块,用于基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本,第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,第二待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的,第二初始文本为连续文本中位于第一初始文本之前的文本片段;
[0012]文本处理模块,用于对第一待处理文本进行文本处理,得到第一待处理文本的文本处理结果,文本处理结果包括段落分割结果。
[0013]根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
[0014]至少一个处理器;以及
[0015]与上述至少一个处理器通信连接的存储器;其中,
[0016]存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述文本处理方法。
[0017]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,该计算机指令用于使计算机执行上述文本处理方法。
[0018]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述文本处理方法。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是本公开实施例提供的一种文本处理方法的流程示意图;
[0022]图2是本公开实施例提供的一种文本处理系统的结构示意图;
[0023]图3是本公开实施例提供的一种文本处理方法的具体实施方式的流程示意图;
[0024]图4是本公开实施例提供的一种文本处理装置的结构示意图;
[0025]图5是用来实现本公开实施例的文本处理方法的电子设备的框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]首先对本申请涉及的几个名词进行介绍和解释:
[0028]自然语言处理(Natural Language Processing,NLP),是一种用于分析人类语言的人工智能技术,在通过NLP技术进行文本处理时,可以具体用于文本的去口语化处理、添加标点处理、专有名词转换处理等。
[0029]自动语音识别(Automatic Speech Recognition,ASR),是一种将人的语音转换为文本的技术。
[0030]NLP处理中,上文语境会有助于对所处理的文本进行语义分析,因此,如果能够为所处理的文本提供一定的上文语境,就能够更好的进行NLP处理。
[0031]相关技术中的一些语音转写文本的场景中,是在采集用户语音片段后,通过ASR处理转写出文本,而后对转写结果进行NLP处理,以保证转写结果的准确性。这种场景下,由于用户语音片段一般是被连续采集的,各用户语音片段中所识别出的文本是连续文本,如果在对这些文本进行NLP处理时,能够有效提供上文语境,就能够更好的进行文本处理,提升文本处理结果的精确性。
[0032]本公开实施例提供的文本处理方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
[0033]图1示出了本公开实施例提供的一种文本处理方法的流程示意图,如图1中所示,该方法主要可以包括:
[0034]步骤S110:获取第一初始文本;
[0035]步骤S120:基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本,第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,第二
待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的,第二初始文本为连续文本中位于第一初始文本之前的文本片段;
[0036]步骤S130:对第一待处理文本进行文本处理,得到第一待处理文本的文本处理结果,文本处理结果包括段落分割结果。
[0037]其中,第一初始文本的前序文本,用于作为第一初始文本的上文语境信息,通过根据第一初始文本与第一初始文本对应的前序文本确定第一待处理文本,而后针对第一待处理文本进行文本处理,使得第一待处理文本中包含第一初始文本的上文语境信息,有助于更好地进行文本处理,提升文本处理结果的精确性。
[0038]作为一个示例,可以将第一初始文本与第一初始文本对应的前序文本拼接为第一待处理文本,所得到的第一待处理文本中,第一初始文本对应前序文本位于第一初始文本之前。
[0039]本公开实施例中,文本处理可以包括多种具体的处理方式,以进行对各待处理文本进行多种形式的优化,获得更好的文本处理结果。本例里中的文本处理可以基于NLP技术实现。
[0040]本公开实施例汇总,文本处理可以包括段落分割处理,以使得到文本处理结果中包含段落分割结果。段落分割结果一般会将文本处理结果分割为完整段落或者不完整段落。
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获取第一初始文本;基于所述第一初始文本以及所述第一初始文本对应的前序文本确定第一待处理文本,所述第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,所述第二待处理文本是基于第二初始文本以及所述第二初始文本对应的前序文本确定的,所述第二初始文本为连续文本中位于所述第一初始文本之前的文本片段;对所述第一待处理文本进行文本处理,得到所述第一待处理文本的文本处理结果,所述文本处理结果包括段落分割结果。2.根据权利要求1所述的方法,其中,在所述对所述第一待处理文本进行文本处理,得到所述第一待处理文本的文本处理结果之后,所述方法还包括:基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本,所述第三初始文本为连续文本中位于所述第一初始文本之后的文本片段。3.根据权利要求2所述的方法,其中,所述基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本,包括:响应于所述第一待处理文本的段落分割结果中包含完整段落,将所述第一待处理文本的文本处理结果中在最后一个完整段落之后的文本确定为与第三初始文本对应的前序文本。4.根据权利要求3所述的方法,还包括:将所述第一待处理文本的文本处理结果中各完整段落对应的文本确定为处理完成文本。5.根据权利要求4所述的方法,其中,所述处理完成文本与所述前序文本对应有不同的展示样式。6.根据权利要求4或5所述的方法,在所述将所述第一待处理文本的文本处理结果中各完整段落对应的文本确定为处理完成文本之后,所述方法还包括:响应于检测到第一用户对所述处理完成文本的编辑指令,基于所述编辑指令对所述处理完成文本进行编辑处理。7.根据权利要求2

6中任一项所述的方法,其中,所述基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本,包括:响应于所述第一待处理文本的段落分割结果中不包含完整段落,将所述第一待处理文本的文本处理结果确定为与第三初始文本对应的前序文本。8.根据权利要求1

7中任一项所述的方法,其中,所述文本处理结果还包括以下至少一项:去口语化处理结果;添加标点处理结果;专有名词转换处理结果。9.根据权利要求1

8中任一项所述的方法,其中,所述第一初始文本是基于自动语音识别ASR对第二用户的语音片段进行处理得到的。10.一种文本处理装置,包括:初始文本获取模块,用于获取第一初始文本;
待处理文本确定模块,用于基于所述第一初始文本以及所述第一初始文本对应的前序文本确定第一待处理文本,所述第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的,所述第二待处理文本是基于第二初始文本以及所述第二初始文本对应的前序...

【专利技术属性】
技术研发人员:黄伟琦夏帅江鹏唐睿坚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1