文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：36607000 阅读：56 留言：0更新日期：2023-02-04 18:30

本公开提供了文本处理方法、装置、电子设备及计算机可读存储介质，涉及数据处理技术领域，尤其涉及自然语言处理或者语音转写技术领域。具体实现方案为：获取第一初始文本；基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本，第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的，第二待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的，第二初始文本为连续文本中位于第一初始文本之前的文本片段；对第一待处理文本进行文本处理，得到第一待处理文本的文本处理结果，文本处理结果包括段落分割结果。本方案能够有效提供前序文本，有助于更好地进行文本处理，提升文本处理结果的准确性。结果的准确性。结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质

[0001]本公开涉及数据处理
，尤其涉及自然语言处理或者语音转写
，具体而言，本公开涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]自然语言处理(Natural Language Process ing，NLP)，是一种用于分析人类语言的人工智能技术。
[0003]在采用NLP技术进行文本处理时，如果能够为所处理的文本提供一定的上文语境，就能够有效提升文本处理结果的准确性，因此，如何在进行文本处理时有效地提供上文语境，成为了一个重要的技术问题。

技术实现思路

[0004]本公开为了解决上述缺陷中的至少一项，提供了一种文本处理方法、装置、电子设备及计算机可读存储介质。
[0005]根据本公开的第一方面，提供了一种文本处理方法，该方法包括：
[0006]获取第一初始文本；
[0007]基于第一初始文本以及第一初始文本对应的前序文本确定第一待处理文本，第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的，第二待处理文本是基于第二初始文本以及第二初始文本对应的前序文本确定的，第二初始文本为连续文本中位于第一初始文本之前的文本片段；
[0008]对第一待处理文本进行文本处理，得到第一待处理文本的文本处理结果，文本处理结果包括段落分割结果。
[0009]根据本公开的第二方面，提供了一种文本处理装置，该装置包括：
[0010]初始文本获取模块，用于获...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：获取第一初始文本；基于所述第一初始文本以及所述第一初始文本对应的前序文本确定第一待处理文本，所述第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的，所述第二待处理文本是基于第二初始文本以及所述第二初始文本对应的前序文本确定的，所述第二初始文本为连续文本中位于所述第一初始文本之前的文本片段；对所述第一待处理文本进行文本处理，得到所述第一待处理文本的文本处理结果，所述文本处理结果包括段落分割结果。2.根据权利要求1所述的方法，其中，在所述对所述第一待处理文本进行文本处理，得到所述第一待处理文本的文本处理结果之后，所述方法还包括：基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本，所述第三初始文本为连续文本中位于所述第一初始文本之后的文本片段。3.根据权利要求2所述的方法，其中，所述基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本，包括：响应于所述第一待处理文本的段落分割结果中包含完整段落，将所述第一待处理文本的文本处理结果中在最后一个完整段落之后的文本确定为与第三初始文本对应的前序文本。4.根据权利要求3所述的方法，还包括：将所述第一待处理文本的文本处理结果中各完整段落对应的文本确定为处理完成文本。5.根据权利要求4所述的方法，其中，所述处理完成文本与所述前序文本对应有不同的展示样式。6.根据权利要求4或5所述的方法，在所述将所述第一待处理文本的文本处理结果中各完整段落对应的文本确定为处理完成文本之后，所述方法还包括：响应于检测到第一用户对所述处理完成文本的编辑指令，基于所述编辑指令对所述处理完成文本进行编辑处理。7.根据权利要求2
‑
6中任一项所述的方法，其中，所述基于所述第一待处理文本的文本处理结果确定与第三初始文本对应的前序文本，包括：响应于所述第一待处理文本的段落分割结果中不包含完整段落，将所述第一待处理文本的文本处理结果确定为与第三初始文本对应的前序文本。8.根据权利要求1
‑
7中任一项所述的方法，其中，所述文本处理结果还包括以下至少一项：去口语化处理结果；添加标点处理结果；专有名词转换处理结果。9.根据权利要求1
‑
8中任一项所述的方法，其中，所述第一初始文本是基于自动语音识别ASR对第二用户的语音片段进行处理得到的。10.一种文本处理装置，包括：初始文本获取模块，用于获取第一初始文本；
待处理文本确定模块，用于基于所述第一初始文本以及所述第一初始文本对应的前序文本确定第一待处理文本，所述第一初始文本对应的前序文本是基于第二待处理文本的文本处理结果确定的，所述第二待处理文本是基于第二初始文本以及所述第二初始文本对应的前序...

【专利技术属性】
技术研发人员：黄伟琦，夏帅，江鹏，唐睿坚，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人