System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、电子设备以及存储介质制造方法及图纸_技高网

文本处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:43004482 阅读:5 留言:0更新日期:2024-10-18 17:12
本发明专利技术实施例提供一种文本处理方法,该方法包括:获取待处理文本以及纠错需求;根据待处理文本的语义,确定待处理文本的至少一类语境信息;基于待处理文本、纠错需求以及至少一类语境信息,生成纠错提示文本;将纠错提示文本输入到大语言模型中进行纠错处理,通过大语言模型输出得到目标文本。利用待处理语义来提取出语境信息,将语境信息作为待处理文本的纠错辅助信息,综合运用语境信息和用户纠错需求,提高了文本纠错的精度和灵活性,同时,还能根据语境对文本进行更精细的调整,使文本表达更加准确和流畅。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和人工智能领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。


技术介绍

1、在传统的文档纠错领域,纠错方法主要依赖于词库匹配或序列标注技术。这些传统的方法,无论是通过庞大的词库进行比对,还是利用复杂的序列标注规则进行识别,其核心都是基于预先定义好的知识或模式来执行纠错任务。然而,随着语言的不断演变和语境的动态变化,这种静态的、固定的纠错方式逐渐显露出其局限性。具体来说,传统的词库纠错方法主要是通过与预先定义的正确词汇进行比对,从而识别并替换错误的词汇。然而,在面对新词、俚语或者特定领域的术语时,往往显得力不从心,因为这些词汇可能并未被收录在词库中。同样,序列标注规则也是基于历史数据和语言学家对语言结构的理解来设计的,它们虽然在一定程度上能够识别并纠正语法错误,但却难以应对灵活多变的语境和表达方式。正因为这些方法都是基于固定的知识和模式,所以它们在面对不断变化的语境时,纠错准确率往往会大打折扣。比如,在网络用语、流行词汇层出不穷的今天,传统的纠错方法很难准确识别这些新兴的表达方式,甚至可能将其误判为错误。因此,传统的文档纠错方法的纠错准确性不高。


技术实现思路

1、本专利技术实施例提供一种文本处理方法,旨在解决现有文档纠错方法存在纠错准确性不高的问题。利用待处理语义来提取出语境信息,将语境信息作为待处理文本的纠错辅助信息,综合运用语境信息和用户纠错需求,提高了文本纠错的精度和灵活性,同时,还能根据语境对文本进行更精细的调整,使文本表达更加准确和流畅。

2、第一方面,本专利技术实施例提供一种文本处理方法,所述方法包括以下步骤:

3、获取待处理文本以及纠错需求;

4、根据所述待处理文本的语义,确定所述待处理文本的至少一类语境信息;

5、基于所述待处理文本、所述纠错需求以及至少一类所述语境信息,生成纠错提示文本;

6、将所述纠错提示文本输入到大语言模型中进行纠错处理,通过所述大语言模型输出得到目标文本。

7、可选的,所述根据所述待处理文本的语义,确定所述待处理文本的至少一类语境信息,包括:

8、对所述待处理文本进行语境词提取,得到所述待处理文本的语境词分布;

9、基于所述语境词分布,对所述待处理文本进行分段处理,得到至少一个分段文本;

10、根据所述分段文本的语义,确定所述分段文本的至少一个语境信息;

11、根据所述分段文本的至少一个语境,确定所述待处理文本的至少一类语境信息。

12、可选的,所述基于所述语境词分布,对所述待处理文本进行分段处理,得到至少一个分段文本,包括:

13、根据所述语境词分布,确定相邻两个语境词之间的文本距离;

14、若所述相邻两个语境词之间的文本距离大于或等于预设的文本距离阈值,则在所述相邻两个语境词之间确定出分段点,并基于所述分段点对所述待处理文本进行分段处理,得到至少两个分段文本;

15、若所述相邻两个语境词之间的文本距离小于预设的文本距离阈值,则基于第一个语境词以及最后一个语境词对所述待处理文本进行分段,得到一个分段文本。

16、可选的,所述若所述相邻两个语境词之间的文本距离大于或等于预设的文本距离阈值,则在所述相邻两个语境词之间确定出分段点,并基于所述分段点对所述待处理文本进行分段处理,得到至少两个分段文本,包括:

17、在所述相邻两个语境词中,根据在先语境词的上下文语义,确定第一分段点,以及根据在后语境词的上下文语义,确定第二分段点;

18、若所述第一分段点在所述第二分段点之前,则基于所述第一分段点与所述第二分段点对所述待处理文本进行分段处理,得到至少两个分段文本;

19、若所述第一分段点在所述第二分段点之后,则在所述第一分段点与所述第二分段点之间,确定第三分段点,则基于所述第三分段点对所述待处理文本进行分段处理,得到至少两个分段文本。

20、可选的,所述根据所述分段文本的语义,确定所述分段文本的至少一个语境信息,包括:

21、提取所述分段文本的语义特征;

22、对所述语义特征进行语境分类处理,得到所述分段文本的至少一个语境信息。

23、可选的,所述基于所述待处理文本、所述纠错需求以及至少一类所述语境信息,生成纠错提示文本,包括:

24、若所述待处理文本的所述语境信息为一类所述语境信息,则基于所述待处理文本、所述纠错需求以及一类所述语境信息,生成纠错提示文本;

25、若所述待处理文本的所述语境信息为多类所述语境信息,则获取每类所述语境信息对应的至少一个所述分段文本;

26、基于每类所述语境信息对应的至少一个分段文本,生成每类所述语境信息对应的一个纠错子文本,每类所述语境信息对应一个所述纠错子文本;

27、基于所述待处理文本、所述纠错需求以及每类所述语境信息对应的一个所述纠错子文本,生成纠错提示文本。

28、可选的,所述基于每类所述语境信息对应的至少一个分段文本,生成每类所述语境信息对应的一个纠错子文本,包括:

29、对于一类所述语境信息,若仅对应一个所述分段文本,则将所述分段文本确定为一类所述语境信息对应的一个纠错子文本;

30、若对应多个所述分段文本,则将多个所述分段文本进行排序;

31、对相邻两个所述分段文本进行摘要生成处理,得到相邻两个所述分段文本之间的摘要文本;

32、基于相邻两个所述分段文本之间的摘要文本,对相邻两个所述分段文本进行拼接;

33、拼接完成,得到每类所述语境信息对应的一个纠错子文本。

34、第二方面,本专利技术实施例还提供了一种文本处理装置,所述文本处理装置包括:

35、获取模块,用于获取待处理文本以及纠错需求;

36、第一处理模块,用于根据所述待处理文本的语义,确定所述待处理文本的至少一类语境信息;

37、第二处理模块,用于基于所述待处理文本、所述纠错需求以及至少一类所述语境信息,生成纠错提示文本;

38、第三处理模块,用于将所述纠错提示文本输入到大语言模型中进行纠错处理,通过所述大语言模型输出得到目标文本。

39、第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例提供的文本处理方法中的步骤。

40、第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现专利技术实施例提供的文本处理方法中的步骤。

41、本专利技术实施例中,获取待处理文本以及纠错需求;根据待处理文本的语义,确定待处理文本的至少一类语境信息;基于待处理文本、纠错需求以及至少一类语境信息,生成纠错提示文本;将纠错提示文本输入到大语言模型本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的文本处理方法,其特征在于,所述根据所述待处理文本的语义,确定所述待处理文本的至少一类语境信息,包括:

3.如权利要求2所述的文本处理方法,其特征在于,所述基于所述语境词分布,对所述待处理文本进行分段处理,得到至少一个分段文本,包括:

4.如权利要求3所述的文本处理方法,其特征在于,所述若所述相邻两个语境词之间的文本距离大于或等于预设的文本距离阈值,则在所述相邻两个语境词之间确定出分段点,并基于所述分段点对所述待处理文本进行分段处理,得到至少两个分段文本,包括:

5.如权利要求2至4中任一项所述的文本处理方法,其特征在于,所述根据所述分段文本的语义,确定所述分段文本的至少一个语境信息,包括:

6.如权利要求5所述的文本处理方法,其特征在于,所述基于所述待处理文本、所述纠错需求以及至少一类所述语境信息,生成纠错提示文本,包括:

7.如权利要求6所述的文本处理方法,其特征在于,所述基于每类所述语境信息对应的至少一个分段文本,生成每类所述语境信息对应的一个纠错子文本,包括:

8.一种文本处理装置,其特征在于,所述文本处理装置包括:

9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本处理方法中的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本处理方法中的步骤。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的文本处理方法,其特征在于,所述根据所述待处理文本的语义,确定所述待处理文本的至少一类语境信息,包括:

3.如权利要求2所述的文本处理方法,其特征在于,所述基于所述语境词分布,对所述待处理文本进行分段处理,得到至少一个分段文本,包括:

4.如权利要求3所述的文本处理方法,其特征在于,所述若所述相邻两个语境词之间的文本距离大于或等于预设的文本距离阈值,则在所述相邻两个语境词之间确定出分段点,并基于所述分段点对所述待处理文本进行分段处理,得到至少两个分段文本,包括:

5.如权利要求2至4中任一项所述的文本处理方法,其特征在于,所述根据所述分段文本的语义,确定所述分段文本的至少一个语境信息,包括:

6.如...

【专利技术属性】
技术研发人员:徐麟林甲城
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1