System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、电子设备及介质制造方法及图纸_技高网

文本处理方法、装置、电子设备及介质制造方法及图纸

技术编号:40839057 阅读:12 留言:0更新日期:2024-04-01 15:04
本申请实施例公开了文本处理方法、装置、电子设备及介质,可应用于数据处理技术领域。其中方法包括:获取目标候选文本,并确定目标候选文本的成词概率;若成词概率大于概率阈值,则获取将目标候选文本作为搜索词搜索得到的第一召回资源集,并获取将目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集;根据第一召回资源集与第二召回资源集,确定第二召回资源集的资源数量相较于第一召回资源集的资源数量的数量增益信息;若数量增益信息满足第一词语判决条件,则将目标候选文本确定为词语。采用本申请实施例,有助于提升判定候选文本是否为词语的准确性。本申请实施例还可应用于云技术、人工智能等各种场景。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及文本处理方法、装置、电子设备及介质


技术介绍

1、在一些自然语言处理的场景中,如在进行文本分词、命名实体识别等场景下,通常需要依赖于固定的词典进行处理,而随着社会科技水平的快速发展,品牌产品,影视小说,网络用语、行业术语等新的词语不断出现,及时地发现新的词语有助于提升自然语言处理任务的准确性。目前,发现新的词语的方式通常是计算候选文本的互信息与左右熵作为统计特征,以确定候选文本是否为新的词语。

2、专利技术人在实践过程中发现,若候选文本可能存在多种含义,则该候选文本的互信息和左右熵会偏低,进而容易错误地判定该候选文本不为词语。因此,如何提升判定候选文本是否为词语的准确性是一个亟待解决的问题。


技术实现思路

1、本申请实施例提供了一种文本处理方法、装置、电子设备及介质,有助于提升判定候选文本是否为词语的准确性。

2、一方面,本申请实施例公开了一种文本处理方法,所述方法包括:

3、获取目标候选文本,并确定所述目标候选文本的成词概率,所述成词概率用于指示所述目标候选文本为词语的概率;

4、若所述成词概率大于概率阈值,则获取将所述目标候选文本作为搜索词搜索得到的第一召回资源集,并获取将所述目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集;

5、根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息;

6、若所述数量增益信息满足第一词语判决条件,则将所述目标候选文本确定为词语。

7、一方面,本申请实施例公开了一种文本处理装置,所述装置包括:

8、获取单元,获取目标候选文本,并确定所述目标候选文本的成词概率,所述成词概率用于指示所述目标候选文本为词语的概率;

9、处理单元,用于若所述成词概率大于概率阈值,则获取将所述目标候选文本作为搜索词搜索得到的第一召回资源集,并获取将所述目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集;

10、所述处理单元,还用于根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息;

11、所述处理单元,还用于若所述数量增益信息满足第一词语判决条件,则将所述目标候选文本确定为词语。

12、一方面,本申请实施例提供了一种电子设备,电子设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于执行如下步骤:

13、获取目标候选文本,并确定所述目标候选文本的成词概率,所述成词概率用于指示所述目标候选文本为词语的概率;

14、若所述成词概率大于概率阈值,则获取将所述目标候选文本作为搜索词搜索得到的第一召回资源集,并获取将所述目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集;

15、根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息;

16、若所述数量增益信息满足第一词语判决条件,则将所述目标候选文本确定为词语。

17、一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被处理器执行时,用于执行如下步骤:

18、获取目标候选文本,并确定所述目标候选文本的成词概率,所述成词概率用于指示所述目标候选文本为词语的概率;

19、若所述成词概率大于概率阈值,则获取将所述目标候选文本作为搜索词搜索得到的第一召回资源集,并获取将所述目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集;

20、根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息;

21、若所述数量增益信息满足第一词语判决条件,则将所述目标候选文本确定为词语。

22、一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时可实现上述一方面提供的方法。

23、采用本申请实施例,能够基于目标候选文本确定该目标候选文本为词语的成词概率,并且当成词概率大于概率阈值时,可以进一步确定是否将该目标候选文本确定为词语的粒度验证特征,如可以基于将目标候选文本作为搜索词搜索得到的第一召回资源集,和将目标候选文本拆分得到的文本片段作为搜索词搜索得到的第二召回资源集,确定第二召回资源集的资源数量相较于第一召回资源集的资源数量的数量增益信息,进而当数量增益信息满足第一词语判决条件,则将目标候选文本确定为词语。本方案在确定目标候选文本的成词概率大于阈值后,还可以进一步确定是否将该目标候选文本确定为词语的粒度验证特征(如数量增益信息),由此可以验证目标候选文本的粒度是否合适,从而更有助于提升判定候选文本是否为词语的准确性。

本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,所述根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息,包括:

3.根据权利要求1所述方法,其特征在于,所述方法还包括:

4.根据权利要求3所述方法,其特征在于,所述第一召回资源集和所述第二召回资源集中每个资源具有对应的资源关联数据;所述获取所述第一召回资源集与所述第二召回资源集之间资源主题的主题差异信息,包括:

5.根据权利要求4所述方法,其特征在于,所述方法还包括:

6.根据权利要求3所述方法,其特征在于,所述数量增益信息表示为增益值,所述第一词语判决条件为:所述数量增益信息所指示的增益值小于或等于目标数量增益阈值;

7.根据权利要求6所述方法,其特征在于,所述目标候选文本为目标文本检测场景下的候选文本,所述目标文本检测场景属于场景集,所述场景集中包括的多个文本检测场景均具有对应的场景标识和阈值信息,每个文本检测场景的场景标识与阈值信息关联存储

8.一种文本处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,所述根据所述第一召回资源集与所述第二召回资源集,确定所述第二召回资源集的资源数量相较于所述第一召回资源集的资源数量的数量增益信息,包括:

3.根据权利要求1所述方法,其特征在于,所述方法还包括:

4.根据权利要求3所述方法,其特征在于,所述第一召回资源集和所述第二召回资源集中每个资源具有对应的资源关联数据;所述获取所述第一召回资源集与所述第二召回资源集之间资源主题的主题差异信息,包括:

5.根据权利要求4所述方法,其特征在于,所述方法还包括:

6.根据权利要求3所述方法,其特征在于,所述数量增益信息表示为增益值,所述第一词语判决条件为:所述数量增益信息所指示的增益值小于或等于...

【专利技术属性】
技术研发人员:李从风杨涵潘博远王鹤达
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1