基于分词的文本处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32640356 阅读:56 留言:0更新日期:2022-03-12 18:16
本公开提供了一种基于分词的文本处理方法、装置、电子设备和存储介质,涉及数据处理技术领域,尤其涉及大数据技术领域和云服务技术领域。具体实现方案为:对原始文本进行分词处理,得到多个字组合片段;确定多个字组合片段中每个字组合片段的关联度;去除多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,目标字组合片段包含的两个字组合片段的关联度小于预设阈值。容易注意到的是,通过计算字组合片段的关联度,过滤目标字组合片段,得到至少一个由至少一个过滤后字组合片段生成的目标文本,无需预先设置目标文本字段长度,进而解决了相关技术中难以得到多字短语的技术问题,达到了可以获取多字短语的技术效果。果。果。

【技术实现步骤摘要】
基于分词的文本处理方法、装置、电子设备和存储介质


[0001]本公开涉及数据处理
,尤其涉及大数据
和云服务
,具体涉及一种基于分词的文本处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网的普及和飞速发展,网络词语层出不穷,热点词汇是伴随着网络普及而出现的一种词汇现象,它通常反应了某一段时间内社会中发生的重大事件或是被社会大众所关注的热点问题。但是互联网存储了海量的信息,如何从复杂的网络信息中挖掘热点词汇是一个难以解决的技术问题。

技术实现思路

[0003]本公开提供了一种基于分词的文本处理方法、装置、电子设备和存储介质。
[0004]根据本公开的第一方面,提供了一种基于分词的文本处理方法,包括:对原始文本进行分词处理,得到多个字组合片段;确定多个字组合片段中每个字组合片段的关联度,其中,关联度用于表征相邻两个字组合片段组成词语的概率;去除多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,目标字组合片段包含的两个字组合片段的关联度小于预设阈值。
[0005]根据本公开的第二方面,提供了一种基于分词的文本处理装置,包括:分词模块,用于对原始文本进行分词处理,得到多个字组合片段;第一确定模块,用于确定多个字组合片段中每个字组合片段的关联度,其中,关联度用于表征相邻两个字组合片段组成词语的概率;生成模块,用于去除多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,目标字组合片段包含的两个字组合片段的关联度小于预设阈值。
[0006]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中基于分词的文本处理方法。
[0007]根据本公开的第三方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行实现第一方面中基于分词的文本处理方法。
[0008]根据本公开的第四方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面中基于分词的文本处理方法。
[0009]本公开上述实施例可以得到不固定长度的文本。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开实施例的一种基于分词的文本处理方法的流程图;
[0013]图2是根据本公开实施例的一种基于分词的文本处理装置的结构示意图;
[0014]图3示出了可以用来实施本公开的实施例的示例电子设备300的示意性框图。
具体实施方式
[0015]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0016]在相关技术中,在中文热词的发现流程中,往往是通过使用jieba等分词工具包对本文进行分词处理,然后用n

gram(n元语法)模型或TF

IDF(Term Frequency

Inverse Document Frequency,词频

逆向文件频率)技术对分词结果的组合进行判断,最终筛选出符合预设要求的发分词组合作为新词结果。例如,对“共享”和“单车”进行判断,整合出“共享单车”作为新词结果。但通过上述方法获得新词结果,获取的新词的长度需要在计算之前设定好,因此,难以获得较长的信息短语。例如,使用n

gram模型计算时,若将新词长度的参数设置在2~5,则无法获得新词长度为6的词。同时,由于在计算多个字词的统计学参数时,需要计算各种长度词语的参数,计算量较大,导致统计新词经常需要消耗大量的时间,存在效率低的技术问题。
[0017]需要说明的是,jieba是一个基于Python的中文分词工具。其中,Python是一种高级编程语言。
[0018]根据本公开实施例,提供了一种基于分词的文本处理方法,图1是根据本公开实施例的一种基于分词的文本处理方法的流程图。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。如图1所示,该方法包括以下步骤:
[0019]步骤S102,对原始文本进行分词处理,得到多个字组合片段。
[0020]一种可选方案中,可以从数据库中获取需要进行处理的原始文本,并在获取原始文本后,可以采取词法分析器(Lexical analyzer,简称Lexer)对原始文本进行分析处理,分析步骤可以包括:将原始文本进行分割为多个字组合片段,以及确定字组合片段的词性。
[0021]步骤S104,确定多个字组合片段中每个字组合片段的关联度,其中,关联度用于表征相邻两个字组合片段组成词语的概率。
[0022]一种可选方案中,可以在确定多个字组合片段的关联度之前,需要对多个字组合片段进行预处理,例如,去除多个字组合片段中的停用词,此处需要说明的是,该停用词可以包括但不限于词性为助词和语气词的字组合片段和工作人员设定的停用词。
[0023]上述关联度可以是凝固度和/或自由度。其中,凝固度可以通过相邻字组合片段的概率得到,表征一个字组合片段中字与字之间的紧密程度;自由度可以通过相邻字组合片段的信息熵得到,表征一个字组合片段与相邻的字组合片段间的固定程度。
[0024]步骤S106,去除多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,目标字组合片段包含的两个字组合片段的关联度小于预设阈值。
[0025]一种可选方案中,上述实施步骤中的目标字组合片段可以是相邻两个字组合片段不符合关联度预设阈值的字组合片段。其中,关联度可以是自由度和/或自由度。例如,若A字组合片段的自由度未达到预设阈值,则过滤掉与该字组合片段相邻的两个字组合片段;若A字组合片段与其相邻的B字组合片段的凝固度未达到预设阈值,则过滤掉A字组合片段和B字组合字段这两个字组合片段。
[0026]在本公开上述实施例中,对原始文本进行分词处理,得到多个字组合片段;确定多个字组合片段中每个字组合片段的关联度;去除多个字组合片段中的目标字组合片段,生成至少一个目标文本。容易注意到的是,通过计算字组合片段的关联度,过滤目标字组合片段,得到至少一个由至少一个过滤后字组合片段生成的目标文本,无需预先设置目标文本字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分词的文本处理方法,包括:对原始文本进行分词处理,得到多个字组合片段;确定所述多个字组合片段中每个字组合片段的关联度,其中,所述关联度用于表征相邻两个字组合片段组成词语的概率;去除所述多个字组合片段中的目标字组合片段,生成至少一个目标文本,其中,所述目标字组合片段包含的两个字组合片段的关联度小于预设阈值。2.根据权利要求1所述的方法,其中,对所述原始文本进行分词处理,得到所述多个字组合片段包括:对所述原始文本进行分词处理,得到分词结果,其中,所述分词结果包括:多个初始片段,及每个初始片段的词性;基于所述每个初始片段的词性对所述多个初始片段进行过滤,得到所述多个字组合片段。3.根据权利要求1所述的方法,其中,确定所述多个字组合片段中所述相邻两个字组合片段的所述关联度包括:基于所述相邻两个字组合片段的出现概率,确定所述相邻两个字组合片段的凝固度;基于所述相邻两个字组合片段的信息熵,确定所述相邻两个字组合片段的自由度;基于所述凝固度和/或所述自由度,得到所述关联度。4.根据权利要求1所述的方法,其中,去除所述多个字组合片段中的所述目标字组合片段,生成所述至少一个目标文本包括:将所述相邻两个字组合片段的关联度与所述预设阈值进行比较;响应于所述关联度小于所述预设阈值,去除所述相邻两个字组合片段,得到过滤后的字组合片段;对所述过滤后的字组合片段进行整合,生成所述至少一个目标文本。5.根据权利要求4所述的方法,其中,对所述过滤后的字组合片段进行整合,生成所述至少一个目标文本包括:将所述过滤后的字组合片段中相邻的字组合片段进行合并,生成所述至少一个目标文本。6.根据权利要求1至5中任意一项所述的方法,在去除所述多个字组合片段中的所述目标字组合片段,生成所述至少一个目标文本之后,所述方法还包括:确定每个目标文本的词频;按照词频从大到小的顺序对所述至少一个目标文本进行排序,得到排序后的文本。7.一种基于分词的文本处理装置,包括:分词模块,用于对原始文本进行分词处理,得到多个字组合片段;第一确定模块,用于确定所述多个字组合片段中每个字组合片段的关联度,其中,所述关联度用于表征相邻两个字组合片段组成词语的概率;生成模块,用于去除所述多个字组合片段中的目标字组合...

【专利技术属性】
技术研发人员:汪永清
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1