基于分词的文本处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：32640356 阅读：56 留言：0更新日期：2022-03-12 18:16

本公开提供了一种基于分词的文本处理方法、装置、电子设备和存储介质，涉及数据处理技术领域，尤其涉及大数据技术领域和云服务技术领域。具体实现方案为：对原始文本进行分词处理，得到多个字组合片段；确定多个字组合片段中每个字组合片段的关联度；去除多个字组合片段中的目标字组合片段，生成至少一个目标文本，其中，目标字组合片段包含的两个字组合片段的关联度小于预设阈值。容易注意到的是，通过计算字组合片段的关联度，过滤目标字组合片段，得到至少一个由至少一个过滤后字组合片段生成的目标文本，无需预先设置目标文本字段长度，进而解决了相关技术中难以得到多字短语的技术问题，达到了可以获取多字短语的技术效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
基于分词的文本处理方法、装置、电子设备和存储介质

[0001]本公开涉及数据处理
，尤其涉及大数据
和云服务
，具体涉及一种基于分词的文本处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网的普及和飞速发展，网络词语层出不穷，热点词汇是伴随着网络普及而出现的一种词汇现象，它通常反应了某一段时间内社会中发生的重大事件或是被社会大众所关注的热点问题。但是互联网存储了海量的信息，如何从复杂的网络信息中挖掘热点词汇是一个难以解决的技术问题。

技术实现思路

[0003]本公开提供了一种基于分词的文本处理方法、装置、电子设备和存储介质。
[0004]根据本公开的第一方面，提供了一种基于分词的文本处理方法，包括：对原始文本进行分词处理，得到多个字组合片段；确定多个字组合片段中每个字组合片段的关联度，其中，关联度用于表征相邻两个字组合片段组成词语的概率；去除多个字组合片段中的目标字组合片段，生成至少一个目标文本，其中，目标字组合片段包含的两个字组合片段的关联度小于预设阈值。
[0005]根据本公开的第二方面，提供了一种基于分词的文本处理装置，包括：分词模块，用于对原始文本进行分词处理，得到多个字组合片段；第一确定模块，用于确定多个字组合片段中每个字组合片段的关联度，其中，关联度用于表征相邻两个字组合片段组成词语的概率；生成模块，用于去除多个字组合片段中的目标字组合片段，生成至少一个目标文本，其中，目标字组合片段包含的两个字组合片段的关联度小于预设阈值。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于分词的文本处理方法，包括：对原始文本进行分词处理，得到多个字组合片段；确定所述多个字组合片段中每个字组合片段的关联度，其中，所述关联度用于表征相邻两个字组合片段组成词语的概率；去除所述多个字组合片段中的目标字组合片段，生成至少一个目标文本，其中，所述目标字组合片段包含的两个字组合片段的关联度小于预设阈值。2.根据权利要求1所述的方法，其中，对所述原始文本进行分词处理，得到所述多个字组合片段包括：对所述原始文本进行分词处理，得到分词结果，其中，所述分词结果包括：多个初始片段，及每个初始片段的词性；基于所述每个初始片段的词性对所述多个初始片段进行过滤，得到所述多个字组合片段。3.根据权利要求1所述的方法，其中，确定所述多个字组合片段中所述相邻两个字组合片段的所述关联度包括：基于所述相邻两个字组合片段的出现概率，确定所述相邻两个字组合片段的凝固度；基于所述相邻两个字组合片段的信息熵，确定所述相邻两个字组合片段的自由度；基于所述凝固度和/或所述自由度，得到所述关联度。4.根据权利要求1所述的方法，其中，去除所述多个字组合片段中的所述目标字组合片段，生成所述至少一个目标文本包括：将所述相邻两个字组合片段的关联度与所述预设阈值进行比较；响应于所述关联度小于所述预设阈值，去除所述相邻两个字组合片段，得到过滤后的字组合片段；对所述过滤后的字组合片段进行整合，生成所述至少一个目标文本。5.根据权利要求4所述的方法，其中，对所述过滤后的字组合片段进行整合，生成所述至少一个目标文本包括：将所述过滤后的字组合片段中相邻的字组合片段进行合并，生成所述至少一个目标文本。6.根据权利要求1至5中任意一项所述的方法，在去除所述多个字组合片段中的所述目标字组合片段，生成所述至少一个目标文本之后，所述方法还包括：确定每个目标文本的词频；按照词频从大到小的顺序对所述至少一个目标文本进行排序，得到排序后的文本。7.一种基于分词的文本处理装置，包括：分词模块，用于对原始文本进行分词处理，得到多个字组合片段；第一确定模块，用于确定所述多个字组合片段中每个字组合片段的关联度，其中，所述关联度用于表征相邻两个字组合片段组成词语的概率；生成模块，用于去除所述多个字组合片段中的目标字组合...

【专利技术属性】
技术研发人员：汪永清，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人