一种信息处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:33085253 阅读:18 留言:0更新日期:2022-04-15 10:47
本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质,本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标待处理文本对进行去重处理。以此,通过将主成分向量移除,高效且准确的实现大数据的去重。本申请实施例的技术方案可以应用到云计算、地图、大数据、人工智能等领域,提升了信息处理的效率和准确性。效率和准确性。效率和准确性。

【技术实现步骤摘要】
一种信息处理方法、装置及计算机可读存储介质


[0001]本申请涉及信息处理
,具体涉及一种信息处理方法、装置及计算机可读存储介质。

技术介绍

[0002]随着互联网的发展和计算机的广泛应用,互联网中充斥着大量重复的文本内容,特别是一些训练数据和广告等业务领域,如果存在大量重复的文本内容,不仅会降低整体的文本质量,还会浪费大量的存储资源。
[0003]现有技术中,为了节省存储资源,需要去除重复的文本内容,例如,基于人工将多个文本进行两两比较,将重复的文本去除,或者,通过一些文本算法比较文本之间的相似性,将相似的文本去除,达到去重的效果。
[0004]在对现有技术的研究和实践过程中,本申请的专利技术人发现,现有技术中,在面对海量待去除文本时,人工的方式会浪费大量的时间,而文本算法比较方式往往只能判断文本的构成是否重复,无法从语义上进行去重,导致信息处理的效率和准确性较低。

技术实现思路

[0005]本申请实施例提供一种信息处理方法、装置及计算机可读存储介质,可以提升信息处理的效率和准确性。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]一种信息处理方法,包括:
[0008]获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
[0009]将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
[0010]基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
[0011]将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;
[0012]计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
[0013]一种信息处理装置,包括:
[0014]获取单元,用于获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;
[0015]分词单元,用于将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;
[0016]第一计算单元,用于基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;
[0017]移除单元,用于将每个句子向量中的主成分向量进行移除处理,得到移除处理之
后的多个目标句子向量;
[0018]第二计算单元,用于计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
[0019]在一些实施例中,所述移除单元,包括:
[0020]组合子单元,用于将每个句子向量进行组合,得到句子向量矩阵;
[0021]分析子单元,用于对所述句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;
[0022]移除子单元,用于将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,所述目标句子向量矩阵中包含多个目标句子向量。
[0023]在一些实施例中,所述移除子单元,用于:
[0024]获取所述主成分向量矩阵对应的转置矩阵;
[0025]计算所述句子向量矩阵中的每个句子向量与所述主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。
[0026]在一些实施例中,所述第二计算单元,用于:
[0027]将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量;
[0028]计算每个目标句子向量之间的余弦相似度,并将余弦相似度小于预设余弦阈值的目标句子向量对相应的目标待处理文本对进行去重处理。
[0029]在一些实施例中,所述获取单元,用于:
[0030]获取待处理文本集,所述待处理文本集中包含多个待处理文本;
[0031]将每一待处理文本中的停用词移除,得到移除之后的多个目标待处理文本生成目标待处理文本集。
[0032]在一些实施例中,所述分词单元,用于:
[0033]按照不同的词长度对应的滑动窗口依次对每个目标待处理文本进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合。
[0034]一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
[0035]一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机执行上述信息处理方法中的步骤。
[0036]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
[0037]本申请实施例通过获取目标待处理文本集;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。以此,通过分词处理生成语义表达准确的句子向量,且将句子向量的主成分向量移除,使向量之间的差异更明显,使得在进行句子相似性判断时,可以更好的区分不同
的语句,相对于现有的人工文本去重的方式,本申请实施例可以实现自动且准确的文本去重方式,提升了信息处理的效率和准确性。
附图说明
[0038]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本申请实施例提供的信息处理系统的场景示意图;
[0040]图2是本申请实施例提供的信息处理方法的流程示意图;
[0041]图3是本申请实施例提供的信息处理方法的另一流程示意图;
[0042]图4为本申请实施例提供的开源集群计算框架的结构示意图;
[0043]图5是本申请实施例提供的信息处理方法的另一流程示意图
[0044]图6是本申请实施例提供的信息处理装置的结构示意图;
[0045]图7是本申请实施例提供的服务器的结构示意图。
具体实施方式
[0046]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取目标待处理文本集,所述目标待处理文本集中包含多个目标待处理文本;将每个目标待处理文本根据不同的词长度依次进行分词处理,得到每个目标待处理文本在每种词长度对应的分词集合;基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量;将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量;计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。2.根据权利要求1所述的信息处理方法,其特征在于,所述基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量,包括:依次计算每个目标待处理文本对应每个分词集合的词向量;根据每个分词集合对应的词长度,为每个词向量设置不同的权重;将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量。3.根据权利要求2所述的信息处理方法,其特征在于,所述依次计算每个目标待处理文本对应每个分词集合的词向量,包括:获取每个分词集合中每个分词对应的向量和词频信息;将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算,得到每个目标待处理文本对应每个分词集合的词向量。4.根据权利要求2所述的信息处理方法,其特征在于,所述将同一目标待处理文本的每个词向量和对应的权重进行计算,得到每个目标待处理文本相应的句子向量,包括:将每个目标待处理文本的每个词向量和对应的权重进行相乘,得到每个目标待处理文本对应的多个乘积;将同一目标待处理文本对应的多个乘积求和,得到每个目标待处理文本相应的句子向量。5.根据权利要求1所述的信息处理方法,其特征在于,所述将每个句子向量中的主成分向量进行移除处理,得到移除处理之后的多个目标句子向量,包括:将每个句子向量进行组合,得到句子向量矩阵;对所述句子向量矩阵进行主成分分析处理,得到主成分向量矩阵;将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,所述目标句子向量矩阵中包含多个目标句子向量。6.根据权利要求5所述的信息处理方法,其特征在于,所述将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵,得到目标句子向量矩阵,包括:获取所述主成分向量矩阵对应的转置矩阵;计算所述句子向量矩阵中的每个句子向量与所述主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值,得到计算后的目标句子向量矩阵。7.根据权利要求6所述的信息处理方法,其特征在于,所述计算每个目标句子向量之间的相似度,并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重
处理,包括:将计算后的目标句子向量矩阵进行拆分,得到多条目标句子向量;计算每个目标句子向量之间...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1