一种信息处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号：33085253 阅读：22 留言：0更新日期：2022-04-15 10:47

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质，本申请实施例通过获取目标待处理文本集；将每个目标待处理文本根据不同的词长度依次进行分词处理，得到每个目标待处理文本在每种词长度对应的分词集合；基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量；将每个句子向量中的主成分向量进行移除处理，得到移除处理之后的多个目标句子向量；计算每个目标句子向量之间的相似度，并将相似度小于预设阈值的目标待处理文本对进行去重处理。以此，通过将主成分向量移除，高效且准确的实现大数据的去重。本申请实施例的技术方案可以应用到云计算、地图、大数据、人工智能等领域，提升了信息处理的效率和准确性。效率和准确性。效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息处理方法、装置及计算机可读存储介质

[0001]本申请涉及信息处理
，具体涉及一种信息处理方法、装置及计算机可读存储介质。

技术介绍

[0002]随着互联网的发展和计算机的广泛应用，互联网中充斥着大量重复的文本内容，特别是一些训练数据和广告等业务领域，如果存在大量重复的文本内容，不仅会降低整体的文本质量，还会浪费大量的存储资源。
[0003]现有技术中，为了节省存储资源，需要去除重复的文本内容，例如，基于人工将多个文本进行两两比较，将重复的文本去除，或者，通过一些文本算法比较文本之间的相似性，将相似的文本去除，达到去重的效果。
[0004]在对现有技术的研究和实践过程中，本申请的专利技术人发现，现有技术中，在面对海量待去除文本时，人工的方式会浪费大量的时间，而文本算法比较方式往往只能判断文本的构成是否重复，无法从语义上进行去重，导致信息处理的效率和准确性较低。

技术实现思路

[0005]本申请实施例提供一种信息处理方法、装置及计算机可读存储介质，可以提升信息处理的效率和准确性。
[0006]为解决上述技术问题，本申请实施例提供以下技术方案：
[0007]一种信息处理方法，包括：
[0008]获取目标待处理文本集，所述目标待处理文本集中包含多个目标待处理文本；
[0009]将每个目标待处理文本根据不同的词长度依次进行分词处理，得到每个目标待处理文本在每种词长度对应的分词集合；
[0010]基于每个分词集合对应的词向量计算出每个目标待处...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，其特征在于，包括：获取目标待处理文本集，所述目标待处理文本集中包含多个目标待处理文本；将每个目标待处理文本根据不同的词长度依次进行分词处理，得到每个目标待处理文本在每种词长度对应的分词集合；基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量；将每个句子向量中的主成分向量进行移除处理，得到移除处理之后的多个目标句子向量；计算每个目标句子向量之间的相似度，并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重处理。2.根据权利要求1所述的信息处理方法，其特征在于，所述基于每个分词集合对应的词向量计算出每个目标待处理文本相应的句子向量，包括：依次计算每个目标待处理文本对应每个分词集合的词向量；根据每个分词集合对应的词长度，为每个词向量设置不同的权重；将同一目标待处理文本的每个词向量和对应的权重进行计算，得到每个目标待处理文本相应的句子向量。3.根据权利要求2所述的信息处理方法，其特征在于，所述依次计算每个目标待处理文本对应每个分词集合的词向量，包括：获取每个分词集合中每个分词对应的向量和词频信息；将同一目标待处理文本中每个分词集合中每个分词的向量和对应的词频信息进行计算，得到每个目标待处理文本对应每个分词集合的词向量。4.根据权利要求2所述的信息处理方法，其特征在于，所述将同一目标待处理文本的每个词向量和对应的权重进行计算，得到每个目标待处理文本相应的句子向量，包括：将每个目标待处理文本的每个词向量和对应的权重进行相乘，得到每个目标待处理文本对应的多个乘积；将同一目标待处理文本对应的多个乘积求和，得到每个目标待处理文本相应的句子向量。5.根据权利要求1所述的信息处理方法，其特征在于，所述将每个句子向量中的主成分向量进行移除处理，得到移除处理之后的多个目标句子向量，包括：将每个句子向量进行组合，得到句子向量矩阵；对所述句子向量矩阵进行主成分分析处理，得到主成分向量矩阵；将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵，得到目标句子向量矩阵，所述目标句子向量矩阵中包含多个目标句子向量。6.根据权利要求5所述的信息处理方法，其特征在于，所述将所述句子向量矩阵中的每个句子向量依次移除所述主成分向量矩阵，得到目标句子向量矩阵，包括：获取所述主成分向量矩阵对应的转置矩阵；计算所述句子向量矩阵中的每个句子向量与所述主成分向量矩阵、转置矩阵和对应的句子向量的乘积的差值，得到计算后的目标句子向量矩阵。7.根据权利要求6所述的信息处理方法，其特征在于，所述计算每个目标句子向量之间的相似度，并将相似度小于预设阈值的目标句子向量对相应的目标待处理文本对进行去重
处理，包括：将计算后的目标句子向量矩阵进行拆分，得到多条目标句子向量；计算每个目标句子向量之间...

【专利技术属性】
技术研发人员：石志林，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人