用于文本的数据处理方法及其系统技术方案

技术编号：21478559 阅读：35 留言：0更新日期：2019-06-29 05:01

本公开提供了一种用于文本的数据处理方法，包括：获取文本的文字内容，以确定文本对应的文本分类信息；获取文本中包含的配图，以确定配图对应的配图分类信息；计算配图分类信息与文本分类信息的第一相似度；以及根据计算得到的第一相似度，确定配图与文本的文字内容是否匹配。本公开还提供了一种用于文本的数据处理系统、一种计算机系统和一种计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
用于文本的数据处理方法及其系统
本公开涉及数据处理领域，更具体地，涉及一种用于文本的数据处理方法和用于文本的数据处理系统、计算机系统和计算机可读存储介质。
技术介绍
随着科技的快速发展，使用APP阅读已经发展成为一种时尚。随着用户阅读水平的不断提高，优质内容的阅读材料越来越受到青睐。在相关技术中，优质内容的阅读材料大多是人为编辑出来的，例如传统的媒体如凤凰、新浪等，也有一些是通过大规模爬虫结合推荐引擎处理后得到的，例如今日头条等。以文章为例，一篇高质量的文章，除了要有优质的内容之外，还要图文并茂，并且配图要与文章内容紧密相关。然而，在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下问题：相关技术在检测一篇文章是否是高质量的文章时，难以高效地检测出文章内容与配图是否匹配。
技术实现思路
有鉴于此，本公开提供了一种用于文本的数据处理方法和用于文本的数据处理系统。本公开的一个方面提供了一种用于文本的数据处理方法，包括获取文本的文字内容，以确定上述文本对应的文本分类信息；获取上述文本中包含的配图，以确定上述配图对应的配图分类信息；计算上述配图分类信息与上述文本分类信息的第一相似度；以及根据计算得到的上述第一相似度，确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例，上述方法还包括获取上述配图的描述信息；获取上述文本的摘要信息；计算上述配图的描述信息与上述文本的摘要信息的第二相似度；以及根据上述第一相似度和上述第二相似度，确定上述配图与上述文本的文字内容是否匹配。根据本公开的实施例，计算上述配图的描述信息与上述文本的摘要信息的第二相似度包括：对上述...

【技术保护点】
1.一种用于文本的数据处理方法，包括：获取文本的文字内容，以确定所述文本对应的文本分类信息；获取所述文本中包含的配图，以确定所述配图对应的配图分类信息；计算所述配图分类信息与所述文本分类信息的第一相似度；以及根据计算得到的所述第一相似度，确定所述配图与所述文本的文字内容是否匹配。

【技术特征摘要】
1.一种用于文本的数据处理方法，包括：获取文本的文字内容，以确定所述文本对应的文本分类信息；获取所述文本中包含的配图，以确定所述配图对应的配图分类信息；计算所述配图分类信息与所述文本分类信息的第一相似度；以及根据计算得到的所述第一相似度，确定所述配图与所述文本的文字内容是否匹配。2.根据权利要求1所述的方法，其中，所述方法还包括：获取所述配图的描述信息；获取所述文本的摘要信息；计算所述配图的描述信息与所述文本的摘要信息的第二相似度；以及根据所述第一相似度和所述第二相似度，确定所述配图与所述文本的文字内容是否匹配。3.根据权利要求2所述的方法，其中，计算所述配图的描述信息与所述文本的摘要信息的第二相似度包括：对所述描述信息和所述摘要信息分别进行分词处理，得到属于所述描述信息的一个或多个词语以及属于所述摘要信息的一个或多个词语；根据分词处理结果，确定所述描述信息中包含的每个词语的重复次数以及所述摘要信息中包含的每个词语的重复次数；根据确定出的所述描述信息中包含的每个词语的重复次数，确定所述描述信息的第一词频向量；根据确定出的所述摘要信息中包含的每个词语的重复次数，确定所述摘要信息的第二词频向量；以及根据所述第一词频向量和所述第二词频向量，计算所述第二相似度。4.根据权利要求2所述的方法，其中，根据所述第一相似度和所述第二相似度，确定所述配图与所述文本的文字内容是否匹配包括：预先设定所述第一相似度的权重为第一权重；预先设定所述第二相似度的权重为第二权重；按照预设算法基于所述第一相似度、所述第一权重、所述第二相似度和所述第二权重进行计算，得到对应的相似度计算值；以及若所述相似度计算值大于相似度阈值，则确定所述配图与所述文本的文字内容匹配。5.根据权利要求1所述的方法，其中，获取文本的文字内容，以确定所述文本对应的文本分类信息包括：获取所述文本的正文；对所述正文进行分析，得到所述正文的一个或多个主题；对所述一个或多个主题进行分类；以及根据所述一个或多个主题的分类结果，确定所述文本对应的文本分类信息。6.根据权利要求1所述的方法，其中，所述配图所属的类别包括多个，所述文本所属的类别也包括多个，计算所述配图分类信息与所述文本分类信息的第一相似度包括：确定所述配图属于每个类别的概率，其中，所述配图属于每个类别的概率用于表征所述配图属于每个类别的可能性的大小；确定所述文本属于每个类别的概率；以及根据所述配图属于每个类别的概率与所述文本属于每个类别的概率，计算所述第一相似度。7.一种用于文本的数据处理系统，包括：第一获取模块，用于获取文本的文字内容，以确定所述文本对应的文本分类信息；第二获取模块，用于获取所述文本中包含的配图，以确定所述配图对应的配图分类信息；第一计算模块，用于计算所述配图分类信息与所述文本分类信息的第一相似度；以及第一确定模块，用于根据计算得到的...

【专利技术属性】
技术研发人员：朱德伟，李树前，李伟奇，稂顾，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人