文本数据的处理方法和装置、以及存储介质和电子装置制造方法及图纸

技术编号：22022227 阅读：31 留言：0更新日期：2019-09-04 01:16

本发明专利技术公开了一种文本数据的处理方法和装置、以及存储介质和电子装置。其中，该方法包括：抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本，其中，多个文本与多个媒体资源集一一对应；确定多个文本中任意两个文本之间的文本相似度值；根据每个文本相对于多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值；根据多个文本中文本准确度值符合目标条件的文本，对目标媒体资源集中的目标媒体资源的文本数据进行处理。本发明专利技术解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。

Text data processing methods and devices, storage media and electronic devices

全部详细技术资料下载

【技术实现步骤摘要】
文本数据的处理方法和装置、以及存储介质和电子装置
本专利技术涉及数据处理领域，具体而言，涉及一种文本数据的处理方法和装置、以及存储介质和电子装置。
技术介绍
不同数据来源对同一对象的文本数据可能是错误的，例如，对于同一个视频，从不同的视频平台抓取到的数据可能是不同的，可能具有较大差别，并且可能有数据是错误数据，又由于不同平台的文本数据不是归一化的数据，现有技术中通常采用人工方式判断数据的准确性，较难实现对文本数据的准确性判断或数据清洗等处理方式，成本较高且效率较低。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种文本数据的处理方法和装置、以及存储介质和电子装置，以至少解决相关技术中对文本数据进行处理的方法效率较低的技术问题。根据本专利技术实施例的一个方面，提供了一种文本数据的处理方法，包括：抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本，其中，多个文本与多个媒体资源集一一对应；确定多个文本中任意两个文本之间的文本相似度值；根据每个文本相对于多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值；根据多个文本中文本准确度值符合目标条件的文本，对目标媒体资源集中的目标媒体资源的文本数据进行处理。根据本专利技术实施例的另一方面，还提供了一种文本数据的处理装置，包括：抓取单元，用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本，其中，多个文本与多个媒体资源集一一对应；第一确定单元，用于确定多个文本中任意两个文本之间的文本相似度值；第二确定单元，用于根据每个文本相对于多个文本中...

【技术保护点】
1.一种文本数据的处理方法，其特征在于，包括：抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本，其中，所述多个文本与所述多个媒体资源集一一对应；确定所述多个文本中任意两个文本之间的文本相似度值；根据每个文本相对于所述多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值；根据所述多个文本中文本准确度值符合目标条件的文本，对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。

【技术特征摘要】
1.一种文本数据的处理方法，其特征在于，包括：抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本，其中，所述多个文本与所述多个媒体资源集一一对应；确定所述多个文本中任意两个文本之间的文本相似度值；根据每个文本相对于所述多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值；根据所述多个文本中文本准确度值符合目标条件的文本，对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。2.根据权利要求1所述的方法，其特征在于，所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。3.根据权利要求1所述的方法，其特征在于，根据每个文本相对于所述多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值包括：统计每个文本相对于所述多个文本中其它文本的文本相似度值之和，得到对应文本的文本准确度值。4.根据权利要求1所述的方法，其特征在于，根据每个文本相对于所述多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值包括：确定每个媒体资源集对应的权重，其中，所述权重用于表示对应媒体资源集的文本数据的准确程度；根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值，确定对应文本的文本准确度值。5.根据权利要求1所述的方法，其特征在于，确定所述多个文本中任意两个文本之间的文本相似度值包括：对所述多个文本分别进行分词处理，得到每个文本的分词结果；根据所述多个文本的分词结果，生成每个文本的分词向量，其中，每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数，每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数；通过以下公式确定所述多个文本中第一文本的分词向量和第二文本的分词向量之间的夹角余弦值cosθ，以作为所述第一文本和所述第二文本之间的文本相似度值：6.根据权利要求1所述的方法，其特征在于，抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文本包括：抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据，得到多个文本。7.一种文本数据的处理装置，其特征在于，包括：抓取单元，用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据，得到多个文...

【专利技术属性】
技术研发人员：汤见乐，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人