一种文本的处理方法、装置和可读存储介质制造方法及图纸

技术编号:31502069 阅读:20 留言:0更新日期:2021-12-22 23:21
本申请实施例提供了一种文本的处理方法及相关设备,提高文本关键词提取的准确度。该方法包括:确定目标文本中每个词语所对应的第一关键词集合和第二关键词集合;确定第一关键词集合的每个关键词所命中的第一文本数,并确定第二关键词集合的每个关键词所命中的第二样本数;根据第一样本数、第二样本数、第一样本匹配关系所关联的样本集中的样本数以及第二样本匹配关系所关联的样本集中的样本数确定每个词语的综合支持度;根据每个词语的综合支持度,从第一文本类别和第二文本类别中确定目标文本的目标主体;将每个词语与目标主体所对应的关键词进行匹配,得到目标文本的关键词。得到目标文本的关键词。得到目标文本的关键词。

【技术实现步骤摘要】
一种文本的处理方法、装置和可读存储介质


[0001]本申请涉及自然语言处理领域,尤其涉及一种文本的处理方法、装置和可读存储介质。

技术介绍

[0002]类别关键模式提取是自然语言理解技术发展的重要技术之一,在实际应用中有许多的场景,例如,对于海量文本数据的处理和分析,关键一步是把文本中的最重要的信息提取出来,重要信息往往通过几个模式特征就可以表征,因此类别关键模式提取就起到非常有效的作用;又例如,在百度文库等检索系统中,通过提取文章关键词与检索词进行匹配或相似度计算等,可以提高所召回结果的准确性。
[0003]目前,关键词提取方法主要采用无监督方法,包括:基于统计特征的关键词提取、基于图网络模型的关键词提取和基于主题模型的关键词提取。基于统计特征的关键词提取利用词权重、词的位置信息、词的关联信息作为统计特征进行关键词提取;基于图网络模型的关键词提取首先构建文档的网络图,以预处理过后的词作为节点,词与词之间的关系作为边,边与边之间的权重一般用词之间的关联度来表示,然后基于网络图评估各个节点的重要性,根据重要性将节点进行排序,选取排序的头部几个节点所代表的词作为关键词;基于主题模型的关键词提取首先将文本分词后选取候选关键词,根据语料学习得到主题模型,根据得到的隐含主题模型计算文章的主题分布和候选关键词分布,接下来计算文档和候选关键词的主题相似度并排序,选取前n个词作为关键词。
[0004]但是,基于统计特征的关键词提取、基于图网络模型的关键词提取和基于主题模型的关键词提取在进行关键词提取时,只考虑词粒度的特征提取,进而提取的关键词并不能很好的表达文本的核心内容,导致提取的关键词不准确。

技术实现思路

[0005]本申请提供了一种文本的处理方法、装置和可读存储介质,可以提高文本关键词提取的准确度。
[0006]本申请实施例一方面提供一种文本的处理方法,包括:
[0007]确定目标文本中每个词语所对应的第一关键词集合和第二关键词集合,所述第一关键词集合为第一样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第二关键词集合为第二样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第一样本匹配关系包括第一文本类别的关键词与支持度的匹配关系,所述第二样本匹配关系包括第二文本类别的关键词与支持度的匹配关系;
[0008]确定第一样本匹配关系所关联的样本集中第一关键词集合的每个关键词所命中的第一文本数,并确定第二样本匹配关系所关联的样本集中第二关键词集合的每个关键词所命中的第二样本数;
[0009]根据第一样本数、第二样本数、第一样本匹配关系所关联的样本集中的样本数以
及第二样本匹配关系所关联的样本集中的样本数确定每个词语的综合支持度,每个词语的综合支持度表示每个词语与第一文本类别和第二文本类别中任意一个主体之间的关联程度;
[0010]根据每个词语的综合支持度,从第一文本类别和第二文本类别中确定目标文本的目标主体;
[0011]将每个词语与目标主体所对应的关键词进行匹配,得到目标文本的关键词。
[0012]本申请实施例第二方面提供了一种文本处理装置,包括:
[0013]第一匹配单元,用于确定目标文本中每个词语所对应的第一关键词集合和第二关键词集合,所述第一关键词集合为第一样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第二关键词集合为第二样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第一样本匹配关系包括第一文本类别的关键词与支持度的匹配关系,所述第二样本匹配关系包括第二文本类别的关键词与支持度的匹配关系;
[0014]第二确定单元,用于确定第一样本匹配关系所关联的样本集中第一关键词集合的每个关键词所命中的第一文本数,并确定第二样本匹配关系所关联的样本集中第二关键词集合的每个关键词所命中的第二样本数;
[0015]第三确定单元,用于根据第一样本数、第二样本数、第一样本匹配关系所关联的样本集中的样本数以及第二样本匹配关系所关联的样本集中的样本数确定每个词语的综合支持度,每个词语的综合支持度表示每个词语与第一文本类别和第二文本类别中任意一个主体之间的关联程度;
[0016]第四确定单元,用于根据每个词语的综合支持度,从第一文本类别和第二文本类别中确定目标文本的目标主体;
[0017]匹配单元,用于将每个词语与目标主体所对应的关键词进行匹配,得到目标文本的关键词。
[0018]一种可能的设计中,第三确定单元具体用于:
[0019]根据第一样本数以及第一样本匹配关系所关联的样本集中的样本数确定每个词语的第一支持度;
[0020]根据第二样本数以及第二样本匹配关系所关联的样本集中的样本数确定每个词语的第二支持度;
[0021]根据第一支持度以及第二支持度确定每个词语的综合支持度。
[0022]一种可能的设计中,第四确定单元具体用于:
[0023]确定每个词语中综合支持度大于综合支持度阈值的第一目标词语;
[0024]将第一文本类别和第二文本类别中与第一目标词语所对应的主体确定为目标主体;
[0025]或,
[0026]确定每个词语中综合支持度最大的第二目标词语;
[0027]将第一文本类别和第二文本类别中与第二目标词语所对应的主体确定为目标主体。
[0028]一种可能的设计中,装置还包括:
[0029]构建单元,构建单元用于:
[0030]获取训练文本集合,训练文本集合包括第一文本类别所关联的训练文本以及第二文本类别所关联的训练文本;
[0031]对训练文本集合中每个文本进行分句,得到每个文本所对应的分句集合;
[0032]对每个文本所对应的分句集合进行处理,得到每个文本所对应的第一字序列;
[0033]剔除第一字序列中小于支持度阈值的关键词,得到每个文本所对应的第二字序列;
[0034]确定第二字序列的关键词以及关键词所对应的支持度;
[0035]将第一文本类别所对应的第二字序列的关键词以及关键词所对应的支持度确定为第一文本类别的第一样本匹配关系;
[0036]将第二文本类别所对应的第二字序列中的关键词以及关键词所对应的支持度确定为第一文本类别的第二样本匹配关系。
[0037]一种可能的设计中,构建单元对每个文本所对应的分句集合进行处理,得到每个文本所对应的第一字序列包括:
[0038]过滤每个文本所对应的分句集合的标点符号、字母和数字中的至少一种;
[0039]将过滤后的每个文本所对应的分句集合按字单元进行拆分,得到第一字序列。
[0040]一种可能的设计中,构建单元确定第二字序列的关键词包括:
[0041]确定第二字序列中字符数为i的目标关键词以及目标字序列集合中与目标关键词相关联的关键词集合,目标字序列集合为第一文本类别以及第二文本类别中至少一个主体所对应的样本分句集合,i的取值为第二字序列中字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的处理方法,其特征在于,包括:确定目标文本中每个词语所对应的第一关键词集合和第二关键词集合,所述第一关键词集合为第一样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第二关键词集合为第二样本匹配关系中与所述目标文本中每个词语相匹配的关键词集合,所述第一样本匹配关系包括第一文本类别的关键词与支持度的匹配关系,所述第二样本匹配关系包括第二文本类别的关键词与支持度的匹配关系;确定所述第一样本匹配关系所关联的样本集中所述第一关键词集合的每个关键词所命中的第一文本数,并确定所述第二样本匹配关系所关联的样本集中所述第二关键词集合的每个关键词所命中的第二样本数;根据所述第一样本数、所述第二样本数、所述第一样本匹配关系所关联的样本集中的样本数以及所述第二样本匹配关系所关联的样本集中的样本数确定所述每个词语的综合支持度,所述每个词语的综合支持度表示所述每个词语与所述第一文本类别和所述第二文本类别中任意一个主体之间的关联程度;根据所述每个词语的综合支持度,从所述第一文本类别和所述第二文本类别中确定所述目标文本的目标主体;将所述每个词语与所述目标主体所对应的关键词进行匹配,得到所述目标文本的关键词。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本数、所述第二样本数、所述第一样本匹配关系所关联的样本集中的样本数以及所述第二样本匹配关系所关联的样本集中的样本数确定所述每个词语的综合支持度包括:根据所述第一样本数以及所述第一样本匹配关系所关联的样本集中的样本数确定所述每个词语的第一支持度;根据所述第二样本数以及所述第二样本匹配关系所关联的样本集中的样本数确定所述每个词语的第二支持度;根据所述第一支持度以及所述第二支持度确定所述每个词语的综合支持度。3.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语的综合支持度,从所述第一文本类别和所述第二文本类别中确定所述目标文本的目标主体包括:确定所述每个词语中综合支持度大于综合支持度阈值的第一目标词语;将所述第一文本类别和所述第二文本类别中与所述第一目标词语所对应的主体确定为所述目标主体;或,确定所述每个词语中综合支持度最大的第二目标词语;将所述第一文本类别和所述第二文本类别中与所述第二目标词语所对应的主体确定为所述目标主体。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于第一文本类别的第一样本匹配关系与第二样本匹配关系,对目标文本中每个词语进行匹配之前,所述方法还包括:获取训练文本集合,所述训练文本集合包括所述第一文本类别所关联的训练文本以及所述第二文本类别所关联的训练文本;
对所述训练文本集合中每个文本进行分句,得到所述每个文本所对应的分句集合;对所述每个文本所对应的分句集合进行处理,得到所述每个文本所对应的第一字序列;剔除所述第一字序列中小于支持度阈值的关键词,得到所述每个文本所对应的第二字序列;确定所述第二字序列的关键词以及所述关键词所对应的支持度;将所述第一文本类别所对应的所述第二字序列的关键词以及所述关键词所对应的支持度确定为所述第一文本类别的第一样本匹配关系;将所述第二文本类别所对应的所述第二字序列中的关键词以及所述关键词所对应的支持度确定为所述第一文本类别...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1