一种文本的处理方法、装置和可读存储介质制造方法及图纸

技术编号:31502064 阅读:29 留言:0更新日期:2021-12-22 23:21
本申请实施例提供了一种文本的处理方法及相关设备,可以提高文本分发的准确性。该方法包括:基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息;根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值;若目标文本的关联分值满足文本分发条件,则向第一主体分发目标文本。发目标文本。发目标文本。

【技术实现步骤摘要】
一种文本的处理方法、装置和可读存储介质


[0001]本申请涉及数字政务领域,尤其涉及一种文本的处理方法、装置和可读存储介质。

技术介绍

[0002]在数字政务领域,公文自动分配是实现政务数字化转型、民生服务在线办理的必经途径。民生服务一网通办、政务服务一网互联等新治理、新服务理念的提出,加快政府数字化发展,其中民生服务和社会治理产生的大量政务数据,如民生事项办理、公文文本以及数字服务等数据,都需要被更好地进行挖掘和分析,才能真正实现和加快政务行业的智能化,提高人民和政府工作人员处理事项的便捷性。
[0003]目前建立电子公文分类分级系统的方法主要是基于模板的电子公文分类方法,该方法针对公文分配标签构建对应的敏感词库和匹配规则,根据输入的敏感词和导入的源文件进行学习,并生成模板的源文件学习模块,将文本按照导出的模板进行敏感词匹配和规则识别,获取公文分类从而实现文本的自动分配。
[0004]然而,基于模板的电子公文分类方法过度依赖于人工给定的规则和模板,在构建敏感词库和匹配规则上耗费较大的时间和人力成本,同时由于规则的局限性和公文文本的格式自由,所构建规则往往在一定时间后就会泛化能力降低,通用性不足,进而导致许多公文无法准确地进行分发。

技术实现思路

[0005]本申请提供了一种文本的处理方法、装置和可读存储介质,提高公文文本分发的准确性。
[0006]本申请实施例一方面提供一种文本的处理方法,包括:
[0007]基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;
[0008]若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息,其中,第一关键词为第一主体的关键词中字符数最多的关键词,第二关键词为第二主体的关键词中字符数最多的关键词;
[0009]根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值,其中,关联分值表示目标文本与第一主体的关联程度;
[0010]若目标文本的关联分值满足文本分发条件,则向第一主体分发所述目标文本。
[0011]本申请实施例第二方面提供了一种文本处理装置,包括:
[0012]匹配单元,用于基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;
[0013]第一确定单元,用于若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息,其中,第一关键词为第一主体的关键词中字符数最多的关键词,第二关键词为第二主体的关键词中字符数最多的关键词;
[0014]第二确定单元,用于根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值,其中,关联分值表示目标文本与所述第一主体的关联程度;
[0015]分发单元,用于若目标文本的关联分值满足文本分发条件,则向第一主体分发目标文本。
[0016]一种可能的设计中,第二确定单元具体用于:
[0017]根据每个词语与第一关键词的互信息以及第一关键词的支持度确定每个词语的第一关联分值;
[0018]根据每个词语与第二关键的互信息以及第二关键词的支持度确定每个词语的第二关联分值;
[0019]根据每个词语的第一关联分值以及每个词语的第二关联分值确定目标文本的关联分值。
[0020]一种可能的设计中,第一确定单元还用于:
[0021]若匹配成功,则确定正样本匹配关系中与每个词语相匹配的第一关键词集合,并确定负样本匹配关系中与每个词语相匹配的第二关键词集合;
[0022]确定第一关键词集合中的每个第一关键词命中正样本匹配关系中字符数最多的第一目标关键词,并确定第二关键词集合中的每个第二关键词命中负样本匹配关系中字符数最多的第二目标关键词;
[0023]确定正样本匹配关系所关联的样本分句集合中所述第一目标关键词所命中的第一样本分句数量,并确定负样本匹配关系所关联的样本分句集合中第二目标关键词所命中的第二样本分句数量以及正样本匹配关系所关联的样本分句集合中的所有样本分句的目标数量;
[0024]根据第一样本分句数量、第二样本分句数量以及目标数量,确定目标文本的支持度权重;
[0025]根据目标文本的支持度权重对目标文本进行分发。
[0026]一种可能的设计中,第一确定单元根据第一样本分句数量、第二样本分句数量以及目标数量,确定目标文本的支持度权重包括:
[0027]根据第一样本分句数量以及目标数量确定目标文本的正向支持度权重;
[0028]根据第二样本分句数量以及目标数量确定目标文本的负向支持度权重;
[0029]根据目标文本的正向支持度权重以及目标文本的负向支持度权重确定目标文本的支持度权重。
[0030]一种可能的设计中,所述装置还包括:
[0031]第三确定单元,第三确定单元用于:
[0032]获取训练文本集合,训练文本集合包括第一主体所关联的训练文本以及第二主体所关联的训练文本;
[0033]对训练文本集合中每个文本进行分句,得到每个文本所对应的分句集合;
[0034]对每个文本所对应的分句集合进行处理,得到每个文本所对应的第一字序列;
[0035]剔除第一字序列中小于支持度阈值的关键词,得到每个文本所对应的第二字序列;
[0036]确定第二字序列的关键词以及关键词所对应的支持度;
[0037]将第一主体所对应的第二字序列的关键词以及关键词所对应的支持度确定为第一主体的正样本匹配关系;
[0038]将第二主体所对应的第二字序列中的关键词以及关键词所对应的支持度确定为第一主体的负样本匹配关系。
[0039]一种可能的设计中,第三确定单元对每个文本所对应的分句集合进行处理,得到每个文本所对应的第一字序列包括:
[0040]基于预设停用词库对每个文本所对应的分句集合进行停用词过滤;
[0041]对停用词过滤后的每个文本所对应的分句集合进行命名实体识别;
[0042]将命名实体识别后的每个文本所对应的分句集合按字单元进行拆分,得到第一字序列。
[0043]一种可能的设计中,第三确定单元确定第二字序列的关键词包括:
[0044]确定第二字序列中字符数为i的第三关键词以及目标字单元集合中与第三关键词相关联的关键词集合,目标字单元集合为第一主体以及第二主体中至少一个主体所对应的字单元集合,i的取值为第二字序列中字符数的数值;
[0045]剔除关键词集合中小于支持度阈值的关键词;
[0046本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的处理方法,其特征在于,包括:基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,所述正样本匹配关系包括所述第一主体的关键词与支持度的匹配关系,所述负样本匹配关系包括第二主体的关键词与支持度的匹配关系;若匹配失败,则确定所述每个词语与第一关键词的互信息,并确定所述每个词语与第二关键词的互信息,其中,所述第一关键词为所述第一主体的关键词中字符数最多的关键词,所述第二关键词为所述第二主体的关键词中字符数最多的关键词;根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度,确定所述目标文本的关联分值,其中,所述关联分值表示所述目标文本与所述第一主体的关联程度;若所述目标文本的关联分值满足文本分发条件,则向所述第一主体分发所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度,确定所述目标文本的关联分值包括:根据所述每个词语与第一关键词的互信息以及所述第一关键词的支持度确定所述每个词语的第一关联分值;根据所述每个词语与第二关键的互信息以及所述第二关键词的支持度确定所述每个词语的第二关联分值;根据所述每个词语的第一关联分值以及所述每个词语的第二关联分值确定所述目标文本的关联分值。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:若匹配成功,则确定所述正样本匹配关系中与所述每个词语相匹配的第一关键词集合,并确定所述负样本匹配关系中与所述每个词语相匹配的第二关键词集合;确定所述第一关键词集合中的每个第一关键词命中所述正样本匹配关系中字符数最多的第一目标关键词,并确定所述第二关键词集合中的每个第二关键词命中所述负样本匹配关系中字符数最多的第二目标关键词;确定所述正样本匹配关系所关联的样本分句集合中所述第一目标关键词所命中的第一样本分句数量,并确定所述负样本匹配关系所关联的样本分句集合中所述第二目标关键词所命中的第二样本分句数量以及所述正样本匹配关系所关联的样本分句集合中的所有样本分句的目标数量;根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量,确定所述目标文本的支持度权重;根据所述目标文本的支持度权重对所述目标文本进行分发。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量,确定所述目标文本的支持度权重包括:根据所述第一样本分句数量以及所述目标数量确定所述目标文本的正向支持度权重;根据所述第二样本分句数量以及所述目标数量确定所述目标文本的负向支持度权重;根据所述目标文本的正向支持度权重以及所述目标文本的负向支持度权重确定所述
目标文本的支持度权重。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配之前,所述方法还包括:获取训练文本集合,所述训练文本集合包括所述第一主体所关联的训练文本以及所述第二主体所关联的训练文本;对所述训练文本集...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1