一种文本的处理方法、装置和可读存储介质制造方法及图纸

技术编号：31502064 阅读：29 留言：0更新日期：2021-12-22 23:21

本申请实施例提供了一种文本的处理方法及相关设备，可以提高文本分发的准确性。该方法包括：基于第一主体的正样本匹配关系与负样本匹配关系，对目标文本中每个词语进行匹配，正样本匹配关系包括第一主体的关键词与支持度的匹配关系，负样本匹配关系包括第二主体的关键词与支持度的匹配关系；若匹配失败，则确定每个词语与第一关键词的互信息，并确定每个词语与第二关键词的互信息；根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度，确定目标文本的关联分值；若目标文本的关联分值满足文本分发条件，则向第一主体分发目标文本。发目标文本。发目标文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的处理方法、装置和可读存储介质

[0001]本申请涉及数字政务领域，尤其涉及一种文本的处理方法、装置和可读存储介质。

技术介绍

[0002]在数字政务领域，公文自动分配是实现政务数字化转型、民生服务在线办理的必经途径。民生服务一网通办、政务服务一网互联等新治理、新服务理念的提出，加快政府数字化发展，其中民生服务和社会治理产生的大量政务数据，如民生事项办理、公文文本以及数字服务等数据，都需要被更好地进行挖掘和分析，才能真正实现和加快政务行业的智能化，提高人民和政府工作人员处理事项的便捷性。
[0003]目前建立电子公文分类分级系统的方法主要是基于模板的电子公文分类方法，该方法针对公文分配标签构建对应的敏感词库和匹配规则，根据输入的敏感词和导入的源文件进行学习，并生成模板的源文件学习模块，将文本按照导出的模板进行敏感词匹配和规则识别，获取公文分类从而实现文本的自动分配。
[0004]然而，基于模板的电子公文分类方法过度依赖于人工给定的规则和模板，在构建敏感词库和匹配规则上耗费较大的时间和人力成本，同时由于规则的局限性和公文文本的格式自由，所构建规则往往在一定时间后就会泛化能力降低，通用性不足，进而导致许多公文无法准确地进行分发。

技术实现思路

[0005]本申请提供了一种文本的处理方法、装置和可读存储介质，提高公文文本分发的准确性。
[0006]本申请实施例一方面提供一种文本的处理方法，包括：
[0007]基于第一主体的正样本匹配关系与负样本匹配关系，对目标文本中每...

【技术保护点】

【技术特征摘要】
1.一种文本的处理方法，其特征在于，包括：基于第一主体的正样本匹配关系与负样本匹配关系，对目标文本中每个词语进行匹配，其中，所述正样本匹配关系包括所述第一主体的关键词与支持度的匹配关系，所述负样本匹配关系包括第二主体的关键词与支持度的匹配关系；若匹配失败，则确定所述每个词语与第一关键词的互信息，并确定所述每个词语与第二关键词的互信息，其中，所述第一关键词为所述第一主体的关键词中字符数最多的关键词，所述第二关键词为所述第二主体的关键词中字符数最多的关键词；根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度，确定所述目标文本的关联分值，其中，所述关联分值表示所述目标文本与所述第一主体的关联程度；若所述目标文本的关联分值满足文本分发条件，则向所述第一主体分发所述目标文本。2.根据权利要求1所述的方法，其特征在于，所述根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度，确定所述目标文本的关联分值包括：根据所述每个词语与第一关键词的互信息以及所述第一关键词的支持度确定所述每个词语的第一关联分值；根据所述每个词语与第二关键的互信息以及所述第二关键词的支持度确定所述每个词语的第二关联分值；根据所述每个词语的第一关联分值以及所述每个词语的第二关联分值确定所述目标文本的关联分值。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：若匹配成功，则确定所述正样本匹配关系中与所述每个词语相匹配的第一关键词集合，并确定所述负样本匹配关系中与所述每个词语相匹配的第二关键词集合；确定所述第一关键词集合中的每个第一关键词命中所述正样本匹配关系中字符数最多的第一目标关键词，并确定所述第二关键词集合中的每个第二关键词命中所述负样本匹配关系中字符数最多的第二目标关键词；确定所述正样本匹配关系所关联的样本分句集合中所述第一目标关键词所命中的第一样本分句数量，并确定所述负样本匹配关系所关联的样本分句集合中所述第二目标关键词所命中的第二样本分句数量以及所述正样本匹配关系所关联的样本分句集合中的所有样本分句的目标数量；根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量，确定所述目标文本的支持度权重；根据所述目标文本的支持度权重对所述目标文本进行分发。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量，确定所述目标文本的支持度权重包括：根据所述第一样本分句数量以及所述目标数量确定所述目标文本的正向支持度权重；根据所述第二样本分句数量以及所述目标数量确定所述目标文本的负向支持度权重；根据所述目标文本的正向支持度权重以及所述目标文本的负向支持度权重确定所述
目标文本的支持度权重。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述基于第一主体的正样本匹配关系与负样本匹配关系，对目标文本中每个词语进行匹配之前，所述方法还包括：获取训练文本集合，所述训练文本集合包括所述第一主体所关联的训练文本以及所述第二主体所关联的训练文本；对所述训练文本集...

【专利技术属性】
技术研发人员：刘志煌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人