一种文本同事件识别方法、装置及应用制造方法及图纸

技术编号:34734598 阅读:10 留言:0更新日期:2022-08-31 18:24
本方案提供了一种文本同事件识别方法、装置及应用,通过获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集,通过上述方式可以有效提高同文本事件的处理效率。有效提高同文本事件的处理效率。有效提高同文本事件的处理效率。

【技术实现步骤摘要】
一种文本同事件识别方法、装置及应用


[0001]本申请涉及自然语言处理领域,特别是涉及一种文本同事件识别方法、装置及应用

技术介绍

[0002]在对文本数据处理的过程中,往往它的事件来源较多、数据量较大、内容表述杂乱,在分析处理的过程中,往往有挖掘出描述事件一致的案件文本数据的需求,通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理,可以有效提高对大量文本数据快速处理的能力。
[0003]由于经济社会的快速发展,居民参与城市治理的热情越来越高,其在参与治理的过程中会产生大量的文本城市问题案卷数据;这些案卷数据的表述形式不一、数据量较大,文本表述中存在大量无用的噪声信息,在城市治理中人工难以准确快速的对其进行响应,给各级处理部门带来了较大的困难;随着人工智能技术快速发展,特别是大规模的预训练模型的出现给解决各项文本问题带来了可能,通过将预训练大模型结合自身领域内的数据进行模型微调就可以在一定程度上解决相对简单的文本问题;然而在城市治理中,文本内容表现繁杂,仅直接利用这些案卷数据进行微调训练还不能直接达到较好的效果,提升语言模型对该领域文本数据的表达能力是解决问题的关键。

技术实现思路

[0004]本申请实施例提供了一种文本同事件识别方法、装置及应用,针对目前表述形式不一、数据量大的文本数据能够实现自动判断出同事件文本,方便各级处理部门处理。
[0005]第一方面,本申请实施例提供了一种文本同事件识别方法,所述方法包括:
[0006]获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
[0007]获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
[0008]第二方面,本申请实施例提供了文本同事件识别装置,包括:
[0009]第一获取模块:获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
[0010]第二获取模块:获取每一所述第一相似文本数据集并输入到经训练后的第一句子
模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵;
[0011]判断模块:选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
[0012]第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种文本同事件识别方法。
[0013]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,用来执行一种文本同事件识别方法。
[0014]本专利技术的主要贡献和创新点如下:
[0015]本方案通过构建词汇索引字典来记录每条待识别文本数据中每个词汇的位置和该条待识别文本数据的文本编号,构建词汇频率字典来记录每个词汇在总的待识别文本数据中出现对应词汇文本数据的条数,通过词汇索引字典和词汇频率字典中记录的信息,结合一个训练好的大规模预训练模型即可得出预选同事件文本;将所述预选同事件文本进行编码后送入另一个训练好的大规模预训练模型中得到所述预选同事件文本的文本特征向量,通过所述文本特征向量进一步得出同事件文本;通过两个大规模训练模型得出的同事件文本结果更加精确,且消除了相近词义和高频词对判断同事件文本的影响。
[0016]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0018]图1是根据本申请实施例的文本同事件识别方法的流程图;
[0019]图2是根据本申请实施例搭建的的一种第一句子模型的模型结构图;
[0020]图3是根据本申请实施例的词汇复制的数据增强的方法的示意图;
[0021]图4是根据本申请实施例的第二句子模型训练流程示意图;
[0022]图5是根据本申请实施例的第二句子模型中添加了关键词掩码矩阵的自注意计算机制结构示意图;
[0023]图6是根据本申请实施例的一种文本同事件识别装置的结构框图;
[0024]图7是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
[0025]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0026]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0027]实施例一
[0028]本申请旨在提出一种文本同事件识别方法,如图1所示,包括以下步骤:
[0029]获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;
[0030]获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。
[0031]在一些实施例中,“获取至少一待识别文本数据并依据词性进行分词”步骤包括:将所述待识别文本数据依据词性进行分词,采用分词后的子词来重新构建新的待识别文本数据。
[0032]示例性的,在对所述待识别文本数据中的句子进行分词时,可以筛选出名词(n)、动名词(vn)、动词(v)、地名(ns)、机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本同事件识别方法,其特征在于,包括以下步骤:获取至少一待识别文本数据并依据词性进行分词,基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典,选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词,从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集;获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量,所述词向量结合所述第一相似文本数据集构建词汇向量矩阵,选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。2.根据权利要求1所述的文本同事件识别方法,其特征在于,将所述预选同事件文本数据集输入经训练得到的第二句子模型中得到每个待识别文本数据的文本特征向量,计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据。3.根据权利要求2所述的文本同事件识别方法,其特征在于,在“选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据”步骤中,基于每个待识别文本数据的所述相似度得分构建文本相似度矩阵,其中所述文本相似度矩阵的每一列表示每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分,选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据,记录所述同事件文本数据的文本编号得到预选同事件表,根据所述预选同事件表得到同事件文本。4.根据利要求2所述的文本同事件识别方法,其特征在于,所述第二句子模型的训练方式为:获取文本训练样本,对所述文本训练样本进行数据增强后通过对比学习的方式对所述第二句子模型进行训练。5.根据权利要求4所述的文本同事件识别方法,其特征在于,所述数据增强的方式为:利用所述文本训练样本获得生成文本,对所述生成文本随机复制句子中几个位置的词汇生成新的文本数据,用所述新的文本数据作为所述文本训练样本的扩充数据进行数据增强。6.根据权利要求1所述的文本同事件识别方法,其特征在于,“获取至少一待识别文本数据并依据词性进行分词”步骤包括:将所述待识别文本数据依据词性进行分词,采用分词后的子词来重新构建新的待识别文本数据。7.根据权利要求1所述的文本同事件识别方法,其特征在于,“构建词汇索引字典和词汇频率字典”步骤包括:统计所述新的待识别文本数据中的子词的词频,基于每个子词归属的待识别文本数据的文本编号以及所述子词在所述待识别文本数据中的位置构建词汇索引字典;统计每个子词所在的待识别文本数据中的文本数据量,构建词汇频率字典。8.根据权利要求1所述的文本同事件识别方法,其特征在于,在“选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词”步骤中,所述筛选条件为词频在设定下值和设定上值之间,其中所述设定下值为历史统计数据中的同事件文本...

【专利技术属性】
技术研发人员:毛云青葛俊王国梁曹喆陈刚
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1