一种文本同事件识别方法、装置及应用制造方法及图纸

技术编号：34734598 阅读：10 留言：0更新日期：2022-08-31 18:24

本方案提供了一种文本同事件识别方法、装置及应用，通过获取至少一待识别文本数据并依据词性进行分词，基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典，选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词，从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集；获取每一所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量，所述词向量结合所述第一相似文本数据集构建词汇向量矩阵，选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集，通过上述方式可以有效提高同文本事件的处理效率。有效提高同文本事件的处理效率。有效提高同文本事件的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本同事件识别方法、装置及应用

[0001]本申请涉及自然语言处理领域，特别是涉及一种文本同事件识别方法、装置及应用

技术介绍

[0002]在对文本数据处理的过程中，往往它的事件来源较多、数据量较大、内容表述杂乱，在分析处理的过程中，往往有挖掘出描述事件一致的案件文本数据的需求，通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理，可以有效提高对大量文本数据快速处理的能力。
[0003]由于经济社会的快速发展，居民参与城市治理的热情越来越高，其在参与治理的过程中会产生大量的文本城市问题案卷数据；这些案卷数据的表述形式不一、数据量较大，文本表述中存在大量无用的噪声信息，在城市治理中人工难以准确快速的对其进行响应，给各级处理部门带来了较大的困难；随着人工智能技术快速发展，特别是大规模的预训练模型的出现给解决各项文本问题带来了可能，通过将预训练大模型结合自身领域内的数据进行模型微调就可以在一定程度上解决相对简单的文本问题；然而在城市治理中，文本内容表现繁杂，仅直接利用这些案卷数据进行微调训练还不能直接达到较好的效果，提升语言模型对该领域文本数据的表达能力是解决问题的关键。

技术实现思路

[0004]本申请实施例提供了一种文本同事件识别方法、装置及应用，针对目前表述形式不一、数据量大的文本数据能够实现自动判断出同事件文本，方便各级处理部门处理。
[0005]第一方面，本申请实施例提供了一种文本同事件识别方法，所述方法包括：
[0006]获取至少一待识别文本数据并依据...

【技术保护点】

【技术特征摘要】
1.一种文本同事件识别方法，其特征在于，包括以下步骤：获取至少一待识别文本数据并依据词性进行分词，基于依据词性进行分词后的子词构建词汇索引字典和词汇频率字典，选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词，从所述词汇索引字典中筛选含有对应的筛选词的至少一第一相似文本数据集；获取针对每一筛选词的所述第一相似文本数据集并输入到经训练后的第一句子模型中得到所述筛选词的词向量，所述词向量结合所述第一相似文本数据集构建词汇向量矩阵，选择所述词汇向量矩阵相似度大于第一设定阈值的筛选词对应的待识别文本数据组成预选同事件文本数据集。2.根据权利要求1所述的文本同事件识别方法，其特征在于，将所述预选同事件文本数据集输入经训练得到的第二句子模型中得到每个待识别文本数据的文本特征向量，计算每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分，选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据。3.根据权利要求2所述的文本同事件识别方法，其特征在于，在“选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据”步骤中，基于每个待识别文本数据的所述相似度得分构建文本相似度矩阵，其中所述文本相似度矩阵的每一列表示每个待识别文本数据和所述预选同事件文本数据集中其他待识别文本数据的相似度得分，选择所述相似度得分大于第二设定阈值的文本数据作为同事件文本数据，记录所述同事件文本数据的文本编号得到预选同事件表，根据所述预选同事件表得到同事件文本。4.根据利要求2所述的文本同事件识别方法，其特征在于，所述第二句子模型的训练方式为：获取文本训练样本，对所述文本训练样本进行数据增强后通过对比学习的方式对所述第二句子模型进行训练。5.根据权利要求4所述的文本同事件识别方法，其特征在于，所述数据增强的方式为：利用所述文本训练样本获得生成文本，对所述生成文本随机复制句子中几个位置的词汇生成新的文本数据，用所述新的文本数据作为所述文本训练样本的扩充数据进行数据增强。6.根据权利要求1所述的文本同事件识别方法，其特征在于，“获取至少一待识别文本数据并依据词性进行分词”步骤包括：将所述待识别文本数据依据词性进行分词，采用分词后的子词来重新构建新的待识别文本数据。7.根据权利要求1所述的文本同事件识别方法，其特征在于，“构建词汇索引字典和词汇频率字典”步骤包括：统计所述新的待识别文本数据中的子词的词频，基于每个子词归属的待识别文本数据的文本编号以及所述子词在所述待识别文本数据中的位置构建词汇索引字典；统计每个子词所在的待识别文本数据中的文本数据量，构建词汇频率字典。8.根据权利要求1所述的文本同事件识别方法，其特征在于，在“选择所述词汇频率字典中满足筛选条件的至少一子词作为筛选词”步骤中，所述筛选条件为词频在设定下值和设定上值之间，其中所述设定下值为历史统计数据中的同事件文本...

【专利技术属性】
技术研发人员：毛云青，葛俊，王国梁，曹喆，陈刚，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人