System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种改进文本聚类方式的预测模型构建方法技术_技高网

一种改进文本聚类方式的预测模型构建方法技术

技术编号:40939955 阅读:12 留言:0更新日期:2024-04-18 14:57
本发明专利技术公开了一种改进文本聚类方式的预测模型构建方法,包括以下步骤:采集网格内一定时间内发生的所有矛盾诉求事件,每个矛盾诉求事件都有对应的诉求内容,将所有的矛盾诉求时间数据进行清洗、分词和去停用词后,得到矛盾诉求事件的语料库;将语料库中的实体和事件分类进行组合,形成主题词,并利用主题词判断是否为同一事件,进行文本聚类;处理完相关信息后拆分数据集;利用支持向量机模型对数据进行训练,并用测试集进行效果验证,观察模型效果,并保存模型。本发明专利技术改进了文本聚类方式,不用single‑pass的方式计算相似度进行聚类,而是以实体和分类组成的主题词进行聚类,节约时间。

【技术实现步骤摘要】

本专利技术涉及自然语言处理研究领域,具体涉及一种改进文本聚类方式的预测模型构建方法


技术介绍

1、随着社会和科学技术的发展,人与人之间的沟通更加便捷,信息交互越来越频繁,然而,这也使得社会各种各样的矛盾冲突更加凸显化。社会管理人员通过人工感知数据,很难得到准确的矛盾事件风险等级,随着数据量的增多,越来越依赖大数据技术对出现的矛盾事件数据进行预测与分析。

2、在矛盾诉求事件中通常使用single-pass聚类方法,计算文本的相似度,完成文本聚类,但在实际操作过程中,聚类时间消耗时间过长。


技术实现思路

1、为了克服现有技术的不足,本专利技术改进了文本聚类方式,不用single-pass的方式计算相似度进行聚类,而是以实体和分类组成的主题词进行聚类,节约时间。技术方案如下:

2、一种改进文本聚类方式的预测模型构建方法,包括以下步骤:

3、步骤1,将城市区域划分为一个个的网格,采集网格内一定时间内发生的所有矛盾诉求事件,每个矛盾诉求事件都有对应的诉求内容,将所有的矛盾诉求时间数据进行清洗、分词和去停用词后,得到矛盾诉求事件的语料库。

4、步骤2,将语料库中的实体和事件分类进行组合,形成主题词,并利用主题词判断是否为同一事件,进行文本聚类;

5、在聚类过程中,对每一个不同的主题词进行分析,对于拥有相同主题词的数据,按时间从近到远进行重新排序;将实体名放入关键词列表中,将诉求内容中的分类相同的关键词加入关键词列表中,根据tf-idf算法计算每个文档中出现词语的权重,并根据权重抽取关键词加入关键词列表,从整个关键词列表中抽取,前三个为关键词,前五个为主题词,完成文本聚类。

6、优选的,tf-idf计算公式如下:

7、

8、

9、

10、其中,count(w)为词语w的出现次数,|di|为文档di中所有词的数量,n为所有的文档数,i(w,di)表示文档di中是否含有词语w,若包含则为1,否则为0。

11、步骤3,处理完相关信息后拆分数据集,80%为训练集,20%为测试集。

12、步骤4,利用支持向量机模型对数据进行训练,并用测试集进行效果验证,观察模型效果,并保存模型。

13、优秀的,采用了非线性多维支持向量分类svc,其中的核函数类型设置为“poly”,对于模型的结果,分析模型的拟合优度以及准确率和召回率。

14、与现有技术相比,本专利技术的有益效果为:对城市进行网格化分割,使得预测的结果更加细致;通过对历史矛盾的数据采集、模型训练,使得模型能够更准确地预测、预警;通过利用主题词进行文本分类,节约了时间成本。

本文档来自技高网...

【技术保护点】

1.一种改进文本聚类方式的预测模型构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进文本聚类方式的预测模型构建方法,其特征在于,TF-IDF计算公式如下:

3.根据权利要求2所述的一种改进文本聚类方式的预测模型构建方法,其特征在于,采用了非线性多维支持向量分类SVC,其中的核函数类型设置为“poly”,对于模型的结果,分析模型的拟合优度以及准确率和召回率。

【技术特征摘要】

1.一种改进文本聚类方式的预测模型构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进文本聚类方式的预测模型构建方法,其特征在于,tf-idf计算公式如下:

3...

【专利技术属性】
技术研发人员:周金明沈昊
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1