System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及一种城市事件分拨方法、系统及存储介质。
技术介绍
1、当前社会在新一轮科技革命推动下,正在加速迈向数字社会,数字社会的发展离不开智慧城市的建设,指挥城市运用信息通讯技术有效整合各类城市管理系统,实现城市各系统间信息资源共享和业务协同。但是对着智慧城市的深入建设及全面运营,城市事件数据类型及数量日益增加,并且随着城市信息化改造,事件数据的接入源错综复杂,造成了城市事件分拨的低效率。
2、目前城市事件分拨存在的问题,第一,主要基于城市事件分拨人员的主观判断对系统今昔那个派发,业务流程效率慢,并且分拨的准确率不高。第二,各个事件数据来源渠道多,可能单一事件存在多渠道多次上报,并且事件数据一般为非结构化数据,对全量事件数据不能去重,造成对事件多次分拨。
3、现有技术cn1 14446287a公开了一种基于nlp和gis的城市事件分拨方法及系统,所述城市被预先划分为多个网格区域;并且基于gis空间分析,结合业务部门区域划分数据和监督部门区域划分数据,确定各个网格区域相应的业务部门和监督部门;所述事件分拨方法包括以下步骤:获取城市事件数据,所述事件数据包括事件综合描述信息和位置信息;根据城市事件的综合描述信息和位置信息,确定所述事件的业务类型和所属网格区域;根据所述事件的业务类型和所属网格区域,确定相应业务部门和监督部门。该现有技术通过关键词的匹配数量确定事件类型,但是对于数据信息较多的事件描述,其关键词分词较多,使用所有分词进行匹配,无疑增加计算量,降低匹配效率。
【技术保护点】
1.一种城市事件分拨方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,步骤S1中的城市历史事件数据,包括结构化数据和非结构化数据,针对非结构化数据,对其进行清洗,识别其中的结构化数据,并对识别出的结构化数据进行标记。
3.根据权利要求1所述的方法,其特征在于,步骤S3中采用HanLP进行分词;步骤S3中进行关键词选取的具体方法为:计算第i个文本数据中第j个单词的词频逆文档频率值,将所有单词的词频逆文档频率值进行降序排列,从大到小截取若干单词作为关键词。
4.根据权利要求3所述的方法,其特征在于,关键词的数量限定在10以下。
5.根据权利要求3所述的方法,其特征在于,词频逆文档频率值采用如下方法计算:
6.根据权利要求5所述的方法,其特征在于,第i个文本中第j个单词的出现频率TFij采用如下方法计算:
7.根据权利要求5所述的方法,其特征在于,第k个全局单词的逆文档频率IDFk采用如下方法计算:
8.根据权利要求5所述的方法,其特征在于,选择关键词的判定条件包括:TFIDFij不低
9.一种城市事件分拨系统,其特征在于,采用权利要求1-8任一项所述的方法进行分拨,包括获取模块、预处理模块、提取识别模块,所述获取模块用于获取城市历史事件数据,所述预处理模块用于将城市历史事件数据进行结构化处理,并根据结构化处理后的事件数据构建预设事件清单库;所述提取识别模块用于对上报事件数据进行关键词的提取,根据提取的关键词对上报事件进行识别,并显示上报事件的业务类型以及所属职责部门。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的城市事件分拨方法。
...【技术特征摘要】
1.一种城市事件分拨方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,步骤s1中的城市历史事件数据,包括结构化数据和非结构化数据,针对非结构化数据,对其进行清洗,识别其中的结构化数据,并对识别出的结构化数据进行标记。
3.根据权利要求1所述的方法,其特征在于,步骤s3中采用hanlp进行分词;步骤s3中进行关键词选取的具体方法为:计算第i个文本数据中第j个单词的词频逆文档频率值,将所有单词的词频逆文档频率值进行降序排列,从大到小截取若干单词作为关键词。
4.根据权利要求3所述的方法,其特征在于,关键词的数量限定在10以下。
5.根据权利要求3所述的方法,其特征在于,词频逆文档频率值采用如下方法计算:
6.根据权利要求5所述的方法,其特征在于,第i个文本中第j个单词的出现频率tfij采用如下方法计算...
【专利技术属性】
技术研发人员:余雁,苏如春,岑道岸,
申请(专利权)人:广州瀚信通信科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。