一种事件的自动分类方法技术

技术编号:15502251 阅读:71 留言:0更新日期:2017-06-03 23:14
本发明专利技术公开了一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。

An automatic categorization of events

Automatic classification method of the present invention discloses a kind of event, the audio file format through voice recognition, converted into text, and then through the Chinese word segmentation, POS tagging, text clustering, feature extraction, keyword extraction and all events classification, the same events in the same event theme, classification after finishing, you can clearly see what do events, to avoid the same thing many people or more time reported, resulting in the same event after again due to forget to deal with the situation, through the automatic classification of events after the reported new events can be automatically merged or create a new event theme, event processing in order to help to avoid the same event repeatedly processing, greatly improving the efficiency.

【技术实现步骤摘要】
一种事件的自动分类方法
本专利技术涉及事件自动分类的
,特别涉及一种事件的自动分类方法。
技术介绍
报案是指机关、团体、企事业单位和公民(包括被害人)将发现的有犯罪事实或者犯罪嫌疑人向司法机关报告的行为。报案可以用书面或者口头形式提出。随着信息技术的发展,电话报案也越来越多,通过通话录音的方式来记录为报案提供了便捷,但是在一定的程度上也不便于事件的分类。事件可分为民事案件、刑事案件等,而民事案件或刑事案件下又包括各种大大小小的事件,事件繁多导致司法机关主管机关在事件的处理上较为棘手,由于一个相同的事件存在多人报案的情况,由于报案时间或者报案的形式(书面或者语音)不同,导致系统上对该事件存在多次备案的情况,出现相同的事件反复录入系统,导致后续对该事件进行多次处理的问题,使办事杂乱无序,降低了司法机关的办事效率。为了解决上述问题,帮助工作井然有序进行,提高司法机关对事件的处理效率,有必要提出一种事件的自动分类方法。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足,提供一种事件的自动分类方法,其旨在解决现有技术中相同的事件存在多次备案的情况,易使司法机关对该事件重复处理,导致办事杂乱无序,降低办事效率的技术问题。为实现上述目的,本专利技术提出了一种事件的自动分类方法,包括以下步骤:A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中;B)对音频格式文件进行语音识别,转换成对应的文本格式文件;C)对所有的文本格式文件进行中文分词;D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取;F)基于所有文本格式文件的文本特征信息,进行聚类;G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类;H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。作为优选,所述的步骤A)中书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。作为优选,所述的步骤B)中语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。作为优选,所述的步骤D)中词性标注采用基于规则和统计相结合的词性标注方法。作为优选,所述的步骤C)的中文分词和步骤D)的词性标注可采用分词和词性标注一体化模型一起进行。作为优选,所述的步骤F)中聚类采用K-means聚类。作为优选,所述的步骤H)中,事件主题的数量与事件件数相同。作为优选,当有新的报案人报案时,重复步骤A)~步骤G),如果与已存在的事件主题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新建立新的事件主题。作为优选,所述的关键词为多个。本专利技术的有益效果:与现有技术相比,本专利技术提供的一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。本专利技术的特征及优点将通过实施例结合附图进行详细说明。【附图说明】图1是本专利技术实施例一种事件的自动分类方法的原理图。图2是本专利技术实施例一的流程图;图3是本专利技术实施例二的流程图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本专利技术进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。参阅图1,本专利技术实施例提供一种事件的自动分类方法,包括以下步骤:A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中。其中,书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。B)对音频格式文件进行语音识别,转换成对应的文本格式文件。具体地,语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。C)对所有的文本格式文件进行中文分词。D)对中文分词结果中的每个词进行词性标注,确定每个词的词性。进一步地,词性标注采用基于规则和统计相结合的词性标注方法。E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取。F)基于所有文本格式文件的文本特征信息,进行聚类。其中,聚类采用K-means聚类。G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类。H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。具体地,事件主题的数量与事件件数相同。当有新的报案人报案时,重复步骤A)~步骤G),如果与已存在的事件主题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新建立新的事件主题,其中,关键词为多个。参阅图2,作为一种实施例,先进行步骤C)的中文分词,后进行步骤D)的词性标注。参阅图3,作为另一种实施例,步骤C)的中文分词和步骤D)的词性标注采用分词和词性标注一体化模型一起进行。本专利技术工作过程:本专利技术一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。本专利技术一种事件的自动分类方法,同样适用于事件管理方面,如物业管理等,提高办事效率。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种事件的自动分类方法

【技术保护点】
一种事件的自动分类方法,其特征在于:包括以下步骤:A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中;B)对音频格式文件进行语音识别,转换成对应的文本格式文件;C)对所有的文本格式文件进行中文分词;D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取;F)基于所有文本格式文件的文本特征信息,进行聚类;G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类;H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。

【技术特征摘要】
1.一种事件的自动分类方法,其特征在于:包括以下步骤:A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中;B)对音频格式文件进行语音识别,转换成对应的文本格式文件;C)对所有的文本格式文件进行中文分词;D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取;F)基于所有文本格式文件的文本特征信息,进行聚类;G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类;H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。2.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤A)中书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。3.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤B)中语音识别采用语音识别...

【专利技术属性】
技术研发人员:沈贝伦沈俊青陆韵张登
申请(专利权)人:杭州中奥科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1