监狱短信异常事件提取方法、装置、计算机设备及介质制造方法及图纸

技术编号:35498289 阅读:15 留言:0更新日期:2022-11-05 17:00
本发明专利技术的实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,涉及数据分析领域。包括:基于样本数据生成异常事件词表;对待提取文本进行分词和词性标注,得到多个分词结果及其词性;将所述待提取文本划分为多个短句,判断多个所述短句中是否存在假设句;将多个所述短句中的假设句删除;基于所述异常事件词表对剩余短句进行词表匹配,得到多个匹配结果及其词性,若存在词性不符合词性限制的错误匹配结果,则删除错误匹配结果,输出异常事件提取结果。本申请实施例在标注数据较难获取的情况下,得到大量的召回词,形成覆盖广的异常事件词表,进而根据异常事件提取结果了解服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。性化帮扶及改造。性化帮扶及改造。

【技术实现步骤摘要】
监狱短信异常事件提取方法、装置、计算机设备及介质


[0001]本专利技术涉及数据分析领域,具体而言,涉及一种监狱短信异常事件提取方法、装置、计算机设备及介质。

技术介绍

[0002]在监狱场景下,服刑人员会与监狱外人员进行短信沟通,而沟通短信中会存在一些异常事件,如离婚、生病等。如果可以及时识别出这些异常事件,就可以根据服刑人员的个人情况对其进行个性化帮扶及改造。
[0003]目前来说,对于公开文本中的事件提取,主要存在两大类方法:命名体识别法和事件分类法。命名体识别法包括CRF模型、LSTM模型、BI

LSTM+CRF模型、FLATTEN模型等。事件分类法包括Fasttext模型、BERT模型等。而这些模型都需要大量的标注数据对其进行训练。但是在监狱这种特殊的环境下,标注数据极难获取,这就意味着很难对现有技术提供的模型进行训练,也就无法基于现有的模型对监狱内服刑人员的短信内容中的异常事件进行识别。

技术实现思路

[0004]为了解决上述技术问题,本申请实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,其能够在无监督的情况下对监狱内服刑人员的短信内容中的异常事件进行提取。
[0005]第一方面,本申请实施例提供了一种监狱短信异常事件提取方法,所述方法包括:基于样本数据生成异常事件词表;对待提取文本进行分词和词性标注,得到多个分词结果及其词性;将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
[0006]在一实施方式中,所述基于样本数据生成异常事件词表的步骤包括:基于所述样本数据生成种子词典;对所述种子词典中的各种子词进行词性标注;基于相似词召回模型获取各所述种子词对应的多个召回词;对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
[0007]在一实施方式中,所述方法还包括:对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。
[0008]在一实施方式中,所述种子词典包括实体词与事件词。
[0009]在一实施方式中,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。
[0010]在一实施方式中,所述对待提取文本进行分词和词性标注的步骤,包括:将所述待提取文本输入LAC分词工具;通过所述LAC分词工具对所述待提取文本进行分词处理,得到多个所述分词结果;对各所述分词结果进行词性标注;输出各所述分词结果对应的分词结果词性。
[0011]在一实施方式中,所述基于所述分词结果判断多个所述短句中是否存在假设句的步骤,包括:判断各所述短句对应的多个所述分词结果中是否包含假设语气词;若所述短句对应的多个所述分词结果中存在至少一个所述假设语气词,则确定所述短句为假设句。
[0012]第二方面,本申请实施例提供了一种异常事件提取装置,所述异常事件提取装置包括:生成模块,用于基于样本数据生成异常事件词表;标注模块,用于对待提取文本进行分词和词性标注,得到多个分词结果及其词性;判断模块,用于将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;删除模块,用于若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;匹配模块,基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;输出模块,若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
[0013]第三方面,本申请实施例提供了一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的监狱短信异常事件提取方法。
[0014]第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的监狱短信异常事件提取方法。
[0015]上述本申请提供的监狱短信异常事件提取方法、装置、计算机设备及介质,可以在标注数据较难获取的情况下,通过词向量模型和DSG模型协同召回与种子词相似的召回词,得到较大数据量的召回词,形成覆盖面广的异常事件词表,并根据异常事件词表对监狱短信的待提取文本进行异常事件提取,这样,就可以根据异常事件提取结果了解到服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0017]图1示出了本申请实施例提供的异常事件提取方法的一流程示意图;图2示出了本申请实施例提供的一异常事件框架的实体词;图3示出了本申请实施例提供的一异常事件框架的事件词;图4示出了本申请实施例提供的异常事件提取方法的步骤S101的一流程示意图;图5示出了本申请实施例提供的生成异常事件词表的一流程示意图;图6示出了本申请实施例提供的一词向量模型;图7示出了本申请实施例提供的异常事件提取装置的一结构示意图。
[0018]图标:700

监狱短信异常事件提取装置,710

生成模块,720

标注模块,730

判断模块,740

删除模块,750

匹配模块,760

输出模块。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0020]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监狱短信异常事件提取方法,其特征在于,所述方法包括:基于样本数据生成异常事件词表;对待提取文本进行分词和词性标注,得到多个分词结果及其词性;将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。2.根据权利要求1所述的监狱短信异常事件提取方法,其特征在于,所述基于样本数据生成异常事件词表的步骤包括:基于所述样本数据生成种子词典;对所述种子词典中的各种子词进行词性标注;基于相似词召回模型获取各所述种子词对应的多个召回词;对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。3.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述方法还包括:对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。4.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述种子词典包括实体词与事件词。5.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。6.根据权利要求1所述的监狱短信异常事件提取方法,其特征在于,所述对待提取文本进行分词和词性标...

【专利技术属性】
技术研发人员:张伟姚佳何行知唐怀都张凤朱娟
申请(专利权)人:四川省监狱管理局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1