事件的识别方法和装置制造方法及图纸

技术编号:11191759 阅读:58 留言:0更新日期:2015-03-25 20:22
本发明专利技术公开了一种事件的识别方法和装置。其中,该方法包括:对文本信息进行分词处理得到第一词语和多个第二词语;获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;按照第一关联度数据提取第二词语,得到第一关联词集合;计算该集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据;将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语,得到第一词语的事件词组。通过本发明专利技术,解决了现有技术中识别关键词的关联事件的速度慢、准确性差的问题,实现了提高识别关联事件的速度和准确性的效果。

【技术实现步骤摘要】
事件的识别方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种事件的识别方法和装置。
技术介绍
对于人们关注的主题,如果给定一个关键词,需要解决的问题是如何快速有效的找到与给定关键词的关联性事件并按照关联度对关联性事件排序。现有的解决方案是基于文本匹配度或者给定关键词在语句中的共现概率确定关联词组,通过词频统计得到事件的关注度排序。 具体地,通过文本匹配度确定关联词组,即在文本中查找与给定关键词所包含的文字相似的关联词,如,若给定关键词为“天安门”,那么通过文本匹配度的方法查找关联词,将认为“地安门”与“天安门”极为相似,即认为“地安门”为给定关键词“天安门”的一个关联词,但是实际上,通常与“天安门”同时出现的词语是“天安门城楼”、“故宫”或者“天安门广场”等,而不是“地安门”。 进一步地,通过共现概率确定关联词组,即将文本的所有语句划分为最小关键词(即切分为最小词组或单字),计算任意两个最小关键词在每个语句中共同出现的概率,得到这两个最小关键词的共现概率。根据预先设定的概率阈值,共现概率大于概率阈值的两个词语即为关联性词语,共现概率越高的两个词语的关联性越高。 由于现有的解决方案运用遍历法查找关联词以确定关联词组,在计算和存储数据时耗费的计算机资源都比较大,处理速度慢,而且词频统计的方法没有基于自然语言处理,导致了会漏掉很多的关联性事件。 针对现有技术中识别关键词的关联事件的速度慢、准确性差的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种事件的识别方法和装置,以解决现有技术中识别关键词的关联事件的速度慢、准确性差的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种事件的识别方法。 根据本专利技术的识别方法包括:对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。 进一步地,使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据包括:计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据包括:计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。 进一步地,提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合包括:对计算得到的第一欧式距离进行倒序排序,得到第一序列;提取第一序列中前N位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,N为自然数;或将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。 进一步地,将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语包括:对计算得到的第二欧式距离进行倒序排序,得到第二序列;提取第二序列中前Μ位的第二欧式距离对应的第四词语,得到第五词语,其中,Μ为自然数;或将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。 进一步地,在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,识别方法还包括:计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列,其中,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据包括:将第一欧式距离和第二欧式距离之和作为第三关联度数据;使用第三关联度数据对事件词组进行排序得到事件序列包括:按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。 为了实现上述目的,根据本专利技术的另一方面,提供了一种事件的识别装置。 根据本专利技术的识别装置包括:分词模块,用于对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;获取模块,用于通过机器学习方法获取第一词语对应文本信息的第一多维数组和各个第二词语对应文本信息的第二多维数组;第一计算模块,用于使用第一多维数组和各个第二多维数组计算第一词语与各个第二词语的第一关联度数据;提取模块,用于提取符合第一预设条件的第一关联度数据对应的第二词语,得到第一关联词集合;第二计算模块,用于计算第一关联词集合中的各个第三词语与第二词语的集合中的第四词语的第二关联度数据,其中,第二词语的集合包括第三词语和第四词语;第一确定模块,用于确定将符合第二预设条件的第二关联度数据对应的第四词语作为第五词语;第一保存模块,用于保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组。 进一步地,第一计算模块包括:第一计算子模块,用于计算第一词语的第一多维数组与各个第二词语的第二多维数组之间的第一欧式距离,得到第一关联度数据;第二计算模块包括:第二计算子模块,用于计算第三词语的第三多维数组与第四词语的第四多维数组之间的第二欧式距离,得到第二关联度数据。 进一步地,提取模块包括:第一排序模块,用于对计算得到的第一欧式距离进行倒序排序,得到第一序列;第一提取子模块,用于提取第一序列中前Ν位的第一欧式距离对应的第二词语,得到第一关联词集合,其中,Ν为自然数;或第二保存模块,用于将不大于第一预设阈值的第一欧式距离的第二词语保存入第一关联词集合。 进一步地,第一确定模块包括:第二排序模块,用于对计算得到的第二欧式距离进行倒序排序,得到第二序列;第二提取子模块,用于提取第二序列中前Μ位的第二欧式距离对应的第四词语,得到第五词语,其中,Μ为自然数;或第三保存模块,用于将不大于第二预设阈值的第二欧式距离的第四词语作为第五词语。 进一步地,识别装置还包括:第三计算模块,用于在保存具有关联关系的第三词语、第五词语以及第一词语,得到第一词语的事件词组之后,计算各个事件词组中第五词语、第三词语和第一词语的第三关联度数据;第三排序模块,用于使用第三关联度数据对事件词组进行排序得到事件序列,其中,第三计算模块包括:第二确定模块,用于将第一欧式距离和第二欧式距离之和作为第三关联度数据;第三排序模块包括:排序子模块,用于按照第三关联度数据的数值大小对事件词组进行排序得到事件序列。 采用本专利技术实施例,在对预先获取的文本信息进行分词得到第一词语和多个其他词语之后,计算第一词语与各个其他词语的第一关联度数据以确定第一词语的第一关联词集合,然后计算第一关联词集合中的各个词语与其他词语的第二关联度数据得到第一关联词集合中的第三词语的关联词语,保存第一词语、第一关联词集合中的第三词语和第一关联词集合中的第三词语的关联词语(即第五词语)得到第一词语的事件词组。通过本专利技术上述实施例,在确定第一词语的第一关联词集合之后,确本文档来自技高网...
事件的识别方法和装置

【技术保护点】
一种事件的识别方法,其特征在于,包括:对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组;使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据;提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合;计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语;将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。

【技术特征摘要】
1.一种事件的识别方法,其特征在于,包括: 对预先获取的文本信息进行分词处理得到第一词语和多个第二词语; 通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组; 使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据; 提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合; 计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语; 将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。2.根据权利要求1所述的识别方法,其特征在于, 使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据包括:计算所述第一词语的第一多维数组与各个所述第二词语的第二多维数组之间的第一欧式距离,得到所述第一关联度数据; 计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据包括:计算所述第三词语的第三多维数组与所述第四词语的第四多维数组之间的第二欧式距离,得到所述第二关联度数据。3.根据权利要求2所述的识别方法,其特征在于,提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合包括: 对计算得到的所述第一欧式距离进行倒序排序,得到第一序列;提取所述第一序列中前N位的所述第一欧式距离对应的所述第二词语,得到所述第一关联词集合,其中,N为自然数;或 将不大于第一预设阈值的所述第一欧式距离的所述第二词语保存入所述第一关联词 口 O4.根据权利要求2所述的识别方法,其特征在于,将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语包括:对计算得到的所述第二欧式距离进行倒序排序,得到第二序列;提取所述第二序列中前M位的所述第二欧式距离对应的所述第四词语,得到所述第五词语,其中,M为自然数;或将不大于第二预设阈值的所述第二欧式距离的所述第四词语作为所述第五词语。5.根据权利要求2所述的识别方法,其特征在于,在保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组之后,所述识别方法还包括: 计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据; 使用所述第三关联度数据对所述事件词组进行排序得到事件序列, 其中,计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据包括:将所述第一欧式距离和所述第二欧式距离之和作为所述第三关联度数据; 使用所述第三关联度数据对所述事件词组进行排序得到事件序列包括:按照所述第三关联度数据的数值大小对所述事件词组进行排序得到所述事件序列。...

【专利技术属性】
技术研发人员:刘粉香
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1