【技术实现步骤摘要】
事件的识别方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种事件的识别方法和装置。
技术介绍
对于人们关注的主题,如果给定一个关键词,需要解决的问题是如何快速有效的找到与给定关键词的关联性事件并按照关联度对关联性事件排序。现有的解决方案是基于文本匹配度或者给定关键词在语句中的共现概率确定关联词组,通过词频统计得到事件的关注度排序。 具体地,通过文本匹配度确定关联词组,即在文本中查找与给定关键词所包含的文字相似的关联词,如,若给定关键词为“天安门”,那么通过文本匹配度的方法查找关联词,将认为“地安门”与“天安门”极为相似,即认为“地安门”为给定关键词“天安门”的一个关联词,但是实际上,通常与“天安门”同时出现的词语是“天安门城楼”、“故宫”或者“天安门广场”等,而不是“地安门”。 进一步地,通过共现概率确定关联词组,即将文本的所有语句划分为最小关键词(即切分为最小词组或单字),计算任意两个最小关键词在每个语句中共同出现的概率,得到这两个最小关键词的共现概率。根据预先设定的概率阈值,共现概率大于概率阈值的两个词语即为关联性词语,共现概率越高的两个词语的关联性越高。 由于现有的解决方案运用遍历法查找关联词以确定关联词组,在计算和存储数据时耗费的计算机资源都比较大,处理速度慢,而且词频统计的方法没有基于自然语言处理,导致了会漏掉很多的关联性事件。 针对现有技术中识别关键词的关联事件的速度慢、准确性差的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种事件的识别方法和装置,以解决现有技术 ...
【技术保护点】
一种事件的识别方法,其特征在于,包括:对预先获取的文本信息进行分词处理得到第一词语和多个第二词语;通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组;使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据;提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合;计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语;将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。
【技术特征摘要】
1.一种事件的识别方法,其特征在于,包括: 对预先获取的文本信息进行分词处理得到第一词语和多个第二词语; 通过机器学习方法获取所述第一词语对应所述文本信息的第一多维数组和各个所述第二词语对应所述文本信息的第二多维数组; 使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据; 提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合; 计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据,其中,所述第二词语的集合包括所述第三词语和所述第四词语; 将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语;保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组。2.根据权利要求1所述的识别方法,其特征在于, 使用所述第一多维数组和各个所述第二多维数组计算所述第一词语与各个所述第二词语的第一关联度数据包括:计算所述第一词语的第一多维数组与各个所述第二词语的第二多维数组之间的第一欧式距离,得到所述第一关联度数据; 计算所述第一关联词集合中的各个第三词语与所述第二词语的集合中的第四词语的第二关联度数据包括:计算所述第三词语的第三多维数组与所述第四词语的第四多维数组之间的第二欧式距离,得到所述第二关联度数据。3.根据权利要求2所述的识别方法,其特征在于,提取符合第一预设条件的所述第一关联度数据对应的第二词语,得到第一关联词集合包括: 对计算得到的所述第一欧式距离进行倒序排序,得到第一序列;提取所述第一序列中前N位的所述第一欧式距离对应的所述第二词语,得到所述第一关联词集合,其中,N为自然数;或 将不大于第一预设阈值的所述第一欧式距离的所述第二词语保存入所述第一关联词 口 O4.根据权利要求2所述的识别方法,其特征在于,将符合第二预设条件的所述第二关联度数据对应的所述第四词语作为第五词语包括:对计算得到的所述第二欧式距离进行倒序排序,得到第二序列;提取所述第二序列中前M位的所述第二欧式距离对应的所述第四词语,得到所述第五词语,其中,M为自然数;或将不大于第二预设阈值的所述第二欧式距离的所述第四词语作为所述第五词语。5.根据权利要求2所述的识别方法,其特征在于,在保存具有关联关系的所述第三词语、所述第五词语以及所述第一词语,得到所述第一词语的事件词组之后,所述识别方法还包括: 计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据; 使用所述第三关联度数据对所述事件词组进行排序得到事件序列, 其中,计算各个所述事件词组中所述第五词语、所述第三词语和所述第一词语的第三关联度数据包括:将所述第一欧式距离和所述第二欧式距离之和作为所述第三关联度数据; 使用所述第三关联度数据对所述事件词组进行排序得到事件序列包括:按照所述第三关联度数据的数值大小对所述事件词组进行排序得到所述事件序列。...
【专利技术属性】
技术研发人员:刘粉香,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。