本发明专利技术提供一种变形词识别方法及装置,该方法包括:获取新增的语料库;从所述新增的语料库中识别至少一个新词;分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。本发明专利技术实现了自动发现可能的新的变形词,从而提升变形词识别的效率。
【技术实现步骤摘要】
变形词识别方法及装置
本专利技术涉及计算机技术,尤其涉及一种变形词识别方法及装置。
技术介绍
随着网络的发展,出现了越来越多的变形词。网络平台需要对输入的信息进行变形词识别,以防止由于部分用户使用恶意的变形词而造成的严重后果。现有技术中,首先可以通过统计和规则的方法识别出实体词的变形词,进而,再通过分类或者标注的方法识别出变形词所对应的实体词,以用于后续的变形词识别。但是,现有技术在识别变形词时,需要使用人工标注的语料,因此进行变形词识别的效率较低。
技术实现思路
本专利技术提供一种变形词识别方法及装置,用于解决现有技术中进行变形词识别效率较低的问题。本专利技术第一方面提供一种变形词识别方法,包括:获取新增的语料库;从所述新增的语料库中识别至少一个新词;分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。进一步地,所述根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词,包括:对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。进一步地,还包括:将所述至少一个新词加入分词字典。进一步地,所述从新增的语料库中识别至少一个新词,包括:使用所述分词字典对所述新增的语料库进行分词;根据分词结果从所述新增的语料库中识别至少一个新词。进一步地,所述根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词,包括:如果,确定出第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设阈值,则就可以确定所述第一新词即为所述实体词的变形词;其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一个新词。本专利技术第二方面提供一种变形词识别装置,包括:获取模块,用于获取新增的语料库;识别模块,用于从所述新增的语料库中识别至少一个新词;第一确定模块,用于分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;第二确定模块,用于根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。进一步地,所述第二确定模块包括:排序单元,用于对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;确定单元,用于根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。进一步地,还包括:增加模块,用于将所述至少一个新词加入分词字典。进一步地,所述识别模块包括:分词单元,用于使用所述分词字典对所述新增的语料库进行分词;识别单元,用于根据分词结果从所述新增的语料库中识别至少一个新词。进一步地,所述确定单元具体用于:若第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设阈值,则确定所述第一新词为所述实体词的变形词;其中,所述第一新词为从所述新增的语料库中识别出的至少一个新词中的任意一个新词。本专利技术所提供的变形词识别方法及装置,首先自动发现语料库中的新词,其次根据新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从而提升变形词识别的效率。并且,该方法根据新词与实体词的相似度来识别变形词,相比于现有技术人工识别变形词的方法,变形词识别的准确率也得到了较大提升。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的变形词识别方法实施例一的流程示意图;图2为本专利技术提供的变形词识别方法实施例二的流程示意图;图3为本专利技术提供的变形词识别方法实施例三的流程示意图;图4为本专利技术提供的变形词识别方法实施例四的流程示意图;图5为本专利技术提供的变形词识别装置实施一的模块结构图;图6为本专利技术提供的变形词识别装置实施二的模块结构图;图7为本专利技术提供的变形词识别装置实施三的模块结构图;图8为本专利技术提供的变形词识别装置实施四的模块结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。以下首先对本专利技术所涉及到的概念进行解释。语料库:是一些实际使用中真实出现过的语音材料的集合,例如报纸上所发表的一篇文章、网络论坛上发的一篇帖子等,都可以作为语料库。实体词:也可以称为原形词,是指在字典中可以查询或者已经被广泛使用的词语。变形词:相对于实体词,对于实体词进行过转换的词语。例如,对于实体词“同学”而言,“童鞋”为该实体词的变形词。新词:是指未在字典中出现过的词语。现有技术中进行变形词识别时,需要使用人工标注的语料,即需要在获取到语料库之后通过人工识别语料库中的变形词,进而基于识别出的变形词进行其他场景下的变形词识别,这种处理方法的效率低下,并且,对新出现的变形词的识别能力也较差。本专利技术基于上述问题,提出一种变形词识别方法,通过自动发现语料库中的新词,以及比较新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从而提升变形词识别的效率。图1为本专利技术提供的变形词识别方法实施例一的流程示意图,该方法的执行主体为具有处理能力并且连接网络的设备,例如台式机、笔记本电脑等终端,或者其他服务器等。本专利技术以下都以终端为例来进行说明。如图1所示,该方法包括:S101、获取新增的语料库。终端可以以事件触发方式或者周期性地从网络论坛、微博等互联网络平台上获取用户的发帖等,将这些信息作为新增的语料库。实际使用过程中,只有产生的变形词有趣,才有可能被广泛传播,而网络论坛、微博等作为社交网络,能够较好地体现变形词的传播程度,因此,从这些网络平台上获取新增的语料库,可以更准确地识别出实体词的变形词。S102、从新增的语料库中识别至少一个新词。S103、分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度。用户可以在终端中输入一个或多个实体词,由终端来自动识别该实体词的变形词。当用户输入多个实体词时,终端可以分别针对每个实体词使用本专利技术的方法来识别出该实体词的变形词。对于一个实体词,终端需要确定该实体词与从新增的语料库中识别的每个新新词的相似度。可选地,终端可以根据语义和规则来综合确定相似度,其中,语义相似度可以根据词的上下文来识别,规则相似度主要通过统计变形的规则来计算相似度。S104、根据用户输入的实体词与从新增的语料库中识别出的每个新词的相似度,分别确定新词是否为实体词的变形词。本实施例中,首先自动发现语料库中的新词,其次根据新词与实体词的相似度来识别变形词,从而实现自动发现可能的新的变形词,从而提升变形词识别的效率。并且,该方法根据新词与实体词的相似度来识别变形词,相比于现有技术人工识别变形词的方法,本文档来自技高网...
【技术保护点】
一种变形词识别方法,其特征在于,包括:获取新增的语料库;从所述新增的语料库中识别至少一个新词;分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。
【技术特征摘要】
1.一种变形词识别方法,其特征在于,包括:获取新增的语料库;从所述新增的语料库中识别至少一个新词;分别确定用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度;根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词。2.根据权利要求1所述的方法,其特征在于,所述根据用户输入的实体词与从所述新增的语料库中识别出的每个新词的相似度,分别确定所述新词是否为所述实体词的变形词,包括:对所述至少一个新词按照所述新词与所述实体词的相似度进行排序;根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词。3.根据权利要求1或2所述的方法,其特征在于,还包括:将所述至少一个新词加入分词字典。4.根据权利要求3所述的方法,其特征在于,所述从新增的语料库中识别至少一个新词,包括:使用所述分词字典对所述新增的语料库进行分词;根据分词结果从所述新增的语料库中识别至少一个新词。5.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个新词的排序结果,确定所述新词是否为所述实体词的变形词,包括:若第一新词的排序与从所述新增的语料库中识别出的新词数量的比值小于预设阈值,则确定所述第一新词为所述实体词的变形词;其中,所述第一新词为从所述新增的语料库中识别出的至少一...
【专利技术属性】
技术研发人员:刘燕辉,
申请(专利权)人:北京五八信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。