一种获取近义词的方法和装置制造方法及图纸

技术编号:14236117 阅读:47 留言:0更新日期:2016-12-21 10:30
本发明专利技术公开了一种获取近义词的方法和装置,属于计算机技术领域。所述方法包括:获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。采用本发明专利技术,可以提高确定近义词的效率。

Method and device for obtaining synonyms

The invention discloses a method and a device for acquiring a synonym, which belongs to the technical field of computer. The method comprises: obtaining the first three tuples, the first element, the three element of the first three tuple data contained in the second elements and third elements respectively for one subject, predicate and object of the first element is to be determined homoionym words; all three tuple data contained in advance the stored reference library, determine the second elements, third elements are respectively matched with the second elements, the first three tuples in the third elements, the first element and the first element and the first three tuples in the data does not match the target of three tuple data; according to the first element of the three target tuples in data the determination of the first element of the first three tuples in synonyms. The invention can improve the efficiency of determining the near synonym.

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种获取近义词的方法和装置
技术介绍
在日常生活学习中,很多情况下会需要知道某个词语的近义词,当用户需要获知某个词语的近义词时,可以通过近义词库查询该词语对应的近义词,由此,建立近义词库显得尤为重要。目前,确定近义词库中互为近义词的词语的方法往往是:需要专业人员对每个词语进行语义分析,然后,确定语义相近的词语,将确定出的语义相近的词语确定为互为近义词的词语。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:基于上述处理方式,需要人工判断互为近义词的词语,从而,导致确定近义词的效率较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取近义词的方法和装置。所述技术方案如下:第一方面,提供了一种获取近义词的方法,所述方法包括:获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。可选的,所述获取第一三元组数据,包括:获取第一文本信息;对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。可选的,所述根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词,包括:如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。这样,当第一类三元组数据集合的数量较多时,说明第一三元组数据中的第一元素与目标三元组数据中的第一元素互为近义词的可能性较大,从而,可以提高确定出的近义词的准确性。可选的,所述如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词,包括:基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。可选的,所述方法还包括:如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。这样,可以用于后续确定其它三元组数据中的第一元素的近义词。第二方面,提供了一种获取近义词的装置,所述装置包括:获取模块,用于获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;第一确定模块,用于在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;第二确定模块,用于根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。可选的,所述获取模块,包括:第一获取子模块,用于获取第一文本信息;第一确定子模块,用于对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。可选的,所述第二确定模块,包括:第二获取子模块,用于如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;第二确定子模块,用于基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;第三确定子模块,用于如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。可选的,所述第三确定子模块,包括:第一确定单元,用于基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;第二确定单元,用于确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;第三确定单元,用于如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。可选的,所述装置还包括添加模块,用于:如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例中,服务器可以在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数本文档来自技高网...
一种获取近义词的方法和装置

【技术保护点】
一种获取近义词的方法,其特征在于,所述方法包括:获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。

【技术特征摘要】
1.一种获取近义词的方法,其特征在于,所述方法包括:获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。2.根据权利要求1所述的方法,其特征在于,所述获取第一三元组数据,包括:获取第一文本信息;对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词,包括:如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。4.根据权利要求3所述的方法,其特征在于,所述如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词,包括:基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。6.一种获...

【专利技术属性】
技术研发人员:甘信军马宏
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1