一种基于hash处理的词汇管理方法和设备技术

技术编号:11788137 阅读:106 留言:0更新日期:2015-07-29 12:22
本申请公开了一种基于hash处理的词汇管理方法和设备,该方法包括:服务器维护第一hash词汇表和第二hash词汇表;其中,第一hash词汇表用于记录hash值与未发生冲突的词汇之间的对应关系,第二hash词汇表用于记录hash值与多个发生冲突的词汇之间的对应关系;针对待处理词汇,服务器对待处理词汇进行hash处理,得到相应的hash值,并利用所述hash值查询所述第一hash词汇表和第二hash词汇表;如果所述第一hash词汇表或者第二hash词汇表中记录有所述hash值,且所述hash值下记录有所述待处理词汇,服务器确定所述待处理词汇为第一类型词汇。本申请实施例中,可以避免由于hash表中无法记录多个词汇导致的错误结论,提高词汇检验的准确性。

【技术实现步骤摘要】

本申请涉及网络领域,尤其是一种基于hash处理的词汇管理方法和设备
技术介绍
为了对词汇进行正确性检验,服务器上需要维护hash表,该hash表用于记录词汇 与hash值之间的对应关系,且每个hash值只能够对应一个词汇。在对词汇进行检验时, 首先对该词汇进行hash处理,得到该词汇对应的hash值;之后,服务器利用该词汇以及该 hash值查询hash表,以确定hash表中是否记录有该词汇以及该hash值;如果有,贝U说明 词汇正确;如果没有,则说明词汇不正确。 但是,在实际应用中,在对词汇进行hash处理时,会出现多个词汇对应的hash值 相同的情况,但是由于hash表中每个hash值只能够对应一个词汇,因此上述多个词汇中将 只有一个词汇能够记录在hash表中。当对上述多个词汇中没有记录在hash表中的词汇进 行检验时,其检验结果为词汇不正确。显然,上述检验结果是不正确的,即在对上述多个词 汇中没有记录在hash表中的词汇进行正确性检验时,其检验结果应该为词汇正确,但现有 技术中得到了错误结论。 进一步的,在基于hash表的翻译领域中,服务器上同样需要维护hash表,该hash 表用于记录需要进行翻译的词汇与hash值之间的对应关系,且每个hash值只能够对应一 个需要进行翻译的词汇。针对待翻译的词汇,首先对该词汇进行hash处理,得到该词汇对 应的hash值;之后,服务器利用该词汇以及该hash值查询hash表,以确定hash表中是否 记录有该词汇以及该hash值;如果有,则说明该词汇需要进行翻译;如果没有,则说明该词 汇不需要进行翻译。 但是,在实际应用中,在对词汇进行hash处理时,会出现多个词汇对应的hash值 相同的情况,但由于hash表中每个hash值只能够对应一个词汇,因此上述多个词汇中只有 一个词汇能够记录在hash表中。当判断上述多个词汇中没有记录在hash表中的词汇是否 需要翻译时,其检验结果为词汇不需要进行翻译。显然,上述是否需要翻译的结果是不正确 的,现有技术中得到了错误结论。
技术实现思路
本申请实施例提供一种基于hash处理的词汇管理方法和设备,以提高词汇检验 的准确性,避免由于hash表中无法记录多个词汇导致的错误结论。进一步的,在翻译领域 中,还可以准确判断出待翻译的词汇是否需要进行翻译,并提高翻译的效率。 为了达到上述目的,本申请实施例提供一种基于hash处理的词汇管理方法,所述 方法具体包括以下步骤:服务器维护第一hash词汇表和第二hash词汇表;其中,所述第一 hash词汇表用于记录hash值与未发生冲突的词汇之间的对应关系,所述第二hash词汇表 用于记录hash值与多个发生冲突的词汇之间的对应关系;针对待处理词汇,所述服务器对 待处理词汇进行hash处理,得到相应的hash值,并利用所述hash值查询所述第一hash词 汇表和第二hash词汇表;如果所述第一hash词汇表或者第二hash词汇表中记录有所述hash值,且所述hash值下记录有所述待处理词汇,则所述服务器确定所述待处理词汇为第 一类型词汇;如果所述第一hash词汇表和第二hash词汇表中均未记录所述待处理词汇,则 所述服务器确定所述待处理词汇为第二类型词汇。 优选的,在本申请实施例中,所述服务器维护第一hash词汇表和第二hash词汇表 的过程,具体包括:所述服务器依次遍历当前词汇库内的每个词汇,并对当前遍历的词汇进 行hash处理,以得到所述当前遍历的词汇对应的hash值;所述服务器判断所述第一hash 词汇表内是否记录有所述hash值;如果是,所述服务器从所述第一hash词汇表中删除所述 hash值以及与所述hash值对应的词汇,并在所述第二hash词汇表中记录所述hash值,在 所述hash值下记录所述当前遍历的词汇以及所述与所述hash值对应的词汇;如果否,所述 服务器判断所述第二hash词汇表内是否记录有所述hash值;如果有,所述服务器在所述第 二hash词汇表的所述hash值下记录所述当前遍历的词汇;如果没有,所述服务器在所述第 一hash词汇表中记录所述hash值,并在所述第一hash词汇表的所述hash值下记录所述 当前遍历的词汇。 优选的,在本申请实施例中,所述第一hash词汇表和第二hash词汇表中均未记录 所述待处理词汇,具体为:所述第一hash词汇表和第二hash词汇表中均未记录所述hash 值;或者,所述第一hash词汇表中记录有所述hash值,但所述hash值下未记录所述待处理 词汇;或者,所述第二hash词汇表中记录有所述hash值,但所述hash值下未记录所述待 处理词汇;所述方法还包括:在所述第一hash词汇表和第二hash词汇表中均未记录所述 hash值时,所述服务器在所述第一hash词汇表中记录所述hash值,并在所述第一hash词 汇表的所述hash值下记录所述待处理词汇;或者,在所述第一hash词汇表中记录有所述 hash值,但所述hash值下未记录所述待处理词汇时,所述服务器从所述第一hash词汇表 中删除所述hash值以及与所述hash值对应的词汇,并在所述第二hash词汇表中记录所述 hash值,在所述hash值下记录所述待处理词汇以及与所述hash值对应的词汇;或者,在所 述第二hash词汇表中记录有所述hash值,但所述hash值下未记录所述待处理词汇时,所 述服务器在所述第二hash词汇表的所述hash值下记录所述待处理词汇。 优选的,在本申请实施例中,所述服务器利用所述hash值查询所述第一hash词汇 表和第二hash词汇表的过程,具体包括:所述服务器利用所述hash值查询所述第一hash 词汇表;如果第一hash词汇表中记录有所述hash值,所述服务器判断所述hash值下是否 记录所述待处理词汇;如果是,所述服务器确定所述第一hash词汇表的所述hash值下记 录所述待处理词汇;如果否,所述服务器确定所述第一hash词汇表中记录有所述hash值, 但所述hash值下未记录所述待处理词汇;如果所述第一hash词汇表中没有记录所述hash 值,则所述服务器利用所述hash值查询所述第二hash词汇表;如果所述第二hash词汇表 中记录所述hash值,所述服务器判断所述hash值下是否记录所述待处理词汇;如果是,所 述服务器确定所述第二hash词汇表的所述hash值下记录所述待处理词汇;如果否,所述 服务器确定所述第二hash词汇表中记录有所述hash值,但所述hash值下未记录所述待处 理词汇;如果所述第二hash词汇表中没有记录所述hash值,则所述服务器确定所述第一 hash词汇表和第二hash词汇表中均未记录所述hash值。 优选的,在本申请实施例中,所述待处理词汇具体为:页面上需要检验的词汇;所 述词汇具体包括以下之一或者任意组合:英文单词,俄文单词,法文单词,德文单词。 优选的,在本申请实施例中,所述待处理词汇具体为:待翻译的词汇;所述词汇具 体包括以下之一或者任意组合:英文单词,俄文单词,法文单词,德文单词;其中,所述第一 类型词汇具体为:需要进行翻译的词汇;所述第二类型词汇具体为:不需要进行本文档来自技高网
...
一种基于hash处理的词汇管理方法和设备

【技术保护点】
一种基于hash处理的词汇管理方法,其特征在于,所述方法包括:服务器维护第一hash词汇表和第二hash词汇表;其中,所述第一hash词汇表用于记录hash值与未发生冲突的词汇之间的对应关系,所述第二hash词汇表用于记录hash值与多个发生冲突的词汇之间的对应关系;针对待处理词汇,所述服务器对待处理词汇进行hash处理,得到相应的hash值,并利用所述hash值查询所述第一hash词汇表和第二hash词汇表;如果所述第一hash词汇表或者第二hash词汇表中记录有所述hash值,且所述hash值下记录有所述待处理词汇,则所述服务器确定所述待处理词汇为第一类型词汇;如果所述第一hash词汇表和第二hash词汇表中均未记录所述待处理词汇,则所述服务器确定所述待处理词汇为第二类型词汇。

【技术特征摘要】

【专利技术属性】
技术研发人员:丁世远
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1