一种用户词库同步方法及用户词库同步服务器技术

技术编号:8703192 阅读:209 留言:0更新日期:2013-05-15 23:18
本发明专利技术涉及一种用户词库同步方法,其包括:在至少一个存储空间内存储第一云端用户词库;所述方法还包括:步骤一:对第一云端用户词库进行过滤或者扩展操作得到中间结果;以及步骤二:将中间结果保存至一个存储空间内的一个第二云端用户词库。上述同步方法既可以满足用户词库在不同设备端上的共性需求,又可以使用户词库针对不同的设备类型或者应用环境作优化。另外,本发明专利技术还提供一种用户词库同步服务器。

【技术实现步骤摘要】
一种用户词库同步方法及用户词库同步服务器
本专利技术涉及输入法
,尤其涉及一种用户词库同步方法及一种用户词库同步服务器。
技术介绍
当前对于非字母文字(包括中文、日文、韩文等)的输入都需要经由专门的输入法软件进行输入转换。以中文为例,一般可以采用拼音方式或者字形(五笔等)编码方式进行输入。然而无论采用何种输入方式,都不可避免的会出现重码的情形。例如,采用拼音方式输入会出现同音字的情形,采用五笔输入同样会有重码。因此,如何能使输入法的首选词符合用户的预期就成为评价输入法的一个非常重要的参数。为了尽量提高首选词命中率,当前的各种中文输入法软件都会对用户输入的文字进行统计并形成用户的词库文件,词库中除了保存有用户输入的词条外,还包括各词条的使用频率统计信息。根据用户的使用频率对候选词进行排序可以最大程度的提高首选词命中率。此外,为了使用户在切换不同的设备时仍然继续使用用户词库,现有的输入法软件都会将用户词库备份至服务器。另一方面,随着计算机硬件技术及互联网的飞速发展,互联网的接入设备中,各种移动设备,如手机、平板电脑等所占的份额越来越大。当然,目前移动设备仍然无法完全替换个人电脑(PC,包括台式电脑或者笔记本电脑),实际情形是用户两种设备都会使用。与PC一样,用户在使用移动设备时同样有中文输入的需求。现有各种成熟的输入法软件,基本上都既有PC版本,又有移动设备版本。以腾讯公司的QQ输入法为例,就包括QQ桌面输入法及QQ移动输入法。如上所述,输入法软件都会维护一个用户词库。对于同一个用户来说,其在台式电脑上使用QQ桌面输入法生成的用户词库对于其使用的QQ移动输入法来说是具有借鉴意义的,反之亦然。因此,有必要使这两种输入法的用户词库之间可以共用。然而由于移动终端硬件处理能力较低、存储空间较小、键盘输入及选词的不便利性使得没有办法直接在移动终端中使用与台式电脑同样的词库。
技术实现思路
有鉴于此,有必要提供一种用户词库同步方法及同步服务器,既可以满足用户在不同设备端上的共性需求,又可以使用户词库针对不同的设备类型或者应用环境作优化。在一个实施例中,一种用户词库同步方法包括:在至少一个存储空间内存储第一云端用户词库;所述方法还包括:步骤一:对第一云端用户词库进行过滤或者扩展操作得到中间结果;以及步骤二:将中间结果保存至一个存储空间内的一个第二云端用户词库。在另一个实施例中,一种用户词库同步方法包括:在至少一个存储空间内存储一个第一云端用户词库;接收来自第一客户端的第一同步信息;根据第一同步信息对第一云端用户词库进行更新;对第一同步信息进行过滤或者扩展操作得到中间结果;以及根据中间结果对一个存储空间内的一个第二云端用户词库进行更新。在再一个实施例中,一种用户词库同步服务器包括:存储单元、更新处理单元以及中间处理单元,其中:存储单元用于存储对应于一个第一客户端的一个第一云端用户词库;中间处理单元用于对第一云端用户词库进行过滤或者扩展操作以得到中间结果;更新处理单元用于将中间结果保存至一个存储空间内的一个第二云端用户词库。在上述用户词库同步方法及用户词库同步服务器中,并不是简单使第一云端用户词库与第二云端用户词库保持同步,而是先进行过滤或者扩展操作,以去除冗余的词条和/或使用频率很低的词条,或者扩展相关联的词条,可在尽量保证用户输入体验的情形下最大程度降低第二云端用户词库的体积,或者增加第二云端用户词库的丰富程度,既可以满足用户在不同设备端上的对于用户词库的共性需求,又可以使用户词库针对不同的设备类型,例如移动设备,或者应用环境作优化。为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明图1为本专利技术第一实施例提供的用户词库同步方法的流程图。图2为本专利技术第一实施例提供的用户词库同步方法的方框示意图。图3为本专利技术第一实施例提供的用户词库同步方法中所使用的过滤器的结构框图。图4为本专利技术第一实施例提供的用户词库同步方法中词库的过滤的详细示意图。图5为本专利技术第二实施例提供的用户词库同步方法的流程图。图6为本专利技术第三实施例提供的用户词库同步方法的流程图。图7为本专利技术第四实施例提供的用户词库同步方法的流程图。图8为本专利技术实施例提供的对用户词库进行扩展操作的详细示意图。图9为本专利技术第五实施例提供的用户词库同步服务器的结构框图。具体实施方式为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种用户词库同步方法及用户词库同步服务器的具体实施方式、结构、特征及其功效,详细说明如后。术语定义:1.1词库词库是指包括多条词条记录的集合,而每条词条记录可以包括:用户输入的已有字词及相应的属性参数;和/或,用户输入的自造字词及相应的属性参数。对于每个词条其数据存储结构例如可以为:词条;属性参数1;属性参数2;......;属性参数n。其中,属性参数例如可以为词频信息、生成时间、最后使用时间、二元关系等等。1.2统计语言模型目前市场上的输入法普遍采用统计语言模型作为输入法的核心模块,来处理用户的整句输入需求。统计语言模型以概率论和数理统计理论为基础,用来计算汉语语句的概率,使得正确语句的概率大于错误语句的概率。对于一个包含m个词的汉语语句S=w1w2...wm,根据Bayes理论,其概率可以分解为若干个条件概率的乘积,即从上述公式中可以看到,概率p(wi|w1w2...wi-1)的参数空间随着变量i的值的增加呈指数级增长,以现有训练语料的规模,无法准确的估计出概率p(wi|w1w2...wi-1)的值。目前实用化的语言模型,均对条件概率p(wi|w1w2...wi-1)做了不同程度的简化。1.2.1Ngram语言模型标准Ngram模型是目前最常用的统计语言模型。它将汉语语句看作是一个马尔科夫序列,满足马尔科夫属性。具体来讲,标准Ngram模型对统计语言模型中的条件概率p(wi|w1w2...wi-1)作如下基本假设:有限历史假设:当前词语的概率仅仅与它前n-1个词相关,而与整个汉语语句无关;时齐性假设:当前词语的概率与它在句子中出现的位置无关。根据上述两个假设,语言模型的概率计算公式简化为如下形式:可以看到,标准统计语言模型中的条件概率p(wi|w1w2...wi-1)被简化成了Ngram概率p(wi|wi-n+1...wi-1),新概率中历史词语的个数固定为常数n-1,而不是标准统计语言模型中的变数i-1。这样做整体降低了语言模型参数空间的大小,使得在现有训练语料的基础上能够正确地估计出Ngram概率的值,从而使得Ngram模型可以实用化。1.2.2最大似然估计在标准Ngram模型当中,条件概率p(wi|w1w2...wi-1)的值采用最大似然估计的方法进行估计,本文档来自技高网
...

【技术保护点】
一种用户词库同步方法,其包括:在至少一个存储空间内存储第一云端用户词库;其特征在于,所述方法还包括:步骤一:对所述第一云端用户词库进行过滤或者扩展操作得到中间结果;以及步骤二:将所述中间结果保存至一个存储空间内的一个第二云端用户词库。

【技术特征摘要】
1.一种用户词库同步方法,其包括:
在至少一个存储空间内存储第一云端用户词库;
其特征在于,所述方法还包括:
步骤一:对所述第一云端用户词库进行过滤操作得到中间结果,所述第一云端用户词库和第二云端用户词库针对同一用户,所述过滤操作包括先采用语言模型过滤器进行过滤后再采用统计信息过滤器或者自定义过滤器进行过滤,所述语言模型过滤器所使用的语言模型与第二云端用户词库对应的客户端所使用的语言模型一致,其中,所述语言模型过滤器对于所述第一云端用户词库中的每一词条判断所述语言模型的输出是否正确,如果所述语言模型的输出结果是正确的,则该词条被所述语言模型过滤器过滤掉,所述判断语言模型的输出是否正确是指针对该词条,所述语言模型的输入是该词条对应的编码,判断所述语言模型输出的候选词中是否具有该词条,如果该词条出现则视为输出正确,否则,输出不正确;所述统计信息过滤器用于根据所述第一云端用户词库中各词条的统计信息进行词条过滤;以及
步骤二:将所述中间结果保存至一个存储空间内的一个所述第二云端用户词库。


2.如权利要求1所述的用户词库同步方法,其特征在于,所述第一、第二云端用户词库分别对应于同一用户使用的第一客户端与第二客户端。


3.如权利要求2所述的用户词库同步方法,其特征在于,所述第一客户端为非移动客户端,所述第二客户端为移动客户端。


4.如权利要求2所述的用户词库同步方法,其特征在于,步骤二中所述中间结果覆盖所述第二云端用户词库。


5.如权利要求1所述的用户词库同步方法,其特征在于,所述统计信息过滤器根据其他用户的云端用户词库计算得到统计信息。


6.如权利要求1所述的用户词库同步方法,其特征在于,所述步骤一与步骤二是定期重复进行的,或者是根据用户的同步请求进行的。


7.一种用户词库同步方法,其特征在于,包括:
在至少一个存储空间内存储一个第一云端用户词库;
接收来自第一客户端的第一同步信息;
根据所述第一同步信息对所述第...

【专利技术属性】
技术研发人员:肖镜辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1