本发明专利技术提供了一种辅助词库的生成方法和装置,所述方法可以包括:获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。本发明专利技术能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。
【技术实现步骤摘要】
本专利技术涉及计算机字符信息的输入领域,特别是涉及一种用于字符输入的辅助词库的生成方法和装置。
技术介绍
在现代的计算机应用中,汉字输入法已经成为中文用户与计算机交互的重要手段。汉字输入法技术需要将用户的一连串键盘按键翻译成用户最可能想要的汉字串。大部分汉字输入方法的规则下,按键串到汉字串并不是一一对应的,特别是被广泛使用的拼音输入法,相同的按键串往往对应着多种可能的词汇、短语或者句子。要提高用户的输入效率,汉字输入法就需要带有一个“词库”,词库中含有用户最可能会使用的汉字、词语和短句。但是,目前输入法的词库一般只能够覆盖人们使用的词汇的一部分,通常主要包括一些人们普遍的常用词汇,还有一部分词汇输入法词库是不可能全部包括进来的。因为现有的输入法词库都是通用的,针对的是所有用户,如果把所有用户用的词汇都加入进来,那么输入法的词库容量将在数百万的量级。词库过大,同音字过多,候选项增加,不需要使用这些词的用户会受到干扰,并且,这样一个超大的词库势必大幅占用硬盘、CPU、内存等计算设备资源,对个人电脑来说是不能接受的。其次,由于汉语的灵活性,各种词语丰富而多样,每个人都有自己偏好使用的词汇集合,即使同样一个词汇对于不同的人而言,其使用词频都可能是不同的。例如,每个人在使用输入法时除了输入许多常用词汇之外(例如“现在”、“时间”、“多少”等),还会输入一小部分人用的词汇,例如:一些游戏名词“艾泽拉斯”“德鲁伊”,电影名称“云水谣”等等。这些词汇对非常小的群体来说会经常输入,例如:魔兽世界玩家,电影评论家等等;但是这些词汇在总体用户中的使用比例比较低,为了保证词库的通用性,现有模式下面向所有用户的输入法词库是不可能把这些词汇全部包括进去的。-->上述现有技术的缺陷,导致用户输入上述这些小群体的常用词汇时的首选词准确率非常低,严重影响用户的使用体验以及其思想的表达。总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创造性的提出一种获取某个用户群体常用的个性化词汇,并进一步能够根据使用者的具体情况来提供个性化的辅助词库,以提高用户的输入效率。
技术实现思路
本专利技术所要解决的技术问题是提供一种辅助词库的生成方法和装置,能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。为了解决上述问题,本专利技术公开了一种辅助词库的生成方法,可以包括:获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。优选的,所述历史输入字词及其词频的获取步骤可以包括:通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其词频。优选的,所述历史输入字词及其词频的获取步骤可以包括:通过针对该用户群体的文字素材进行分词统计而获得;或者,通过该用户群体的用户手动添加相应的字词及其词频而获得。优选的,通过以下方式汇集一用户群体的个人词库:收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数;计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。优选的,也可以通过以下方式汇集一用户群体的个人词库:收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该个人词库的特征参数;计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。优选的,所述预置条件包括:目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。优选的,所述的方法还可以包括:发布所述生成的辅助词库。优选的,通过以下方式完成发布:用户请求下载相应用户群的辅助词库;-->或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;所述网络空间指向一用户群体。优选的,所述的方法还可以包括:向通过个人词库聚类得到的用户群体发布所述生成的针对该用户群体的辅助词库。依据本专利技术的另一优选实施例,还公开了一种辅助词库的生成装置,可以包括:历史信息获取模块,用于获取一用户群体的历史输入字词及其词频;分析模块,用于分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;词库生成模块,用于生成针对该用户群体的辅助词库。优选的,所述历史信息获取模块通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其词频。优选的,所述历史信息获取模块通过针对该用户群体的文字素材进行分词统计而获得;或者,所述历史信息获取模块通过该用户群体的用户手动添加相应的字词及其词频而获得。优选的,所述历史信息获取模块进一步包括:个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库的特征参数;群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。优选的,所述历史信息获取模块也可以进一步包括:个人词库收集子模块,用于收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;特征参数计算子模块,用于针对各用户的个人词库,计算得到该用户的特征参数;群体聚类子模块,用于计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。-->优选的,所述预置条件包括:目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。优选的,所述的装置还可以包括:发布模块,用于发布所述生成的辅助词库。优选的,所述发布模块接受用户的下载请求,向用户发布相应用户群的辅助词库;或者,当用户登录一网络空间时,该网络空间触发所述发布模块向用户发布所述生成的辅助词库;所述网络空间指向一用户群体。优选的,所述的装置还可以包括:发布模块,用于向通过个人词库聚类得到的用户群体发布所述生成的针对该用户群体的辅助词库。与现有技术相比,本专利技术具有以下优点:在社会生活中,任何一种社会群体,必然是由相互之间以某种共同基础相互联系的一群人组成的。那么,在他们的语言及文字交流中,必然会有一批在其圈子内部比之一般大众更为常用的特色词汇。那么在这些个体输入文字的历史过程中,就会较多地通过输入法使用这些词汇。本专利技术就是通过对这些用户群体所使用的“历史”词汇进行分析,发现适用于圈子成员的特色词汇,从而聚合成辅助词库——圈子词库。本专利技术可以将同一用户群体中的特殊词汇迅速共享至各个用户,提高用户的输入效率;尤其对于刚刚加入该用户群体(圈子)的用户而言,完全可以避免前期积累个性词汇的过程。附图说明图1是本专利技术一种辅助词库的生成方法实施例1的步骤流程图;图2是本专利技术一种获取一群体个人词库的解决方案的步骤流程图;图3是本专利技术另一种获取一群体个人词库的解决方案的步骤流程图;图4是本专利技术一种辅助词库的生成方法实施例2的步骤流程图;图5是本专利技术一种辅助词库的生成装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和-->具体实施方式对本专利技术作进一步详细本文档来自技高网...
【技术保护点】
一种辅助词库的生成方法,其特征在于,包括: 获取一用户群体的历史输入字词及其词频; 分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频; 生成针对该用户群体的辅助词库。
【技术特征摘要】
1、一种辅助词库的生成方法,其特征在于,包括:获取一用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的字词及其词频;生成针对该用户群体的辅助词库。2、如权利要求1所述的方法,其特征在于,所述历史输入字词及其词频的获取步骤包括:通过汇集一用户群体的个人词库而获得该用户群体的历史输入字词及其词频。3、如权利要求1或2所述的方法,其特征在于,所述历史输入字词及其词频的获取步骤包括:通过针对该用户群体的文字素材进行分词统计而获得;或者,通过该用户群体的用户手动添加相应的字词及其词频而获得。4、如权利要求2所述的方法,其特征在于,通过以下方式汇集一用户群体的个人词库:收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数;计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。5、如权利要求2所述的方法,其特征在于,通过以下方式汇集一用户群体的个人词库:收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该个人词库的特征参数;计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。6、如权利要求1或2所述的方法,其特征在于,所述预置条件包括:目标字词在该用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。7、如权利要求1所述的方法,其特征在于,还包括:发布所述生成的辅助词库。8、如权利要求7所述的方法,其特征在于,通过以下方式完成发布:用户请求下载相应用户群的辅助词库;或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;所述网络空间指向一用户群体。9、如权利要求4或5所述的方法,其特征在于,还包括:向通过个人词库聚类得到的用户群体发布所述生成的针对该用户群体的辅助词库。10、一种辅助词库的生成装置,其特征在于,包括:历史信息获取模块,用于获取一用户群体的历史输入字词及其词频;分析模块,用于分...
【专利技术属性】
技术研发人员:张军,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。