对用户信息进行个性化处理的方法及系统技术方案

技术编号:10706162 阅读:132 留言:0更新日期:2014-12-03 13:13
本发明专利技术提出一种对用户信息进行个性化处理的方法及系统。其中,方法包括以下步骤:获取复合词,复合词是用户的分词模型中没有的复合词;根据已有的第一语料,对复合词进行分词并确定每个分词的品词,第一语料是分词模型中的训练语料,已有的第一语料是根据用户的历史信息确定的;根据每个分词的品词以及预先建立的映射表,确定复合词的品词,映射表用于表明品词串与整体品词之间的对应关系;将复合词与复合词的品词对应保存在分词模型中,得到用户的个性化分词模型。根据本发明专利技术实施例的方法,通过每个分词的品词和映射表确定复合词的品词,以得到用户的个性化分词模型,从而可以提高分词效率,满足不同用户的各种使用需求。

【技术实现步骤摘要】
对用户信息进行个性化处理的方法及系统
本专利技术涉及输入法
,特别涉及一种对用户信息进行个性化处理的方法及系统。
技术介绍
用户的打字输入习惯因人而异,不同的用户有不同的切词习惯,而在用户输入中文日文等语言的时候,一般通过空格键等变换键来达到用户的输入目的。对于日文而言,有些用户喜欢连续地输入一长串假名,包括复合词以及前后的助词等。而有些用户的输入行为则比较保守,即首先输入一个复合词对应的假名,然后按下变换键,之后再输入后接助词等。现有的输入法是着重对一般用户经常使用的组合词或复合词为对象而制定的,没有考虑到每个用户的个性化需求和输入习惯,无法满足不同用户的需求,由此会影响用户的体验。
技术实现思路
本专利技术的目的旨在至少解决上述的技术缺陷之一。为此,本专利技术的一个目的在于提出一种对用户信息进行个性化处理的方法。本专利技术的另一目的在于提出一种对用户信息进行个性化处理的系统。为达到上述目的,本专利技术一方面的实施例提出一种对用户信息进行个性化处理的方法,包括以下步骤:获取复合词,所述复合词是用户的分词模型中没有的复合词;根据已有的第一语料,对所述复合词进行分词并确定每个分词的品词,所述第一语料是所述分词模型中的训练语料,所述已有的第一语料是根据所述用户的历史信息确定的;根据所述每个分词的品词以及预先建立的映射表,确定所述复合词的品词,所述映射表用于表明品词串与整体品词之间的对应关系;将所述复合词与所述复合词的品词对应保存在所述分词模型中,得到所述用户的个性化分词模型。根据本专利技术实施例的方法,通过每个分词的品词和映射表确定复合词的品词,以得到用户的个性化分词模型,从而可以提高分词效率,满足不同用户的各种使用需求。在本专利技术的一个实施例中,所述得到所述用户的个性化分词模型之后,所述方法还包括:获取第二语料,所述第二语料是输入法模型中的训练语料;根据所述个性化分词模型,对所述第二语料重新进行分词,得到所述用户的个性化输入法模型。在本专利技术的一个实施例中,所述得到所述用户的个性化输入法模型之后,所述方法还包括:接收用户输入的字符;根据所述输入的字符以及所述个性化输入法模型,向所述用户展示与所述字符对应的单词,所述单词包括至少一个字。在本专利技术的一个实施例中,还包括:收集复合词,并对收集的复合词标注整体品词;获取收集的复合词的分词以及分词品词,得到由分词品词组成的品词串;建立所述品词串与所述整体品词的对应关系,以得到所述映射表。在本专利技术的一个实施例中,所述获取第二语料,包括:从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。在本专利技术的一个实施例中,所述根据所述个性化分词模型,对所述第二语料重新进行分词,包括:如果所述第二语料包括第一部分,所述第一部分由预设粒度的至少两个单词组成,且所述第一部分在所述个性化分词模型中,则将所述第一部分作为一个复合词。在本专利技术的一个实施例中,所述根据所述输入的字符及所述个性化输入法模型,向所述用户展示与所述字符对应的单词,包括:如果根据预设的概率算法,在输入为所述字符时所述第一部分的输出概率最大,则将所述第一部分作为一个复合词整体展示给所述用户,其中,所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。本专利技术另一方面的实施例提出了一种对用户信息进行个性化处理的系统,包括:第一获取模块,用于获取用户的分词模型中没有的复合词;品词确定模块,用于根据已有的第一语料,对所述复合词进行分词并确定每个分词的品词,所述第一语料是所述分词模型中的训练语料,所述已有的第一语料是根据所述用户的历史信息确定的;映射表建立模块,用于根据所述每个分词的品词以及预先建立的映射表,确定所述复合词的品词,所述映射表用于表明品词串与整体品词之间的对应关系;分词模型建立模块,用于将所述复合词与所述复合词的品词对应保存在所述分词模型中,得到所述用户的个性化分词模型。根据本专利技术实施例的系统,通过每个分词的品词和映射表确定复合词的品词,以得到用户的个性化分词模型,从而可以提高分词效率,满足不同用户的各种使用需求。在本专利技术的一个实施例中,还包括:第二获取模块,用于获取第二语料,所述第二语料是输入法模型中的训练语料;输入法模型生成模块,用于根据所述个性化分词模型,对所述第二语料重新进行分词,得到所述用户的个性化输入法模型。在本专利技术的一个实施例中,所述输入法模型生成模块还用于,根据用户输入的字符以及所述个性化输入法模型,向所述用户展示与所述字符对应的单词,所述单词包括至少一个字。在本专利技术的一个实施例中,所述映射表建立模块用于对收集的复合词标注整体品词,并获取收集的复合词的分词以及分词品词,得到由分词品词组成的品词串,以建立所述品词串与所述整体品词的对应关系,以得到所述映射表。在本专利技术的一个实施例中,所述第二获取模块从用户日志文件中获取使用频率大于预设阈值的复合语作为所述第二语料。在本专利技术的一个实施例中,在所述第二语料包括第一部分时,所述第一部分由预设粒度的至少两个单词组成,所述输入法模型生成模块在所述个性化分词模型中,将所述第一部分作为一个复合词。在本专利技术的一个实施例中,在输入为所述字符时所述第一部分的输出概率最大时,所述输入法模型生成模块将所述第一部分作为一个复合词整体展示给所述用户,其中,所述第一部分及所述第一部分对应的品词作为整体参与所述概率算法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的对用户信息进行个性化处理的方法的流程图;图2为根据本专利技术一个实施例的复合词的组成元素与该复合语的映射关系示意图;图3为根据本专利技术另一个实施例的复合词的组成元素与该复合语的映射关系示意图;图4为根据本专利技术实施例的品词之间的转移概率的计算流程示意图;图5为根据本专利技术一个实施例的对新复合语添加到分词语料中的过程示意图;图6为对不同输入习惯的用户输入假名进行预测的示意图;图7为根据本专利技术一个实施例的移动终端中日文输入法示意图;图8为根据本专利技术一个实施例的对用户信息进行个性化处理的系统的结构框图;以及图9为根据本专利技术另一个实施例的对用户信息进行个性化处理的系统的结构框图。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特本文档来自技高网...
对用户信息进行个性化处理的方法及系统

【技术保护点】
一种对用户信息进行个性化处理的方法,其特征在于,包括以下步骤:获取复合词,所述复合词是用户的分词模型中没有的复合词;根据已有的第一语料,对所述复合词进行分词并确定每个分词的品词,所述第一语料是所述分词模型中的训练语料,所述已有的第一语料是根据所述用户的历史信息确定的;根据所述每个分词的品词以及预先建立的映射表,确定所述复合词的品词,所述映射表用于表明品词串与整体品词之间的对应关系;将所述复合词与所述复合词的品词对应保存在所述分词模型中,得到所述用户的个性化分词模型。

【技术特征摘要】
1.一种对用户信息进行个性化处理的方法,其特征在于,包括以下步骤:获取复合词,所述复合词是用户的分词模型中没有的复合词;根据已有的第一语料,对所述复合词进行分词并确定每个分词的品词,所述第一语料是所述分词模型中的训练语料,所述已有的第一语料是根据所述用户的历史信息确定的;根据所述每个分词的品词以及预先建立的映射表,确定所述复合词的品词,所述映射表用于表明品词串与整体品词之间的对应关系;将所述复合词与所述复合词的品词对应保存在所述分词模型中,得到所述用户的个性化分词模型。2.根据权利要求1所述的方法,其特征在于,所述得到所述用户的个性化分词模型之后,所述方法还包括:获取第二语料,所述第二语料是输入法模型中的训练语料;根据所述个性化分词模型,对所述第二语料重新进行分词,得到所述用户的个性化输入法模型。3.根据权利要求2所述的方法,其特征在于,所述得到所述用户的个性化输入法模型之后,所述方法还包括:接收用户输入的字符;根据所述输入的字符以及所述个性化输入法模型,向所述用户展示与所述字符对应的单词,所述单词包括至少一个字。4.根据权利要求1所述的方法,其特征在于,还包括:收集复合词,并对收集的复合词标注整体品词;获取收集的复合词的分词以及分词品词,得到由分词品词组成的品词串;建立所述品词串与所述整体品词的对应关系,以得到所述映射表。5.根据权利要求2所述的方法,其特征在于,所述获取第二语料,包括:从用户日志文件中获取使用频率大于预设阈值的复合词作为所述第二语料。6.根据权利要求3所述的方法,其特征在于,所述根据所述个性化分词模型,对所述第二语料重新进行分词,包括:如果所述第二语料包括第一部分,所述第一部分由预设粒度的至少两个单词组成,且所述第一部分在所述个性化分词模型中,则将所述第一部分作为一个复合词。7.根据权利要求6所述的方法,其特征在于,所述根据所述输入的字符及所述个性化输入法模型,向所述用户展示与所述字符对应的单词,包括:如果根据预设的概率算法,在输入为所述字符时所述第一部分的输出概率最大,则将所述第一部分作为一个复合词整体展示给所述用户...

【专利技术属性】
技术研发人员:吴先超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1