对用户信息进行个性化处理的方法及系统技术方案

技术编号：10706162 阅读：150 留言：0更新日期：2014-12-03 13:13

本发明专利技术提出一种对用户信息进行个性化处理的方法及系统。其中，方法包括以下步骤：获取复合词，复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对复合词进行分词并确定每个分词的品词，第一语料是分词模型中的训练语料，已有的第一语料是根据用户的历史信息确定的；根据每个分词的品词以及预先建立的映射表，确定复合词的品词，映射表用于表明品词串与整体品词之间的对应关系；将复合词与复合词的品词对应保存在分词模型中，得到用户的个性化分词模型。根据本发明专利技术实施例的方法，通过每个分词的品词和映射表确定复合词的品词，以得到用户的个性化分词模型，从而可以提高分词效率，满足不同用户的各种使用需求。

全部详细技术资料下载

【技术实现步骤摘要】
对用户信息进行个性化处理的方法及系统
本专利技术涉及输入法
，特别涉及一种对用户信息进行个性化处理的方法及系统。
技术介绍
用户的打字输入习惯因人而异，不同的用户有不同的切词习惯，而在用户输入中文日文等语言的时候，一般通过空格键等变换键来达到用户的输入目的。对于日文而言，有些用户喜欢连续地输入一长串假名，包括复合词以及前后的助词等。而有些用户的输入行为则比较保守，即首先输入一个复合词对应的假名，然后按下变换键，之后再输入后接助词等。现有的输入法是着重对一般用户经常使用的组合词或复合词为对象而制定的，没有考虑到每个用户的个性化需求和输入习惯，无法满足不同用户的需求，由此会影响用户的体验。
技术实现思路
本专利技术的目的旨在至少解决上述的技术缺陷之一。为此，本专利技术的一个目的在于提出一种对用户信息进行个性化处理的方法。本专利技术的另一目的在于提出一种对用户信息进行个性化处理的系统。为达到上述目的，本专利技术一方面的实施例提出一种对用户信息进行个性化处理的方法，包括以下步骤：获取复合词，所述复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。根据本专利技术实施例的方法，通过每个分词的品词和映射表确定复合词的品词，以得到用户的...
对用户信息进行个性化处理的方法及系统

【技术保护点】
一种对用户信息进行个性化处理的方法，其特征在于，包括以下步骤：获取复合词，所述复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。

【技术特征摘要】
1.一种对用户信息进行个性化处理的方法，其特征在于，包括以下步骤：获取复合词，所述复合词是用户的分词模型中没有的复合词；根据已有的第一语料，对所述复合词进行分词并确定每个分词的品词，所述第一语料是所述分词模型中的训练语料，所述已有的第一语料是根据所述用户的历史信息确定的；根据所述每个分词的品词以及预先建立的映射表，确定所述复合词的品词，所述映射表用于表明品词串与整体品词之间的对应关系；将所述复合词与所述复合词的品词对应保存在所述分词模型中，得到所述用户的个性化分词模型。2.根据权利要求1所述的方法，其特征在于，所述得到所述用户的个性化分词模型之后，所述方法还包括：获取第二语料，所述第二语料是输入法模型中的训练语料；根据所述个性化分词模型，对所述第二语料重新进行分词，得到所述用户的个性化输入法模型。3.根据权利要求2所述的方法，其特征在于，所述得到所述用户的个性化输入法模型之后，所述方法还包括：接收用户输入的字符；根据所述输入的字符以及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，所述单词包括至少一个字。4.根据权利要求1所述的方法，其特征在于，还包括：收集复合词，并对收集的复合词标注整体品词；获取收集的复合词的分词以及分词品词，得到由分词品词组成的品词串；建立所述品词串与所述整体品词的对应关系，以得到所述映射表。5.根据权利要求2所述的方法，其特征在于，所述获取第二语料，包括：从用户日志文件中获取使用频率大于预设阈值的复合词作为所述第二语料。6.根据权利要求3所述的方法，其特征在于，所述根据所述个性化分词模型，对所述第二语料重新进行分词，包括：如果所述第二语料包括第一部分，所述第一部分由预设粒度的至少两个单词组成，且所述第一部分在所述个性化分词模型中，则将所述第一部分作为一个复合词。7.根据权利要求6所述的方法，其特征在于，所述根据所述输入的字符及所述个性化输入法模型，向所述用户展示与所述字符对应的单词，包括：如果根据预设的概率算法，在输入为所述字符时所述第一部分的输出概率最大，则将所述第一部分作为一个复合词整体展示给所述用户...

【专利技术属性】
技术研发人员：吴先超，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人