一种修正用户词库的方法和系统技术方案

技术编号：8593962 阅读：166 留言：0更新日期：2013-04-18 07:07

本发明专利技术提供了一种修正用户词库的方法和系统，所述方法包括：检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。本发明专利技术可以更智能的记录用户输入信息，尽可能的避免对错误输入进行学词，减少在用户词库中的数据噪音。本发明专利技术不需要对用户编辑行为做更多限定，大大拓展了词库修正的应用广度和深度，可以更好的去除一些现有技术无法发现的数据噪音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及输入法
，特别是涉及一种修正用户词库的方法和系统。
技术介绍
随着计算机技术以及互联网技术的普及与发展，输入法已经成为用户与计算机交互的重要手段，不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。现有的输入法一般通过提高系统词库中词条的更新程度以及词频信息的准确度，来提高用户输入字符时的效率。随输入法软件安装包安装到用户机器上的词库往往是满足一般用户通用输入需要的基本词库，我们称之为系统词库。而对于各个用户输入中那些个性化的不具有普遍性的词条，比如自己亲友同事的姓名、称谓，自己熟悉的地名机构名，以及使用范围非常有限的专业术语等，在系统词库中一般是不予收录的。这种需求基本上是靠用户词库解决在用户第一次(或若干次)输入自造词之后，输入法软件会把这些词条作为用户词记录下来。如果用户在今后再次输入，会将用户词作为一个候选展现出来，而且往往给予比系统词条更高的优先级进行展现。有时用户输入中会存在输入错误(例如由于敲击键盘速度过快等原因)，而现有输入法软件对错误输入和正确输入不予区分，就不可避免的对错误输入也进行学词，从而在用户词数据引入噪音。比如用户希望输入shenme，意欲输出“什么”，结果不小心敲成“shenem”，上屏文字为“神恶魔”。而现有的输入法软件会认为“神恶魔”是用户的个性化输入，作为用户词保存下来。日积月累，这种因误输入而记录的用户词条越来越多，会造成如下问题1、记录大量本不需要记录的错误输入作为用户词，占据用户词空间，降低用户词查找匹配效率。2、如果用户想输入的其他词条恰好与这些垃圾词条的输入编码(拼音、...

【技术保护点】
一种修正用户词库的方法，其特征在于，包括：检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

【技术特征摘要】
1.一种修正用户词库的方法,其特征在于,包括检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。2.如权利要求1所述的方法，其特征在于，所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。3.如权利要求2所述的方法，其特征在于，所述一个输入会话为在当前客户端上，由当前输入法账户进行的输入行为；和/或，输入法软件绑定到一个应用程序内的输入行为。4.如权利要求1所述的方法，其特征在于，通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。5.如权利要求1所述的方法，其特征在于，当满足条件时，还包括筛选步骤，采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。6.如权利要求5所述的方法，其特征在于，所述筛选步骤具体包括基于以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于纠错内容与当前输入内容输入频率的比值；纠错内容与当前输入内容的编辑距离；纠错内容与当前输入内容间相隔的其他输入句子数；纠错内容被当前用户输入的频率；当前输入内容被当前用户输入的频率；纠错内容被所有用户输入的频率；当前输入内容被所有用户输入的频率。7.如权利要求1至6任意一项所述的方法，其特征在于，所述对用户词库的修正包括基于纠错内容，在用户词库中确定待修正文字；对待修正文字的词频减一；或者，采用当前输入内容的文字替换待修正文字，将待修正文字的词频加到当前输入内容的文字的词频上。8.如权利要求1至6任意一项所述的方法，其特征在于，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。9.如权利要求1至6任意一项所述的方法，其特征在于，所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列；所述输入序列为用户输入上屏的一次完整内容；或者，所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词；或者，所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字ο10.如权利要求9所述的方法，其特征在于，基于当前输入内容和纠错内容，对用户词库中的数据进行修正后，还包括当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时，采用当前输入内容的文字替换该输入序列中所述纠...

【专利技术属性】
技术研发人员：张扬，王坚，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人