一种修正用户词库的方法和系统技术方案

技术编号:8593962 阅读:158 留言:0更新日期:2013-04-18 07:07
本发明专利技术提供了一种修正用户词库的方法和系统,所述方法包括:检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。本发明专利技术可以更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。本发明专利技术不需要对用户编辑行为做更多限定,大大拓展了词库修正的应用广度和深度,可以更好的去除一些现有技术无法发现的数据噪音。

【技术实现步骤摘要】

本专利技术涉及输入法
,特别是涉及一种修正用户词库的方法和系统
技术介绍
随着计算机技术以及互联网技术的普及与发展,输入法已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。现有的输入法一般通过提高系统词库中词条的更新程度以及词频信息的准确度,来提高用户输入字符时的效率。随输入法软件安装包安装到用户机器上的词库往往是满足一般用户通用输入需要的基本词库,我们称之为系统词库。而对于各个用户输入中那些个性化的不具有普遍性的词条,比如自己亲友同事的姓名、称谓,自己熟悉的地名机构名,以及使用范围非常有限的专业术语等,在系统词库中一般是不予收录的。这种需求基本上是靠用户词库解决在用户第一次(或若干次)输入自造词之后,输入法软件会把这些词条作为用户词记录下来。如果用户在今后再次输入,会将用户词作为一个候选展现出来,而且往往给予比系统词条更高的优先级进行展现。有时用户输入中会存在输入错误(例如由于敲击键盘速度过快等原因),而现有输入法软件对错误输入和正确输入不予区分,就不可避免的对错误输入也进行学词,从而在用户词数据引入噪音。比如用户希望输入shenme,意欲输出“什么”,结果不小心敲成“shenem”,上屏文字为“神恶魔”。而现有的输入法软件会认为“神恶魔”是用户的个性化输入,作为用户词保存下来。日积月累,这种因误输入而记录的用户词条越来越多,会造成如下问题1、记录大量本不需要记录的错误输入作为用户词,占据用户词空间,降低用户词查找匹配效率。2、如果用户想输入的其他词条恰好与这些垃圾词条的输入编码(拼音、五笔等)相同,这些词条会排在比较靠前的位置,这势必会给用户输入带来干扰,影响用户体验。腾讯公司申请号为200710302282的中国专利《一种更新用户词库的方法及装置》,提供了一个解决方案,可以在一定程度上解决前述的技术问题。其主要方案是用户先后进行了两次连续的编辑操作,并且用户在前一次编辑完成后进行了删除处理。如果这两次操作都在同一位置,并且两次输入的词条都具有同一编码(拼音全拼、拼音简拼或五笔)的话,则认定前一次输入为错误输入,使用后一次的输入来替换这次输入,同时更新用户词库信息。例如,用户输入“nh”,由于失误,将“年号”作为输入字符上屏了,而后发现错误,将“年号”删除,重新输入“nhao”,并在候选项中选择了“年号”的更正字符“你好”重新作为输入字符上屏。200710302282的中国专利首先判断更正字符“你好”和原字符“年号”是否位置相同,并进一步判断更正字符“你好”是否存在于原字符“年号”的并列候选项中,如果都满足,则认定前一输入字符“年号”为错误输入。但是该方案存在如下缺陷a、限定在同一位置的输入。这无疑限制了该方案的应用范围,用户光标变换的操作一直在频繁的发生。而用户自发的对输入的更正,并不局限于在同一位置的修改,编辑位置完全可能发生变动,例如,用户在写完一段话后检查时,才发现错误并返回加以更正是很正常的。b、只考虑前后两次连续输入,并必须存在删除操作。首先,用户对输入的更正,可能并不是连续的,而是间断的;并且,对于頂(即时通信)、搜索引擎等应用场景中,原始输入是无法进行编辑的,即用户无法删除原输入字符,不存在删除操作。总之,本申请希望使输入法软件能够修正用户词库,能够更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音,并避免上述现有方案的限制。
技术实现思路
本专利技术所要解决的技术问题是提供一种修正用户词库的方法和装置,能够尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。为了解决上述问题,本专利技术公开了一种修正用户词库的方法,包括检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。优选的,所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。优选的,,所述一个输入会话为在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。优选的,通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。优选的,当满足条件时,还包括筛选步骤,采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。优选的,所述筛选步骤具体包括基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于纠错内容与当前输入内容输入频率的比值;纠错内容与当前输入内容的编辑距离;纠错内容与当前输入内容间相隔的其他输入句子数;纠错内容被当前用户输入的频率;当前输入内容被当前用户输入的频率;纠错内容被所有用户输入的频率;当前输入内容被所有用户输入的频率。优选的,所述对用户词库的修正包括基于纠错内容,在用户词库中确定待修正文字;对待修正文字的词频减一;或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。优选的,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。优选的,所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列;所述输入序列为用户输入上屏的一次完整内容;或者,所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词;或者,所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字ο优选的,基于当前输入内容和纠错内容,对用户词库中的数据进行修正后,还包括当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分,将替换得到的输入序列作为用户词记录至用户词库。依据本专利技术的另一实施例,还公开了一种用户词库修正系统,包括输入错误检测模块,用于检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;用户词管理模块,用于当满足条件时,基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。优选的,所述用户已完成输入内容为用户在一个输入会话内的已完成输入内容。优选的,所述一个输入会话为在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。优选的,所述输入错误检测模块通过以下方式判断输入编码是否相近判断两个输入编码之间的编辑距离是否在一定范围内。优选的,所述的系统还包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块;所述用户词管理模块采用通`过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。优选的,所述候选筛选模块具体用于基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包本文档来自技高网
...

【技术保护点】
一种修正用户词库的方法,其特征在于,包括:检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

【技术特征摘要】
1.一种修正用户词库的方法,其特征在于,包括 检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同; 如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。2.如权利要求1所述的方法,其特征在于,所述用户已完成输入内容为 用户在一个输入会话内的已完成输入内容。3.如权利要求2所述的方法,其特征在于,所述一个输入会话为 在当前客户端上,由当前输入法账户进行的输入行为; 和/或,输入法软件绑定到一个应用程序内的输入行为。4.如权利要求1所述的方法,其特征在于,通过以下方式判断输入编码是否相近 判断两个输入编码之间的编辑距离是否在一定范围内。5.如权利要求1所述的方法,其特征在于,当满足条件时,还包括筛选步骤,采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。6.如权利要求5所述的方法,其特征在于,所述筛选步骤具体包括 基于以下特征中的一个或者多个进行评判,当评判结果大于一预设阈值时,则筛选通过;所述特征包括但不限于 纠错内容与当前输入内容输入频率的比值; 纠错内容与当前输入内容的编辑距离; 纠错内容与当前输入内容间相隔的其他输入句子数; 纠错内容被当前用户输入的频率; 当前输入内容被当前用户输入的频率; 纠错内容被所有用户输入的频率; 当前输入内容被所有用户输入的频率。7.如权利要求1至6任意一项所述的方法,其特征在于,所述对用户词库的修正包括 基于纠错内容,在用户词库中确定待修正文字; 对待修正文字的词频减一; 或者,采用当前输入内容的文字替换待修正文字,将待修正文字的词频加到当前输入内容的文字的词频上。8.如权利要求1至6任意一项所述的方法,其特征在于,所述用于与当前输入内容进行比较的用户已完成输入内容,最远距离当前输入内容N句或者N个字词。9.如权利要求1至6任意一项所述的方法,其特征在于,所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列; 所述输入序列为用户输入上屏的一次完整内容;或者,所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间,对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词;或者,所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字ο10.如权利要求9所述的方法,其特征在于,基于当前输入内容和纠错内容,对用户词库中的数据进行修正后,还包括 当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时,采用当前输入内容的文字替换该输入序列中所述纠...

【专利技术属性】
技术研发人员:张扬王坚
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1