一种对输入法所产生的候选项进行排序的方法及装置制造方法及图纸

技术编号:17822229 阅读:25 留言:0更新日期:2018-05-03 09:44
本发明专利技术公开了一种对输入法所产生的候选项进行排序的方法及装置。其中该方法包括:接收当前用户在当前时段的输入信息;利用已建立的按时间先后顺序划分的多个先前时段的时间语言模型获取输入信息的候选项集合中每个候选项在先前时间语言模型下的第一权值;根据每个候选项的第一权值计算每个候选项的第一累积权值,其中第一权值对第一累积权值的贡献度随时间先后顺序逐步消减;基于每个候选项的第一累积权值,对输入信息的候选项进行排序;展示排序后的候选项。通过上述方式,本发明专利技术能够针对用户在不同时段输入同样的输入信息时,向用户推送与时间相关的候选项排序,以满足不同时段用户的需求,提升用户体验。

Method and device for sorting candidate items generated by input method

The invention discloses a method and a device for sorting the candidate items generated by the input method. The method includes: receiving the input information of the current user at the current time period; obtaining the first weight of each candidate in the previous time language model in the candidate item set of the input information by using the established time language model of multiple previous periods that have been established in time successively, and the first weight of each candidate according to each candidate. The value calculates the first cumulative weight of each candidate, in which the contribution of the first weight to the first cumulative weight is gradually reduced with the time sequence; based on the first cumulative weight of each candidate, the candidate items of the input information are sorted, and the candidate items after the sorting are displayed. According to the above method, the invention can push the user to order the time related candidate items to the user when the same input information is input at different time periods, so as to meet the needs of the users at different time periods and improve the user experience.

【技术实现步骤摘要】
一种对输入法所产生的候选项进行排序的方法及装置
本专利技术涉及输入法领域,特别是涉及一种对输入法所产生的候选项进行排序的方法及装置。
技术介绍
输入法是指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。利用输入法进行输入时,通常通过向设备发送各种字符以获取字符对应的候选项,并选择相应的候选项来完成输入。而对于输入的相同读音的字符时,获取得到的字符对应的候选项的集合中各候选项的排序通常都是一样的。比如对于拼音“daxue”,该拼音对应的候选项包括“大学”、“大雪”、“大血”、“打血”等多个,而每次针对用户对拼音“daxue”的输入,向用户推送的候选项排序基本是一样的,或者是只按照候选项在大规模语料中出现的频次来排序。本申请的专利技术人在长期的研究中发现,每个用户在不同的时段输入的同一个读音的字符时,可能所需要的候选项不一样。针对同一个输入推送的候选项排序都一样或者只简单的按照频次来进行排序,不足以满足不同时段用户的需求,影响用户体验。
技术实现思路
本专利技术主要解决的技术问题是提供一种对候选项进行排序的方法及装置,能够针对用户输入同样的字符时,向用户推送的候选项排序能够满足不同时段用户的需求,提升用户体验。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种对输入法所产生的候选项进行排序的方法,包括:接收当前用户在当前时段的输入信息;利用已建立的按时间先后顺序划分的多个先前时段的时间语言模型获取所述输入信息的候选项集合中每个候选项在所述先前时间语言模型下的第一权值;根据每个候选项的所述第一权值计算每个候选项的第一累积权值,其中所述第一权值对所述第一累积权值的贡献度随时间先后顺序逐步消减;基于所述每个候选项的第一累积权值,对所述输入信息的候选项进行排序;展示排序后的候选项。其中,所述接收当前用户在当前时段的输入信息的步骤之前,还包括:使用文本分类技术对网页语料按时间先后顺序进行分类整理,获得多个不同先前时段的网页语料;基于每一先前时段的网页语料分别训练出一所述时间语言模型。其中,所述根据每个候选项的所述第一权值计算每个候选项的第一累积权值的步骤包括:通过如下公式计算所述第一累积权值:其中,C(w,t)为候选项w在当前时段t的第一累积权值,ti为第i个先前时段,numi·w为候选项w在第i个先前时段的时间语言模型下的出现频次,作为所述第一权值,n为所述先前时段的数量,λ为消减系数。其中,所述基于每个候选项的第一累积权值,对所述输入信息的候选项进行排序的步骤包括:按照所述第一累积权值的大小对所述候选项进行排序。其中,所述基于每个候选项的第一累积权值,对所述输入信息的候选项进行排序的步骤包括:根据包括当前用户在内的多个用户在所述多个先前时段的输入历史信息计算每个用户针对每个候选项的第二权值;根据所述第二权值计算每个用户针对每个候选项的第二累积权值,其中所述第二权值对所述第二累积权值的贡献度随时间先后顺序逐步消减;基于所述第一累积权值和所述第二累积权值计算第三累积权值,并根据第三累积权值的大小对所述输入信息的候选项进行排序。其中,所述根据包括当前用户在内的多个用户在所述多个先前时段的输入历史信息计算每个用户针对每个候选项的第二权值的步骤包括:对每个用户的输入历史信息按时间先后顺序进行分类整理,获得多个不同先前时段的输入历史信息;统计每个用户在每个先前时段输入所述输入信息时对每个候选项的选择次数,作为第二权值。其中,根据所述第二权值计算每个用户针对每个候选项的第二累积权值的步骤包括:通过如下公式计算所述第二累积权值:其中,t表示当前时段,tj为第j个先前时段,n为所述先前时段的数量,Em(w,t)为第m个用户针对候选项w的第二累积权值,sj为第m个用户在第j个先前时段输入所述输入信息时对候选项w的选择次数,λ为消减常数。其中,所述基于第一累积权值和所述第二累积权值计算第三累积权值的步骤包括:通过如下公式计算所述第三累积权值:其中,weightk(w,ul)表示第k次迭代时当前用户ul输入所述输入信息时候选项w的第三累积权值,El(w,t)为当前用户ul在当前时段t针对候选项w的第二累积权值,表示当前用户ul以外的其他用户在当前时段t针对候选项w的第二累积权值的求和,cost0(w,ul)是候选项w在没有用户选择时的的原始权值,即cost0(w,ul)=C(w,t),C(w,t)为所述第一累积权值,μ1和μ2为调节系数。其中,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息中的任意一种或两种以上。其中,所述基于第一累积权值和所述第二累积权值,计算第三累积权值,并根据第三累积权值的大小对所述输入信息的候选项进行排序的步骤之后,还包括:根据所述候选项集合中每个候选项的第三累积权值的大小,判断候选项集合中是否有高频热词或新词。其中,判断候选项集合中是否有高频热词或新词的步骤包括:若候选项集合中候选项的当前迭代所产生的所述第三累积权值与前一次迭代所产生的所述第三累积权值相比的变化量大于预设的新词的阈值,则确定所述候选项为新词。其中,所述判断候选项集合中是否有高频热词或新词的步骤包括:若候选项集合中候选项的连续预定次迭代产生的所述第三累积权值均大于预设的高频热词的阈值,则确定所述候选项为高频热词。其中,所述判断候选项集合中是否有高频热词或新词的步骤之后,还包括:向当前用户推送所述高频热词或新词对应的链接,和/或所述高频热词或新词的所述第二累积权值相对于时间的变化曲线。其中,所述展示排序后的候选项的步骤包括:展示进行排序后的候选项以及候选项的新词或热词的标识。其中,所述展示进行排序后的候选项的步骤之后,还包括:根据用户的切换指令,按照候选项的所述第二累积权值对所述候选项进行排序;展示按所述第二累积权值进行排序的候选项。其中,所述时间语言模型是N-Gram语言模型或N-Pos语言模型。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种对输入法所产生的候选项进行排序的装置,包括接收模块、第一获取模块、第二获取模块、第一排序模块以及展示模块,其中:所述接收模块用于接收当前用户在当前时段的输入信息,并将所述当前用户在当前时段的输入信息发送给所述第一获取模块;所述第一获取模块用于利用已建立的按时间先后顺序划分的多个先前时段的时间语言模型获取所述输入信息的候选项集合中每个候选项在所述先前时间语言模型下的第一权值,并将所述第一权值发送给所述第二获取模块;所述第二获取模块用于根据每个候选项的所述第一权值计算每个候选项的第一累积权值,其中所述第一权值对所述第一累积权值的贡献度随时间先后顺序逐步消减,并将所述第一累积权值发送给所述第一排序模块;所述第一排序模块用于基于所述每个候选项的第一累积权值,对所述输入信息的候选项进行排序,并将进行所述排序后的候选项发送给所述展示模块;所述展示模块用于展示进行所述排序后的候选项。其中,所述装置还包括网页语料分类模块、训练模块,其中:所述网页语料分类模块用于使用文本分类技术对网页语料按时间先后顺序进行分类整理,获得多个不同先前时段的网页语料,并将所述不同先前时段的网页语料发送给所述训练模块;所述训练模块用于基于每一先前时段的网本文档来自技高网...
一种对输入法所产生的候选项进行排序的方法及装置

【技术保护点】
一种对输入法所产生的候选项进行排序的方法,其特征在于,包括:接收当前用户在当前时段的输入信息;利用已建立的按时间先后顺序划分的多个先前时段的时间语言模型获取所述输入信息的候选项集合中每个候选项在所述多个先前时段的时间语言模型下的第一权值;分别确定每个候选项的第一累积权值,具体包括:对候选项在多个先前时段的时间语言模型下的第一权值进行加权处理,得到该候选项的第一累积权值;其中各先前时段的时间语言模型下的第一权值对应的加权权重与当前时段和先前时段之间的时间差呈负相关;基于所述每个候选项的第一累积权值,对所述输入信息的候选项进行排序;展示排序后的候选项。

【技术特征摘要】
1.一种对输入法所产生的候选项进行排序的方法,其特征在于,包括:接收当前用户在当前时段的输入信息;利用已建立的按时间先后顺序划分的多个先前时段的时间语言模型获取所述输入信息的候选项集合中每个候选项在所述多个先前时段的时间语言模型下的第一权值;分别确定每个候选项的第一累积权值,具体包括:对候选项在多个先前时段的时间语言模型下的第一权值进行加权处理,得到该候选项的第一累积权值;其中各先前时段的时间语言模型下的第一权值对应的加权权重与当前时段和先前时段之间的时间差呈负相关;基于所述每个候选项的第一累积权值,对所述输入信息的候选项进行排序;展示排序后的候选项。2.根据权利要求1所述的方法,其特征在于,所述接收当前用户在当前时段的输入信息的步骤之前,还包括:使用文本分类技术对网页语料按时间先后顺序进行分类整理,获得多个不同先前时段的网页语料;基于每一先前时段的网页语料分别训练出一所述时间语言模型。3.根据权利要求1所述的方法,其特征在于,所述对候选项在多个先前时段的时间语言模型下的第一权值进行加权处理,得到该候选项的第一累积权值包括:通过如下公式计算所述第一累积权值:其中,C(w,t)为候选项w在当前时段t的第一累积权值,ti为第i个先前时段,numi·w为候选项w在第i个先前时段的时间语言模型下的出现频次,作为所述第一权值,n为所述先前时段的数量,λ为消减系数。4.根据权利要求1所述的方法,其特征在于,所述基于每个候选项的第一累积权值,对所述输入信息的候选项进行排序的步骤包括:按照所述第一累积权值的大小对所述候选项进行排序。5.根据权利要求1所述的方法,其特征在于,所述基于每个候选项的第一累积权值,对所述输入信息的候选项进行排序的步骤包括:根据包括当前用户在内的多个用户在所述多个先前时段的输入历史信息计算每个用户针对每个候选项的第二权值;根据所述第二权值计算每个用户针对每个候选项的第二累积权值,其中所述第二权值对所述第二累积权值的贡献度随时间先后顺序逐步消减;基于所述第一累积权值和所述第二累积权值计算第三累积权值,并根据第三累积权值的大小对所述输入信息的候选项进行排序。6.根据权利要求5所述的方法,其特征在于,所述根据包括当前用户在内的多个用户在所述多个先前时段的输入历史信息计算每个用户针对每个候选项的第二权值的步骤包括:对每个用户的输入历史信息按时间先后顺序进行分类整理,获得多个不同先前时段的输入历史信息;统计每个用户在每个先前时段输入所述输入信息时对每个候选项的选择次数,作为第二权值。7.根据权利要求6所述的方法,其特征在于,根据所述第二权值计算每个用户针对每个候选项的第二累积权值的步骤包括:通过如下公式计算所述第二累积权值:其中,t表示当前时段,tj为第j个先前时段,n为所述先前时段的数量,Em(w,t)为第m个用户针对候选项w的第二累积权值,sj为第m个用户在第j个先前时段输入所述输入信息时对候选项w的选择次数,λ为消减常数。8.根据权利要求7所述的方法,其特征在于,所述基于第一累积权值和所述第二累积权值计算第三累积权值的步骤包括:通过如下公式计算所述第三累积权值:其中,weightk(w,ul)表示第k次迭代时当前用户ul输入所述输入信息时候选项w的第三累积权值,El(w,t)为当前用户ul在当前时段t针对候选项w的第二累积权值,表示当前用户ul以外的其他用户在当前时段t针对候选项w的第二累积权值的求和,cost0(w,ul)是候选项w在没有用户选择时的的原始权值,即cost0(w,ul)=C(w,t),C(w,t)为所述第一累积权值,μ1和μ2为调节系数。9.根据权利要求5所述的方法,其特征在于,所述输入历史信息包括在输入法应用中的输入历史信息、在即时通信工具中的输入历史信息以及在社交网站中的输入历史信息中的任意一种或两种以上。10.根据权利要求8所述的方法,其特征在于,所述基于第一累积权值和所述第二累积权值,计算第三累积权值,并根据第三累积权值的大小对所述输入信息的候选项进行排序的步骤之后,还包括:根据所述候选项集合中每个候选项的第三累积权值的大小,判断候选项集合中是否有高频热词或新词。11.根据权利要求10所述的方法,其特征在于,所述判断候选项集合中是否有高频热词或新词的步骤包括:若候选项集合中候选项的当前迭代所产生的所述第三累积权值与前一次迭代所产生的所述第三累积权值相比的变化量大于预设的新词的阈值,则确定所述候选项为新词。12.根据权利要求10所述的方法,其特征在于,所述判断候选项集合中是否有高频热词或新词的步骤包括:若候选项集合中候选项的连续预定次迭代产生的所述第三累积权值均大于预设的高频热词的阈值,则确定所述候选项为高频热词。13.根据权利要求10所述的方法,其特征在于,所述判断候选项集合中是否有高频热词或新词的步骤之后,还包括:若候选项集合中有高频热词或新词时,向当前用户推送所述高频热词或新词对应的链接,和/或所述高频热词或新词的所述第二累积权值相对于时间的变化曲线。14.根据权利要求10所述的方法,其特征在于,所述展示排序后的候选项的步骤包括:展示进行排序后的候选项以及候选项的新词或热词的标识。15.根据权利要求8所述的方法,其特征在于,所述展示进行排序后的候选项的步骤之后,还包括:根据用户的切换指令,按照候选项的所述第二累积权值对所述候选项进行重新排序;展示按所述第二累积权值进行重新排序的候选项。16.根据权利要求1或2所述的方法,其特征在于,所述时间语言模型是N-Gram语言模型或N-Pos语言模型。17.一种对输入法所产生的候选项进行排序的装置,其特征在于,包括接收模块、第一获取模块...

【专利技术属性】
技术研发人员:吴先超
申请(专利权)人:百度国际科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1