用于输入法编辑器的个人语言模型制造技术

技术编号:11834753 阅读:136 留言:0更新日期:2015-08-05 22:57
一些示例包括基于在文件系统中的一个或多个位置处存储的一个或多个文件的语言特性生成个人语言模型。此外,一些实现包括诸如响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于个人语言模型来预测并呈现非拉丁文字符串。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及计算机输入的
背景输入法编辑器(ME)是辅助用户将文字输入到计算设备的主机应用中的计算机功能。ME可基于从用户接收的输入提供若干个建议的词和短语作为用于插入到该主机应用中的候选。例如,用户可以输入词或短语的一个或多个开始字符,并且ME可基于所述开始字符提供一个或多个建议的词或短语以供用户选择一个想要的词或短语。对于另一示例,頂E还可以辅助用户输入非拉丁文字符,比如中文。用户可以通过键盘输入拉丁文字符。IME返回一个或多个中文字符作为供插入的候选。该用户随后可选择适当的字符并插入它。由于许多典型键盘支持输入拉丁文字符,IME有助于用户使用拉丁文字符键盘输入非拉丁文字符。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。一些实现提供用于至少部分地基于个人语言模型来预测非拉丁文字符串的技术和装置。可以基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型。各位置可由用户标识。响应于经由输入法编辑器界面接收到拉丁文字符串,可以提供所预测的非拉丁文字符串。另外,响应于接收到拼音字符串,一些示例可以至少部分地基于个人语言模型来预测中文字符串。【附图说明】参考附图阐述【具体实施方式】。在附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在不同附图中使用同一附图标记指示相似或相同的项或特征。图1示出根据某些实现的示例系统。图2示出根据一些实现的输入法编辑器界面的示例。图3示出根据一些实现的输入法编辑器界面的示例。图4示出根据某些实现的示例流程图。图5示出根据某些实现的示例流程图。图6示出根据某些实现的示例位置选择界面。图7示出某些实现可以在其中操作的示例系统。详细描述概述一些示例包括用于通过输入法编辑器(ME)实现个人语言模型的技术和装置。例如,对于用户而言将字符输入进基于非拉丁文字符(例如,汉语)语言的计算机是困难的。例如,存在数千个中文字符,而典型的西方键盘受限于26个字母。本公开涉及响应于从用户接收到拉丁文字符串来预测非拉丁文字符串的ME。所预测的非拉丁文字符串至少部分地基于个人语言模型。作为解说性而非限定性的示例,IME可以用来将拼音文字(即,由拉丁文字符在语音上表示的中文字符)翻译成中文字符。应当明白,本公开不受限于中文字符。例如,其他解说性的非拉丁文字符可以包括日文字符或韩文字符,等等。在中文输入法编辑器中,最常见的是那些基于拼音文字的。汉语拼音是一组用拉丁文字母表给中文字符的发音注音的规则。在典型的拼音ME中,用户输入他们想要输入进计算机的中文的拼音文字,并且ME负责显示所有匹配的字符。但是,许多中文字符具有相同的发音。也即,在拼音文字和对应的中文字符间存在一对多关系。为了预测非拉丁文字符窗,IME可以依赖语音模型。例如,统计语言模型(SLM)可被用来计算每个可能转换的转换概率,并选择具有最高概率的一个呈现给用户。称作N-gram SLM的特定类型的SLM可以将一串连续单词的概率分解成该串中两个、三个或更多个连续单词间条件概率之积。可以发布具有通用用途语言模型(即,“通用”语言模型)的IME,该通用用途语言模型被训练用于最常见的打字场景。然而,这种通用语言模型对于与特定的“领域”(例如,兴趣、专业)相关联的用户而言可能是不适当的。也即,不同的用户可以与不同的领域(例如,兴趣、专业)相关联,而利用通用语言模型的頂E可能建议对于来自特定领域的用户而言不合适的单词或词组。为了解说,利用通用语言模型的ME可以建议第一单词或词组(即,第一组非拉丁文字符)。该第一单词或词组可以具有与第二单词或词组(即,第二组非拉丁文字符)相同的发音。第一单词或词组对于标准用户而言是合适的,但是对于与特定领域相关联的用户而言可能较不合适。取而代之的,第二单词或词组可能对于这种与特定领域相关联的用户更加合适。本公开描述利用个人语言模型的IME,该个人语言模型基于由特定用户在本地存储的特定文件(例如,文档)中所包括的内容被个性化地适配用于特定用户。作为解说性但非限定性的示例,软件开发者可以具有与本地存储的信息技术相关联的一个或多个文档,而记者可以具有与本地存储的报刊相关的一个或多个文档。通过本公开,可以至少部分地基于特定用户在本地存储的文档而对每个用户的语言模型进行个性化,从而使IME更准确地预测非拉丁文字符。为了解说,软件开发者的ME可以预测对于软件开发者而言相比基于通用语言模型的非拉丁文字符串更合适的非拉丁文字符串。类似地,记者的ME可以预测对于记者而言相比基于通用语言模型的非拉丁文字符串更合适的非拉丁文字符串。本公开的IME依赖于特定用户的一个或多个可以或不可被该特定用户打字的所存储的文档。也即,可以存在对于开发个人语言模型有用但可不一定由特定用户键入的在本地存储的领域材料(例如,教科书、历史案例研宄)。作为解说性示例,医生可以具有在本地存储的许多医学案例研宄。这些案例研宄中的一些可以由医生撰写,而另一些可以由其他人撰写或由医生为调查而收集。从这些文档可以生成反映用户的领域兴趣(即,领域专用术语以及如何构成句子)的语言特性的个人语言模型。用户可以标识与特定用户的领域相关的文件在本地存储的一个或多个位置。为了说明,软件开发者可以在文件系统中指定存储文件的一个或多个位置,这些文件可被用来开发针对信息
被个性化的语言模型。类似地,体育记者可以在文件系统中指定存储文件的一个或多个位置,这些文件可被用来开发针对体育记者领域被个性化的语言模型。尽管软件开发者可以在本地存储与体育相关的文档,但这一用户可以不将这些位置标识为将被用来个性化语言模型的位置。在特定的实施例中,可以向用户提供图形用户界面(GUI)以标识将在个性化语言模型时使用的这些位置。示例实现图1示出根据一些实现的系统100的示例框架。系统100包括输入法编辑器(ME)应用102,该输入法编辑器(ME)应用102在通信上耦合至个人语言模型104和通用语言模型106。系统100进一步包括自适应语言模型构建器108,该自适应语言构建器108在通信上耦合至文件系统110。一个或多个文件112存储在文件系统110中的一个或多个位置。在特定的实施例中,由用户118来标识一个或多个位置114。尽管在图1中计算设备120被示出与系统100中的上述组件分开,但是应当明白这仅仅是出于解说的目的。例如,在一些示例中,系统100的所有组件可以包括在计算设备120中,而在另一些示例中,组件可以跨能够相互通信的任何数目个计算设备分布,诸如通过一个或多个网络上或其他通信连接。IME应用102配置成生成ME界面116,以供经由计算设备120显示给用户118。自适应语言模型构建器108配置成基于存储在文件系统110中一个或多个位置114处的一个或多个文件112的语言特性来生成个人语言模型104。IME应用106进一步配置成经由ME界面116接收拉丁文字符串122。响应于接收到拉丁文字符串122,ME应用106配置成至少部分地基于个人语言模型104预测非拉丁文字符串124。自适应语言模型构建器108可本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN104823135.html" title="用于输入法编辑器的个人语言模型原文来自X技术">用于输入法编辑器的个人语言模型</a>

【技术保护点】
一种方法,包括:至少部分地基于文件系统中的一个或多个位置处存储的一个或多个文件的语言特性来生成个人语言模型;以及响应于经由输入法编辑器界面接收到拉丁文字符串,至少部分地基于所述个人语言模型来预测非拉丁文字符串。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:M·李X·陈
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1