当前位置: 首页 > 专利查询>微软公司专利>正文

词检测和域字典推荐制造技术

技术编号:11366550 阅读:69 留言:0更新日期:2015-04-29 16:53
提供了新词检测和域字典推荐。当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词。然后词被分级以便包含在一个或多个词典或域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。此外,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否有更多有帮助的域字典可用的判断。当输入的词具有与某一给定域字典的高度关联性时,该域字典可被推荐给用户来增加用户输入额外文本以及编辑现有文本的准确性。

【技术实现步骤摘要】
【国外来华专利技术】词检测和域字典推荐
技术介绍
随着因特网功能性、信息转移以及电子文档生产和使用方面的剧增,越来越多的新词正被创建并在用户之间传播,且越来越多的词正被用于与各种不同域字典相关联的电子文档创建和使用中。当从例如因特网网页、电子邮件消息、文本消息、电子文档等一个或多个源接收到新词时,这些词可能不被识别为属于某一给定域字典,例如与字处理应用相关联的域字典,且因此诸如文本输入法、拼写检查、语法检查、自动输入完成等之类的功能性可能不能用于那些新词。对于诸如由不是按空格或其他分界或分隔指示符划分成词的字符串组成的中文之类的复杂语言来说,这可能尤其是有问题的。此外,通常用户可能正在通过与某一给定域字典(例如标准英语、中文或其他标准语言域字典)相关联的一给定软件功能性(例如字处理应用)输入信息(如文本),但是该用户可能正在输入与某一更特定的域(如医学术语域)相关联的文本。如果该用户没有意识到与他的/她的文本输入相关联的域字典(如医学术语域字典)的可用性,则该用户可能失去该可用域字典的有价值的资源。本专利技术正是对于这些和其他考虑事项而作出的。
技术实现思路
本专利技术的实施例通过提供新词检测和域字典推荐来解决上述和其他问题。根据一个实施例,当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词,这些规则包括停用词规则、词典子串和数序规则、前缀/后缀规则、以及语言模式规则。在排除了作为新词被加入到词语词典的低价值的词之后,剩下的词被分级以便包含在一个或多个词语词典和/或特定域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。根据另一实施例,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否更多有帮助的域字典可用的判断。用户输入的词被提取并与各种可用的域字典中所包含的词进行比较。如果作出用户输入的词具有与用户不正在使用的某一域字典的高度关联性的判断,则可向用户推荐该域字典以增加用户输入额外文本和编辑现有文本的准确性。一个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的详细描述并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的详细描述仅仅是解释性的,而不是对所要求保护的专利技术的限制。提供本
技术实现思路
以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图说明合并在本公开中并构成其一部分的附图例示出本专利技术的实施例。图1例示出平板型计算设备的显示屏上显示的根据某一语言(例如中文)的文本内容,从中可检测到一个或多个新的词以包含在给定域字典中。图2例示出用于从一个或多个源接收文本内容以及用于经新词检测引擎来从该文本内容检测一个或多个新词的系统架构。图3是用于检测包含在接收到的或输入的文本内容选择中的新词的方法的流程图。图4例示出用于对接收到的或输入的文本内容的域字典推荐的系统架构。图5是用于与所接收到的或输入的文本内容相关联地推荐一个或多个域字典的方法的流程图。图6例示出用于与所接收到的或输入的文本内容相关联地向用户推荐域字典的示例弹出对话框。图7是例示出可用来实施本专利技术的各实施例的计算设备的示例物理组件的简化框图。图8A和8B是可用来实施本专利技术的各实施例的移动计算设备的简化框图。图9是可在其中实施本专利技术的各实施例的分布式计算系统的简化框图。具体实施方式如上简述,本专利技术的实施例涉及提供新词检测和域字典推荐。当根据某一给定语言(例如中文)接收到文本内容时,通过根据各种规则分析该内容来从该内容中提取词。在排除了作为新词被加入到给定域字典的价值低的词之后,剩下的词被分级以便包含在一个或多个词语词典和/或特定域字典中,以供将来用于诸如文本输入法、拼写检查、语法检查、自动输入完成、定义等之类的功能性。此外,当用户正在根据一个或多个规定的域字典输入或编辑文本时,可作出关于是否有更多有帮助的域字典可用的判断。如果作出用户输入的词具有与用户不正在使用的某一域字典的高度关联性的判断,则可向用户推荐该域字典以增加用户输入额外文本和编辑现有文本的准确性。以下详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或相似的元素。尽管可能描述了本专利技术的实施例,但修改、改编、以及其他实现是可能的。例如,可对附图中所例示的元素作出替换、添加、或修改,以及可通过对所公开的方法进行替换、重新排序、或添加阶段来修改本文中所描述的方法。因此,下文的详细描述不限制本专利技术,相反,本专利技术的合适范围由所附权利要求来限定。现在参考图1,文本内容选择115被例示于计算设备110的显示屏上,该文本内容选择可根据各种软件功能性来被用户阅读、编辑或以其他方式使用,这些软件功能性例如字处理应用、基于因特网的应用、幻灯片演示应用、电子数据表应用、桌面发布应用等等。图1中例示出的计算设备110是平板型计算设备,但应理解,计算设备110可采用任何合适的形式,如膝上型计算机、台式计算机、例如智能电话的手持计算设备、以及能够允许文本内容115被显示以及根据一个或多个软件功能性而被利用的类似物。如图1所例示,文本内容115是中文内容,但是应理解,文本内容115可根据设备110的用户所希望的任何其他语言类型来被提供。源120被例示出,从源可获得文本内容115,源例如基于因特网的网页、远程存储的文档、电子邮件消息、文本消息、本地存储的文档等等。如上简述,当从源120接收到诸如图1中所例示的文本内容之类的文本内容时,文本内容可能具有用户或其他接收方可能或可能不理解的和/或可能未被包括在可供用户使用的某一域字典中的一个或多个新词,域字典例如与用户的字处理应用或要用来利用所接收到的内容的其他软件应用相关联的一个或多个域字典。从而,例如文本输入法、拼写检查、语法检查、自动输入完成、字典服务等的各种功能性可能不可用于这些新词。例如,接收到的文本内容115可能包括对于接收用户可能理解的给定行业(例如软件行业、因特网行业等)来说是新的新词,但该新词可能不被包括在某一给定域字典中来助于用户根据可用的软件功能性来利用该新词。现在参考图2,根据本专利技术的实施例,从例如网页205、电子文档210、电子邮件消息215、文本消息220或其他内容源225的各种源接收的文本内容可被传递给新词检测引擎230,用于对包含在所接收到的文本内容项中的新词进行隔离以及用于包含在一个或多个词语词典(词列表)和/或给定域字典(与某一域相关联的词列表,如医学术语域)来供与一个或多个软件功能性相关联的后续使用。例如,如果在来自一个或多个源的文本内容项中接收到新词“texting”(写文本),该新词可能被接收用户所理解,但该新词可能不被包括在与该用户正在使用的软件功能性(如文本输入法应用、字处理应用、电子邮件应用等)相关联的任何域字典中。通过隔离新词和将新词包含在某一给定域字典中,与文本内容输入和编辑相关联的软件功能性可与该域字典以及新隔离和存储的词相关联地被使用。例如,如果用户接着输入或编辑该示例词“texting”,则与该用户的文本输入法应用或字处理应用相关联的、该新词已被添加于其中的域字典可由该用户的字处本文档来自技高网
...
词检测和域字典推荐

【技术保护点】
一种检测词来包含在一给定词语词典中的方法,包括:接收文本选择;从所述文本选择中提取一个或多个词;排除所提取的词中的一个或多个,其中被排除的一个或多个词对于包含在所述给定词语词典中来说不被认为是有价值的;对所提取的词中的剩余的一个或多个进行分级来包含在所述词语词典中;以及选择所提取的词中的所述剩余的一个或多个中的一个或多个词来包含在所述词语词典中,这基于应用于所提取的词中的所述剩余的一个或多个中的所选择的一个或多个词的分级。

【技术特征摘要】
【国外来华专利技术】2012.08.24 US 13/594,4731.一种检测词来包含在一个或多个词语词典中的方法,包括:提供与多个词语词典相关的计算装置;从除了所述计算装置之外的源接收文本选择;在所述计算装置的显示屏上显示所述文本选择;利用所述计算装置访问新词检测引擎,该新词检测引擎配置为:从所述文本选择中提取一个或多个词;排除所提取的词中的一个或多个,其中被排除的一个或多个词对于包含在给定词语词典中来说不被认为是有价值的;响应于排除所提取的词中的一个或多个,对所提取的词中的剩余的一个或多个进行分级来包含在所述多个词语词典的一个或多个中;选择所提取的词中的所述剩余的一个或多个中的一个或多个词来包含在所述多个词语词典的一个或多个中,这基于应用于所提取的词中的所述剩余的一个或多个中的所选择的一个或多个词的分级;将所提取的词中的剩余的一个或多个中的所选的一个或多个词与多个词典进行比较;以及响应于对所提取的词中的剩余的一个或多个中的所选的一个或多个词的比较,就与一个或多个软件功能性的关联性来推荐所述多个词语词典中的至少一个,从而提高软件功能性能,其中所述一个或多个软件功能性与所述计算装置相关联。2.如权利要求1所述的方法,其特征在于,在从所述文本选择提取一个或多个词之前,将所接收到的文本选择分割成一个或多个词。3.如权利要求2所述的方法,其特征在于,将所述文本选择分割成一个或多个词包括从所述文本选择中创建多个字符分组,以及将所述多个字符分组与一个或多个词语词典相比较来确定所述多个字符分组中的任一个是否是已知词。4.如权利要求1所述的方法,其特征在于,对所提取的词中的剩余的...

【专利技术属性】
技术研发人员:H·孙CH·李J·李
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1