当前位置: 首页 > 专利查询>微软公司专利>正文

用于单词拆分的新词收集方法和系统技术方案

技术编号:2859995 阅读:208 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用于收集新词,添加到粘着性语言所用的词库的方法,计算机可读的媒体和系统。在本方法中,获得提交到搜索引擎的问询日志。把该问询日志进行分类以获得分类问询。然后使用多重探试性标准将分类问询进行过滤,以获得新词的候选目录。然后把新词候选目录上的单词添加到词库。

【技术实现步骤摘要】

技术介绍
本专利技术涉及单词拆分器。更特别地,本专利技术涉及用于单词拆分的新词收集方法和系统。单词拆分是处理文本输入的自然语言处理应用的一个重要部分。特别是,单词拆分对大多数搜索引擎尤其重要。出于多种目的,搜索引擎对输入串施行单词拆分。例如,为确定复合词的组成单词对输入串施行单词拆分。单词拆分对诸如日语,汉语和朝鲜语等粘着性语言尤其重要。粘着性语言是指一种单词由独立词素的线性顺序组成的语言,含义的每个构件由其自身的词素表示。粘着性语言的其它例子包括闪语(Sumerian),豪利特语(Hourrite),奥拉陶语(Ourartau),巴斯克语和土耳其语。通常,在粘着性语言中,单词复合时可不用空格符分隔构件单词。搜索目标常常包含各种词典尚未收录的新单词,且不会出现在定制词库中。当搜索引擎询问的输入串或待标引和搜索的文件中含有未知单词时,对单词拆分器来说很难恰当地拆分这个串。对于那些单词不用分隔符分隔的语言尤其如此。这具有潜在的降低搜索结果的精确度/覆盖度的可能。为单词拆分器使用的定制词库收集新词,是一项无止尽的工作。现有的用于为定制词库收集新词的技术是一项耗费时间的、繁重的工作。通常,新词由搜索网站所有者人工收集,用于加入该网站使用的定制词库。新词也可由开发者人工收集,归入下一代产生的系统词典中。这些新词收集技术耗费时间、劳动密集,还有许多地方有待改进。
技术实现思路
本专利技术提供一种用于收集新词添加到粘着性语言的词库的方法,计算机可读媒体和系统。在此方法中,获得提交到搜索引擎的问询日志。把此问询日志经分类得到分类的问询。然后用多重探试法标准过滤分类的问询,得到一个新词的候选目录。然后将新词的候选目录中的单词添加到词库。在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从新词的候选目录中,淘汰长度超过预定的阈长度,象是复合词的那些问询。如果需要,在一些实施例中,可使用基于长度的过滤,淘汰长度小于预定阈长度的问询,如果确定它们不象是单词,而更象是用户无意中点击确认键的结果。在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从候选目录中,淘汰问询日志中出现频度小于预定的阈出现频度的问询。在一些实施例中,使用多重探试法标准过滤分类的问询,得到新词的候选目录,还包括,从候选目录中,淘汰已经由单词拆分器分析,被认为是单字的那些问询。表征本专利技术实施例的其它特点和优点,将通过阅读下面的详细描述和查阅相关附图变得显而易见。附图简述附图说明图1是使用本专利技术的一个示例环境的方框图。图2是说明用于本专利技术的搜索引擎标引系统的一个实施例的方框图。图3是说明用于本专利技术的搜索引擎系统的一个实施例的方框图。图4是说明本专利技术的新词收集系统和方法的一个实施例的方框图。图5是说明图4所示探试性过滤模块的一个实施例的方框图。示例性实施例的详细描述图1例示了一个可实现本专利技术的合适的计算机系统环境100的例子。计算机系统环境100仅是合适的计算机环境的一个例子,而不打算对本专利技术的使用范围或功能作任何限制。同样,计算机环境100不应被理解对示例性的操作环境100中的任何部件或部件的组合具有任何依赖性或要求。本专利技术在众多其它通用或专用计算机系统环境或配置上具有可操作性。可用于本专利技术的知名运算系统,环境,和/或配置的例子包括,但不局限于个人电脑,服务器电脑,手提电脑或膝上设备,多处理器系统,基于微处理器系统,机顶盒,可编程消费类电子产品,网络PC机,迷你电脑,大型计算机,以及包括任何上述和类似系统或设备的分布式计算机环境。本专利技术可用计算机可执行指令的通用语言环境描述,例如正在被计算机执行的程序模块。通常,程序模块包括例行程序,程序,对象,组件,数据结构等,它们履行特定任务或实现特定抽象数据类型。本专利技术也可在分布式计算机环境中实施,其任务通过通信网络连接的远程处理设备实施。在分布式计算机环境中,程序模块可位于本地或远程计算机存储介质中,包括记忆存储设备。如图1所示,一种实现本专利技术的示例系统,包括以计算机110为形式的通用运算设备。计算机110的部件可包括,但不局限于,处理单元120,系统存储器130,和系统总线121,后者将包括系统存储器的各种系统部件耦合至处理单元120。系统总线121可任选自多种类型总线结构,包括存储总线或存储控制器,外围总线,和使用任何多种总线体系结构的局部总线。作为例子,但不作限制,这种体系结构包括工业标准体系结构(ISA)总线,微型通道体系结构(MCA)总线,增强ISA(EISA)总线,视频电子标准协会(VESA)局部总线,和外围部件互连(PCI)总线,也称作夹层总线。计算机110通常包括多种计算机可读媒体。计算机可读媒体可以是任何现存的可被计算机110访问的媒体,包括易丢失和不易丢失媒体,可移动和不可移动媒体。作为例子,但不作限制,计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体可包括易丢失和不易丢失媒体,可移动和不可移动媒体,用于在任何方法或技术中实现信息的储存,例如计算机可读指令,数据结构,程序模块或其它数据。计算机存储媒体包括,但不局限于,RAM,ROM,EEPROM,闪存或其它存储技术,CD-ROM,数字多用光盘(DVD)或其它光盘存储器,盒式磁带,磁带,磁盘存储器或其它磁性存储设备,或任何其它可被用来存储需要的信息,并可被计算机110访问的媒体。通信媒体通常包括计算机可读指令,数据结构,程序模块或其它例如载波或其它传输机制的调制数据信号形式的数据,并包括任何信息传递媒体。术语“调制数据信号”指一种信号,具有一种或更多特性,其可用在信号中编码信息方式被设置或变化。作为例子,但不作限制,通信媒体包括有线媒体,例如有线网络或直接有线连接,以及无线媒体,例如声波,射频,红外线和其它无线媒体。上述任何组合也应包括在计算机可读媒体的范围内。系统存储器130包括以易丢失和/或不易丢失存储器的形式存在的计算机存储媒体,例如只读存储器(ROM)131和随机存取存储器(RAM)132。包含基本例行程序、用来例如在启动期间帮助在计算机110中的元件之间传送信息的基本输入/输出系统(BIOS),通常存储在ROM 131中。RAM 132通常包含即时访问的和/或处理单元120当前正在操作的数据和/或程序模块。作为例子,但不作限制,图1例示了操作系统134,应用程序135,其它程序模块136,和程序数据137。计算机110也可包括其它可移动/不可移动、易丢失/不易丢失计算机存储媒体。仅作为例子,图1例示了从不可移动、不易丢失的磁性媒体读出或写入的硬盘驱动器141,从可移动、不易丢失的磁盘152读出或写入的磁盘驱动器151,以及从可移动、不易丢失的光盘156,例如CD-ROM或其它光媒体读出或写入的光盘驱动器155。其它可用于示例操作环境的可移动/不可移动、易丢失/不易丢失计算机存储媒体包括,但不局限于,盒式磁带,闪存卡,数字多用光盘,数字录像带,固态RAM,固态ROM以及类似媒体。硬盘驱动器141通常通过不可移动存储器接口例如接口140连接到系统总线121,而磁盘驱动器151,光盘驱动器155通常通过可移动存储器接口例如接口150连接到系统总线121。前面讨论的及图1例示的驱动器及本文档来自技高网...

【技术保护点】
一种收集新词,添加到粘着性语言的词库的方法,其特征在于,所述方法包括:    获得提交至搜索引擎的问询日志;    将问询日志分类,获得分类的问询;    使用多重探试性标准过滤分类的问询,获得新词的候选目录;以及    添加新词候选目录上的单词至词库。

【技术特征摘要】
US 2004-3-3 10/792,4431.一种收集新词,添加到粘着性语言的词库的方法,其特征在于,所述方法包括获得提交至搜索引擎的问询日志;将问询日志分类,获得分类的问询;使用多重探试性标准过滤分类的问询,获得新词的候选目录;以及添加新词候选目录上的单词至词库。2.如权利要求1所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰长度超过预定阈长度的问询。3.如权利要求2所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰问询日志中发生频度低于预定阈发生频度的问询。4.如权利要求3所述的方法,其特征在于,使用多重探试性标准过滤分类问询,获得新词的候选目录,还包括从候选目录淘汰已经过单词拆分器分析被认为是单字的问询。5.如权利要求4所述的方法,还包括人工过滤新词的候选目录以获得新词目录,其特征在于,把新词候选目录的单词添加至词库,包括添加来自新词目录增加单词。6.如权利要求5所述的方法,其特征在于,把新词的候选目录的单词添加至词库,还包括把新词目录的单词添加至单词拆分器使用的词库,以获得更新的词库。7.如权利要求5所述的方法,其特征在于,还包括使用更新的词库重新标引多种文件或站点。8.如权利要求7所述的方法,其特征在于,还包括使用更新的词库实施搜索引擎问询分析。9.如权利要求1所述的方法,其特征在于,所述粘着性语言是日语。10.如权利要求9所述的方法,其特征在于,过滤多重探试性标准,获得新词的候选目录,还包括基于日语字符类型限制,从候选目录淘汰问询。11.如权利要求10所述的方法,其特征在于,基于日语字符类型限制,从候选目录淘汰问询,还包括,淘汰非平假名或片假名字符串的问询。12.如权利要求10所述的方法,其...

【专利技术属性】
技术研发人员:奧村薰
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1