本发明专利技术提供一种用于多语言文档检索的方法及其系统。该方法包括:接收用户基于至少一种语言的检索请求;根据所述检索请求检索所述至少一种语言的相关文档;以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性,检索所述至少一种其它语言的相关文档。本发明专利技术可以克服现有跨语言检索技术中由于翻译缺陷带来的无法检索或漏检等缺陷的情况。
【技术实现步骤摘要】
本专利技术总体上涉及信息处理
,特别地,涉及一种用于多语言文档检索的 方法及系统
技术介绍
随着互联网的普及,现在世界变得越来越扁平,信息交流也变得越来越频繁和迅 速,信息量也变得愈来愈多。对于同一件事情或事物,会同时出现大量不同角度、不同语言 的相互关联的报道、评论或者描述。而用户往往只是精通一种语言,如何利用用户的一种语 言的检索请求方便地找到用户所关心的多语言文档,是目前用户所希望得到的帮助。目前现有检索技术的普遍做法是根据用户所输入的检索请求,通过机器将用户的 检索请求通过机器翻译成对应的其它语言的检索请求,然后根据翻译后的其它语言的检索 请求而在对应语言的文档中进行检索,从而检索到相关的文档。但这种技术存在很多缺陷。 传统的机器翻译基于统计学习,由计算机程序将文字或演说从从一种自然语言翻译成另一 种自然语言。目前的一些翻译机器基于现有的词汇对应和一些语法结构,能够进行一定程 度的翻译。但是,机器翻译的结果好坏,往往取决于输入输出两种语言在词汇、文法结构、语 系甚至文化上的差异。例如英语与荷兰语同为印欧语系,这两种语言间的机器翻译结果,通 常便会比中文与英文间机器对译的结果要好很多。此外,由于网络的快速发展,带来了大量 的新词,这也给机器翻译带来了挑战。总的说来,机器翻译还没有达到可以取代专业(人 工)翻译的程度,并且也尚无法成为正式的翻译,所得到的翻译结果往往不准确。而且由于 用户的检索请求往往具有个性化,给准确翻译带来更大的困难。如果翻译的检索请求不准 确,则无法为用户检索到用户需要关心的相关文档,而是为用户检索到大量不相关的文档, 这样无疑会增加用户的阅读、翻译等负担,而且也无法检索到用户感兴趣的文档。使得用户 的体验非常差。因此需要一种多语言文档的检索方法以及系统,以克服现有技术中的一个或多个 缺陷。
技术实现思路
本专利技术一方面提供一种用于多语言文档检索的方法,包括接收用户基于至少一 种语言的检索请求;根据所述检索请求检索所述至少一种语言的相关文档;以及基于检索 到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的 文档的图像的相似性,检索所述至少一种其它语言的相关文档。本专利技术另一方面提供一种用于多语言文档检索的系统,包括接收装置,被配置用 于接收用户基于至少一种语言的检索请求;检索装置,被配置用于根据所述检索请求检索 所述至少一种语言的相关文档,以及基于检索到的所述至少一种语言的相关文档的图像与 除所述至少一种语言的至少一种其它语言的文档的图像的相似性,检索所述至少一种其它 语言的相关文档。本专利技术提供以图像相似性为桥梁的多语言文档的检索方法及系统,从而适于克服 现有跨语言检索技术中由于翻译缺陷带来的无法检索或漏检的情况。附图说明为了对本专利技术实施例的特征和优点进行详细说明,将参照以下附图。如果可能的 话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中图1示出了本专利技术的一个检索结果示意图;图2示出了本专利技术用于多语言文档检索的方法的一个实施方式;图3a、!3b示出了本专利技术用于检索其它语言的相关文档的流程示意图;图4示出了本专利技术用于多语言文档检索的另一个实施方法;图5示意性示出了采用本专利技术的检索结果的呈现;图6示出了本专利技术的多语言检索系统的框图。具体实施例方式现在将参考本专利技术的示例性实施例进行详细的描述,在附图中图解说明了所述实 施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本专利技术并不限于所公开 的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要 求保护的本专利技术都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步 骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步 骤。此外,步骤之间可以有显著的时间间隔。鉴于现有技术存在相应的缺陷,本申请的专利技术人通过大量的实践以及统计发现, 现行使用较多的各种语言的绝大多数文档,都具有相应的图像。而且在文档中都会有与图 像相关的描述、介绍或者评论等。比如图1中的101示意性地示出了根据用户用英文输入 的搜索请求而得到的某搜索引擎的文本检索缩略,而103则示出了与排名靠前的搜索结果 1、2对应文档中的图像。如果基于103所示的图像去对比其它语言的文档中的图像,则可以 间接地将任何语言的具有相似的图像的相关文档检索出来。从而可以克服现有多语言文档 检索的缺陷。在多语言文档中的上述图像与文字的关联性在来自新闻报道、专业网站(比 如旅游、购物等)等制作较专业的互联网网站的多语言文档中显得尤为突出,比如对政治 人物、突发事件的报道。另外来自杂志、报纸等多语言文档也真实地反映了这种关联性。再 比如制作较好的演讲稿PPT。因此一种语言的文档中的文字与图像的关联性是普遍的。本 申请专利技术人基于这种关联性另辟蹊径地构思了本专利技术。图2示出了本专利技术的第一实施方式。在步骤201中,接收用户基于至少一种语言 的检索请求。一般而言,用户会基于其熟悉的语言(比如母语)在检索工具中输入检索请 求,比如用户所关心的主题的关键词等。但如果用户不只熟悉一种语言,也可以允许其输入 多种语言的检索请求,这可以通过提供多个检索输入接口来实现。在步骤203中,根据所 述检索请求检索所述至少一种语言的相关文档。由于用户是用其熟悉的语言输入的检索 请求,因此可以认为该检索请求是比较准确的,则可以基于用户的检索请求在用户使用的 语言的文档中进行检索。这可以借助现有的搜索引擎比如google,baidu等的搜索技术来 实现。在步骤205中,基于检索到的所述至少一种语言的相关文档的图像与除所述一种语言的至少一种其它语言的文档的图像的相似性,检索所述其它语言的相关文档。判断图像 的相似性可以有多种算法。比如本领域技术人员对于具有直方图特征的图像可以采用基 于直方图的概率分布相似性(包括直方图交(Histogram htersection),卡方相似性(Chi Square))等进行度量,而对于矩特征以及其他类型的图像特征可以采用特征空间的欧氏距 离(Euclidean distance)、马氏距离(Mahalanobis Distance)等度量。更进一步的,还可 以对局部特征采用基于聚类之后的汉明距离(Hamming Distance)导出的相似性。值得注 意的是,采用何种具体的相似性算法不对本专利技术的保护范围造成限定,本领域技术人员根 据具体需要可以选择现有或者将来合适的具体算法。而根据计算出来的图像的相似性,通 过设定相关的阈值就可以判断应该选择哪些其它语言的文档的图像与用户初步检索到的 文档中的图像相似,并将与所述至少一种语言的文档的图像的相似性高于阈值的其它语言 的文档的图像判断为相似度高,而确定该其它语言的文档的图像为相似图像。阈值的设定 可以交由技术人员在后台进行选择或者自动设定,比如依照用户需要返回的文档数目设定 所需选择的图像数目。进而由这些相似的图像获得这些相似图像对应的文档。采用这种方 式,用户就可以基于其熟悉的语言输入检索请求而获得多语言的相关文档。作为优选,可以对获得的多语言的文档进行主要文本抽取和主要图像抽取,分别 建立文本集和图像集。目前有多种基本文档来自技高网...
【技术保护点】
一种用于多语言文档检索的方法,包括:接收用户基于至少一种语言的检索请求;根据所述检索请求检索所述至少一种语言的相关文档;以及基于检索到的所述至少一种语言的相关文档的图像与除所述至少一种语言的至少一种其它语言的文档的图像的相似性,检索所述至少一种其它语言的相关文档。
【技术特征摘要】
【专利技术属性】
技术研发人员:包胜华,陈健,王栋,苏中,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。