歌曲搜索中非语义、非词组的切换方法技术

技术编号:10782881 阅读:109 留言:0更新日期:2014-12-17 04:14
歌曲搜索中非语义、非词组的切换方法。本发明专利技术提供了一种信息处理方法和信息处理装置,其可以用于对信息进行切词处理,该信息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法,但又不是机械的叠加,形成一种新的复式切词方法,特别是对于歌曲信息搜索领域,在该方法的执行过程中,根据具体的情况针对歌曲信息搜索领域的特点以及用户搜索串的特点进行相应的判断,并分别根据不同的情况使用不同的切词和搜索方案,避免采用复杂的语义切词等切词方案,从而极大的提高搜索的效率和准确度。

【技术实现步骤摘要】
【专利摘要】。本专利技术提供了一种信息处理方法和信息处理装置,其可以用于对信息进行切词处理,该信息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法,但又不是机械的叠加,形成一种新的复式切词方法,特别是对于歌曲信息搜索领域,在该方法的执行过程中,根据具体的情况针对歌曲信息搜索领域的特点以及用户搜索串的特点进行相应的判断,并分别根据不同的情况使用不同的切词和搜索方案,避免采用复杂的语义切词等切词方案,从而极大的提高搜索的效率和准确度。【专利说明】
本申请涉及一种信息处理方法和信息处理装置,特别是涉及一种在信息搜索领域 中对信息进行复式切词的切词处理方法和装置,尤其是歌曲搜索中非语义、非词组的切词 方法和装置。
技术介绍
在信息搜索领域,影响搜索结果质量的一个非常重要的因素就是切词技术。也就 是在对搜索素材和用户的查询语句进行处理的时候,如何将文本切词成多个独立的单词, 针对每个单词进行搜索然后做结果归并,这关系到检索的效率及准确度。 中文进行切词的时候,由于汉语的词是由单个字组成,并且在不同的语境下相同 的字会有不同的组合意义,这导致汉语切词的复杂性很很高。比如:"日本人喜欢和服和樱 花"和"我们需要食品和服装"中的"和服"这两个词分别是不同含义的,甚至于在后者中都 不是一个词。 中文切词分为没有词典的一元、二元机械切词和词典辅助的最大匹配式切词。在 通用搜索引擎领域,一般都使用基于词典的切词方案,同时和一些规则相结合,尽可能地按 照文章原有的语义进行切词,然而,采用语义切词,需要综合考虑多种规则,而且硬件要求 也高,通常需要pc机或较为复杂的系统才能实现。 但是在特定信息搜索领域,比如在歌曲搜索领域,需要进行搜索的领域一般只有 歌手、歌曲和专辑等有限的几个域。歌曲在这几个域上的信息的语义性并不强。比如歌手领 域,就是人名,没有什么语义包含在其中。歌曲名和专辑名相对有更多的语义,但是一般都 是短文本,十几个汉字之内,不会有太丰富的语义。因此按照词典进行切词的意义并不大。 甚至于按照词典切词会切出错误的结果。使用基本的一元切词或者二元切词反而有更好的 匹配效果,并且,基于词典的切词方式,在实际应用中发现的问题是切词粒度较高,容错性 较差,召回率在某些时候会比较低。 对于一元切词,其好处是切词的粒度小,在容错匹配的时候有较好的效果,召回率 高。但是一元切词会导致每个词的文档列表过长,在数据归并的时候开销非常大。 对于二元切词,二元切词是在一元切词的基础上提出的方案,可以有效地减少词 的文档列表长度,提高搜索的效率,但是在容错处理方面较差一些,召回率低一些。
技术实现思路
本专利技术的目的是提供一种信息处理方法,其可以用于对信息进行切词处理,该信 息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法,但又不是机械的 叠加,形成一种新的复式切词方法,在该方法的执行过程中,根据具体的情况针对歌曲信息 搜索领域的特点以及用户搜索串的特点进行相应的判断,并分别根据不同的情况使用不同 的切词和搜索方案,从而极大的提高搜索的效率和准确度。 本专利技术的另一个目的是提供一种信息处理的装置,采用上述信息处理方法针对不 同的信息执行相应的切词和搜索功能,并能很快并准确的得到查询和搜索结果,该装置是 根据相应的搜索领域的信息特点,定制相应的模块而得到的,避免了采用复杂的系统,同时 还能大大增强搜索的效率和准确性。 本专利技术的所述信息处理方法所采取的技术方案如下:一种信息处理方法,其用于 信息搜索领域中对信息进行复式切词处理,包括以下步骤: 1)建立属性词典,根据需要查询的信息的属性,建立相应的属性词典,将属性词典 存储到相应的属性词典存储模块; 2)通过查询信息接收模块接收输入的查询信息,并将查询信息存储到相应的查询 信息存储模块, 3)对接收到的查询信息进行首次判断,即判断是否属于最近预定时间段查询过的 信息,如果是,则直接将最近的查询结果显示在显示模块上,同时将查询结果存储到查询信 息存储模块中; 4)对接收到的查询信息进行第二次判断,判断查询信息是否属于属性词典中的信 息,如果是,则将词典信息存储模块中存储的结果显示在显示模块上; 5)在判断不属于属性词典中的信息后,对接收到的查询信息采用复式切词模块进 行复式切词; 6)采用搜索模块进行搜索; 7)将搜索到的结果显示在显示模块上。 进一步地,本专利技术上述方法所述的信息为歌曲信息。 进一步地,本专利技术上述方法的步骤1)中的属性词典是由歌曲库中的歌手名、歌曲 名和专辑名建立的歌曲属性词典。 进一步地,本专利技术上述方法的步骤5)中的复式切词为混合切词,即一元切词和二 元切词顺次交叠出现,每个二元词是两边的一元词的组合。 进一步地,本专利技术上述方法的步骤5)中的复式切词,还可以是根据两个词在文档 库中的相关度进行切词,同时根据其各自的TF/IDF得分,进行相应的丢弃处理。 进一步地,本专利技术上述方法的步骤6)中的搜索首先是按照二元词依次进行搜索 和归并,如果根据前后的一元词的文档列表长度判断二元词文档列表过短,则将针对该二 元词的搜索和归并转换为对前后两个一元词的搜索和归并。 本专利技术的所述信息处理装置所采取的技术方案如下:一种信息处理装置,其可以 实现对信息搜索领域中的信息进行复式切词,并将结果快速准确的显示,该装置包括以下 模块: 属性词典存储模块,用于存储相应的信息属性词典; 查询信息接收模块,用于接收查询信息; 第一判断模块,用于判断输入的查询是否是最近预定时间段查询过的信息; 查询信息存储模块,用于存储查询信息及查询结果; 第二判断模块,用于判断查询信息是否属于属性词典中的信息; 复式切词模块,用于对接收到的查询信息进行一元二元混合切词; 搜索模块,用于对切词后的查询信息进行搜索; 显示模块,用于显示搜索的结果; 打印模块,用于将搜索的结果进行打印输出; 控制模块,用于控制上述模块的工作。 进一步地,本专利技术上述装置中的上述各模块可以根据需要增减。 该信息处理方法和信息处理装置采用了复式切词方法,能够克服
技术介绍
中单一 切词方法存在的各种问题,解决了效率和召回率之间的矛盾,可以同时满足信息查询速度 和准确度的要求,达到最优的搜索效果,该信息处理装置在实现上述功能的同时,还可以适 应于各种场合,如KTV等,根据不同的需要增减相应的功能模块,采用相应的硬件器件,制 作成不同规格大小的机器,极大地降低了成本。 【专利附图】【附图说明】 附图1为本专利技术方法的流程图; 附图2为本专利技术装置的框图。 【具体实施方式】 以下结合附图和具体实施例对本专利技术进行详细的说明。 本实施例以歌曲信息搜索为例,参见附图1,首先是建立属性词典,根据需要查询 的信息的属性,此处为歌曲相关信息,因此将歌曲库中的歌手名,歌曲名和专辑名建立一个 词典,即歌曲属性词典,并且将完整的歌曲名、歌手名和专辑名作为切词出来的一个精准 词,然后对这三个域按照一元和二元的方式分别进行切词,得到更多细粒度的词,并将建立 好的属性词典本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201310211199.html" title="歌曲搜索中非语义、非词组的切换方法原文来自X技术">歌曲搜索中非语义、非词组的切换方法</a>

【技术保护点】
一种信息处理方法,其特征在于包括以下步骤:1)建立属性词典,根据需要查询的信息的属性,建立相应的属性词典,将属性词典存储到相应的属性词典存储模块;2)通过查询信息接收模块接收用户的查询信息,并将查询信息存储到相应的查询信息存储模块,3)对接收到的查询信息进行首次判断,即判断是否属于最近预定时间段查询过的信息,如果是,则直接将最近的查询结果显示在显示模块上,同时将查询结果存储到查询信息存储模块中;4)对接收到的查询信息进行第二次判断,判断查询信息是否属于属性词典中的信息,如果是,则将词典信息存储模块中存储的结果显示在显示模块上;5)在判断不属于属性词典中的信息后,对接收到的查询信息采用复式切词模块进行复式切词;6)采用搜索模块进行搜索;7)将搜索到的结果显示在显示模块上。

【技术特征摘要】

【专利技术属性】
技术研发人员:王志常
申请(专利权)人:亿览在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1