一种信息查询方法、装置、设备和存储介质制造方法及图纸

技术编号:27226490 阅读:18 留言:0更新日期:2021-02-04 11:49
本公开实施例公开了一种查询方法、装置、设备和存储介质,其中,所述方法包括:基于预先采集的数据构建语料库,并统计语料库中的每个词的词频;获取用户输入的语音查询指令,并对语音查询指令进行用户意图识别,得到用户意图对应的文字对象;根据文字对象的拼音和声调,在语料库中进行检索,得到至少一个检索结果;读取每个检索结果对应的词频,并根据词频对至少一个检索结果进行排序;根据排序结果显示所述至少一个检索结果,以供用户选择;响应于用户对某一检索结果的触发操作,导航到下一级页面进行信息查询。本发明专利技术实施例实现了通过语音即可查询文字的目的,而且同时将相同发音的文字按照词频大小顺序展示给用户选择,提升了查询效率。询效率。询效率。

【技术实现步骤摘要】
一种信息查询方法、装置、设备和存储介质


[0001]本公开实施例涉及计算机
,尤其涉及一种信息查询方法、装置、设备和存储介质。

技术介绍

[0002]日常生活中很容易遇到一些不熟悉的词语,或者忘记怎么书写的词语,通常利用字典通过手动输入进行查询。然而在汉语中,有很多的字都存在一字多音、或者多意思的状态,当用户需要询问某一个多音或多意思字怎么书写的时候,通常字典可查询的字或词较多,使得无法快速准确的识别出用户需求的目标文字,识别效率低。
[0003]公开内容
[0004]本公开实施例提供一种信息查询方法、装置、设备和存储介质,以达到快速准确的识别出用户需求文字的目的。
[0005]第一方面,本公开实施例提供了一种信息查询方法,该方法包括:
[0006]基于预先采集的数据构建语料库,并统计所述语料库中的每个词的词频;
[0007]获取用户输入的语音查询指令,并对所述语音查询指令进行用户意图识别,得到所述用户意图对应的文字对象;
[0008]根据所述文字对象的拼音和声调,在所述语料库中进行检索,得到至少一个检索结果,其中所述检索结果为与所述文字对象具有相同发音的词;
[0009]读取每个检索结果对应的词频,并根据所述词频对所述至少一个检索结果进行排序;
[0010]根据排序结果显示所述至少一个检索结果,以供用户选择;
[0011]响应于用户对某一检索结果的触发操作,导航到下一级页面进行信息查询。
[0012]第二方面,本公开实施例还提供了一种信息查询装置,该装置包括:
[0013]构建模块,用于基于预先采集的数据构建语料库,并统计所述语料库中的每个词的词频;
[0014]获取识别模块,用于获取用户输入的语音查询指令,并对所述语音查询指令进行用户意图识别,得到所述用户意图对应的文字对象;
[0015]检索模块,用于根据所述文字对象的拼音和声调,在所述语料库中进行检索,得到至少一个检索结果,其中所述检索结果为与所述文字对象具有相同发音的词;
[0016]排序模块,用于读取每个检索结果对应的词频,并根据所述词频对所述至少一个检索结果进行排序;
[0017]显示模块,用于根据排序结果显示所述至少一个检索结果,以供用户选择;
[0018]响应模块,用于响应于用户对某一检索结果的触发操作,导航到下一级页面进行信息查询。
[0019]第三方面,本公开实施例还提供了一种设备,包括:
[0020]一个或多个处理器;
[0021]存储装置,用于存储一个或多个程序,
[0022]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开任一实施例所述的信息查询方法。
[0023]第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任一实施例所述的信息查询方法。
[0024]本公开实施例在获取用户查询语音后,通过语音识别,确定用户意图查询文字的拼音和声调,根据拼音和声调在语料库中检索出所有相同发音的词,并按照词频大小依次展示给用户进行选择。由此达到通过语音进行查询的目的,而且同时将相同发音的所有词展示给用户选择,提升了文字识别效率。
附图说明
[0025]图1为本公开实施例中的信息查询方法的流程图;
[0026]图2是本公开实施例中的信息查询装置的结构示意图;
[0027]图3是本公开实施例中的设备的结构示意图。
具体实施方式
[0028]下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
[0029]需要说明的是,本公开中术语“系统”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指”包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于限定特定顺序。
[0030]还需要说明是,本公开下述各个实施例可以单独执行,各个实施例之间也可以相互结合执行,本公开实施例对此不作具体限制。
[0031]参考图1,其示出了本公开实施例提供的一种信息查询方法的流程示意图,本公开实施例公开的方法主要适用于通过语音查询信息的情况,例如通过语音查询某一汉字的写法,该方法可以由相应的信息查询装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于具有语音识别功能以及显示装置的设备,例如配置在移动终端上。
[0032]如图1所示,该方法具体包括如下步骤:
[0033]S101、基于预先采集的数据构建语料库,并统计所述语料库中的每个词的词频。
[0034]其中,建立的语料库时,采集预设数量的中小学教材文本、作文、网上文本等数据,可示例性的通过人工下载的方式或利用爬虫技术爬取的方式进行采集,并对采集的数据进行分词处理,去除其中包括的停用词或无意义词,例如连接词或语气词,以得到语料库,由此通过减少语料库中停用词或无意义词,降低预料库中词的数量,进而可以减少后续词频统计工作量。而且构建语料库时,还为该语料库增加拼音和声调进行组合查询的功能。
[0035]本公开实施例中,在建立语料库后,对语料库中的每个词进行词频统计,也即是确定每个字或词在该语料库中出现的频次,示例性的,可通过TF-IDF(term frequency-inverse document frequency)算法进行词频统计,除此之外,为了减少计算量,还可以直
接将每个词在语料库中出现的次数作为该词的词频。并将词频统计结果以数据列表的形式保存在建立的语料库中。
[0036]S102、获取用户输入的语音查询指令,并对所述语音查询指令进行用户意图识别,得到所述用户意图对应的文字对象。
[0037]本专利技术实施例中,获取用户的语音查询指令后,对用户的语音查询指令进行识别,得到语音查询指令对应的文字信息,将得到的文字信息与预先存储的意图列表进行匹配,以确定用户意图以及用户意图对应的文字对象。示例性的,对用户输入的语音查询指令进行识别后对应的文字信息是“请问奇异一词怎么书写?”,通过与意图列表进行匹配可知,用户意图是查询词语怎么书写,该意图对应的文字对象为“奇异”。进一步的,在获得用户意图对应的文字对象后,识别该文字对象的拼音和声调,并将其与文字对象一同存储在词槽中,后续可以直接基于词槽中的拼音和声调进行查询。而在本专利技术实施例中,可用数字1-4分别表示汉语拼音的四个声调(阴平,阳平,上声,去声)。
[0038]S103、根据所述文字对象的拼音和声调,在所述语料库中进行检索,得到至少一个检索结果,其中所述检索结果为与所述文字对象具有相同发音的词。
[0039]本公开实施例中,在建立语料库后,可将语料库存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息查询方法,其特征在于,包括:基于预先采集的数据构建语料库,并统计所述语料库中的每个词的词频;获取用户输入的语音查询指令,并对所述语音查询指令进行用户意图识别,得到所述用户意图对应的文字对象;根据所述文字对象的拼音和声调,在所述语料库中进行检索,得到至少一个检索结果,其中所述检索结果为与所述文字对象具有相同发音的词;读取每个检索结果对应的词频,并根据所述词频对所述至少一个检索结果进行排序;根据排序结果显示所述至少一个检索结果,以供用户选择;响应于用户对某一检索结果的触发操作,导航到下一级页面进行信息查询。2.根据权利要求1所述的方法,其特征在于,基于预先采集的数据构建语料库,并统计所述语料库中每个词的词频,包括:对采集到的数据进行分词处理,去除其中包括的停用词或无意义词,得到语料库;基于TF-IDF算法进行词频统计,并将词频统计结果以数据列表的形式保存在语料库中。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将排在第一位的检索结果进行高亮显示。4.根据权利要求1所述的方法,其特征在于,对所述用户语音查询指令进行用户意图识别,得到所述用户意图对应的文字对象,包括:对用户的语音查询指令进行识别,得到所述语音查询指令对应的文字信息;将所述文字信息与预先存储的意图列表进行匹配,以确定用户意图以及用户意图对应的文字对象。5.一种信息查询装置,其特征在于,所述装置包括:构建模块,用于基于预先采集的数据构建语料库,并统计所述语料库中的每个词的词频;获取识别模块,用于获取用户输入的语音查询指令,并对所述语音查询指令进行用户意图识别,得到所...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1