本发明专利技术公开了用于车机的信息检索方法及系统,方法包括以下步骤:步骤S1、获取用户主题关键词;步骤S2、获取主题关键词相关文本,构建主题关键词相关文本的LDA模型;步骤S3、获取主题关键词相关的初步主题词表;步骤S4、获取包括结构化数据和非结构化文档数据的相关信息;步骤S5、获取车机检索结果。本发明专利技术提供的一种用于车机的信息检索方法,在扩大检索范围的同时可以高质量地呈现车机检索结果以搭载于车机系统,解决汽车垂直领域的信息快速准确检索问题。问题。问题。
Information retrieval method and system for vehicle engine
【技术实现步骤摘要】
用于车机的信息检索方法及系统
[0001]本专利技术涉及信息检索
,具体是涉及一种用于车机的信息检索方法及系统。
技术介绍
[0002]随着计算机技术的快速发展,车载互联时代已悄然到来。从自动化到智能,人们完成了从科技提升效率,到科技提升生活质量的进化,对于车辆结合互联网的需求也愈发加大。在使用汽车时,人们更倾向于通过车机系统进行一些信息检索。然而现今互联网上海量信息数据的涌入对于车机系统的信息检索造成了一定困难。如何从众多数据资料中精准检索获取到用户语音指令中关注的相关各方面知识,对于车机系统愈发变得重要。
[0003]目前对于用户的指令,车机响应搜索的主要渠道是相应主题的相关应用程序,如搜索气温时进入天气相关应用、搜索美食时进入餐饮相关应用。当检索渠道进入搜索引擎时,一方面,仅根据用户提供的零星或单一关键词,检索结果难以涵盖该主题的各方面信息,很难反映该关键词下用户的隐含语义,另一方面,会检索到相当多与主题无关的信息数据。
[0004]如何基于用户意图,找到一种扩大检索范围的同时高质量呈现检索结果的方式搭载于车机系统,解决汽车垂直领域的信息快速准确检索,是目前需要解决的问题。
技术实现思路
[0005]本专利技术的目的是为了克服上述
技术介绍
的不足,提供一种用于车机的信息检索方法及系统。
[0006]第一方面,本专利技术提供了一种用于车机的信息检索方法,包括以下步骤:
[0007]步骤S1、获取用户主题关键词;
[0008]步骤S2、根据获取的用户主题关键词,获取主题关键词相关文本,构建主题关键词相关文本的LDA模型,获取主题关键词相关词表;
[0009]步骤S3、以主题关键词相关词表为输入,经TF
‑
IDF模型过滤主题弱相关词汇,获取主题关键词相关的初步主题词表;
[0010]步骤S4、以用户主题关键词为主,初步主题词表为辅,依次检索抓取词语相关信息,获取包括结构化数据和非结构化文档数据的相关信息;
[0011]步骤S5、融合结构化数据和非结构化数据,获取车机检索结果。
[0012]根据第一方面,在第一方面的第一种可能的实现方式中,所述步骤S1,具体包括以下步骤:
[0013]S11、获取用户指令;
[0014]S12、判断用户指令的词汇类型;
[0015]S131、当用户指令的词汇类型为词语时,将该词语指令作为主题关键词;
[0016]S132、当用户指令的词汇类型为短句时,识别该短句指令,获取该短句指令相关的
主题关键词。
[0017]根据第一方面,在第一方面的第二种可能的实现方式中,所述步骤S2,具体包括以下步骤:
[0018]S21、根据获取的用户主题关键词,搜索引擎抓取主题关键词相关文本;
[0019]S22、构建主题关键词相关文本的LDA模型,获取主题关键词相关词表。
[0020]根据第一方面,在第一方面的第三种可能的实现方式中,所述步骤S3,具体包括以下步骤:
[0021]构建矩阵,其中向量表示词汇集的容量,向量则表示文本集的容量;
[0022]获取主题关键词相关词表中每个词出现的频数TF和包含该词的所有文本数的倒数IDF以及TF和IDF的乘积,并赋值乘积于矩阵中的对应位置;
[0023]获取主题关键词相关词表中每个词在文本集中的IDF值;
[0024]比对每个词的IDF值和IDF阈值;
[0025]过滤掉影响因子分布结果中IDF值低于IDF阈值的词,获取主题关键词相关的初步主题词表。
[0026]根据第一方面,在第一方面的第四种可能的实现方式中,所述步骤S4,具体包括以下步骤:
[0027]步骤S41、构建策略网络;
[0028]步骤S42、以用户主题关键词为主,初步主题词表为辅,经策略网络依次检索抓取词语相关信息,获取包括结构化数据和非结构化文档数据的相关信息。
[0029]根据第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,
[0030]所述步骤S41,具体包括以下步骤:
[0031]步骤S411、获取待爬取服务类网页正文内容的主题相关性;
[0032]步骤S412、获取待爬取服务类网页的链接权威性;
[0033]步骤S413、融合获取的主题相关性和链接权威性,获取优质网页的资源排序;
[0034]步骤S414、根据获取的优质网页的资源排序,构建包括待爬行URL的优先级的策略网络。
[0035]根据第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述步骤S414中的策略网络,包括输入层、卷积层、Softmax层和输出层,所述输入层用于读取待爬行服务类网页集合的特征矩阵,所述卷积层用于评估每个待爬行服务类网页的质量,所述Softmax层用于获取每个待爬行服务类网页的点击概率,所述输出层用于输出待爬行服务网页集合的点击概率分布。
[0036]第二方面,本专利技术提供了一种用于车机的信息检索系统,包括:
[0037]主题关键词获取模块,用于获取用户主题关键词;
[0038]主题关键词相关词表获取模块,与所述主题关键词获取模块通信连接,用于根据获取的用户主题关键词,获取主题关键词相关文本,构建主题关键词相关文本的LDA模型,获取主题关键词相关词表;
[0039]初步主题词表获取模块,与所述主题关键词获取模块和所述主题关键词相关词表
获取模块通信连接,用于以主题关键词相关词表为输入,经TF
‑
IDF模型过滤主题弱相关词汇,获取主题关键词相关的初步主题词表;
[0040]相关信息获取模块,与所述主题关键词获取模块和所述初步主题词表获取模块通信连接,用于以用户主题关键词为主,初步主题词表为辅,依次检索抓取词语相关信息,获取包括结构化数据和非结构化文档数据的相关信息;
[0041]车机检索结果获取模块,与所述相关信息获取模块通信连接,用于融合结构化数据和非结构化数据,获取车机检索结果。
[0042]根据第二方面,在第二方面的第一种可能的实现方式中,所述主题关键词获取模块进一步包括:
[0043]用户指令获取子模块,用于获取用户指令;
[0044]词汇类型获取子模块,与所述用户执行获取子模块通信连接,用于判断用户指令的词汇类型;
[0045]第一主题关键词获取子模块,与所述用户指令获取子模块和所述词汇类型获取子模块通信连接,用于当用户指令的词汇类型为词语时,将该词语指令作为主题关键词;
[0046]第二主题关键词获取子模块,与所述用户指令获取子模块和所述词汇类型获取子模块通信连接,用于当用户指令的词汇类型为短句时,是被该短句指令,获取该短句指令相关的主体关键词。
[0047]根据第二方面,在第二方面的第二种可能的实现方式中,所述主题关键词相关词表获取模块进一步包括:
[0048]相关文本获取子本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于车机的信息检索方法,其特征在于,包括以下步骤:步骤S1、获取用户主题关键词;步骤S2、根据获取的用户主题关键词,获取主题关键词相关文本,构建主题关键词相关文本的LDA模型,获取主题关键词相关词表;步骤S3、以主题关键词相关词表为输入,经TF
‑
IDF模型过滤主题弱相关词汇,获取主题关键词相关的初步主题词表;步骤S4、以用户主题关键词为主,初步主题词表为辅,依次检索抓取词语相关信息,获取包括结构化数据和非结构化文档数据的相关信息;步骤S5、融合结构化数据和非结构化数据,获取车机检索结果。2.如权利要求1所述的用于车机的信息检索方法,其特征在于,所述步骤S1,具体包括以下步骤:S11、获取用户指令;S12、判断用户指令的词汇类型;S131、当用户指令的词汇类型为词语时,将该词语指令作为主题关键词;S132、当用户指令的词汇类型为短句时,识别该短句指令,获取该短句指令相关的主题关键词。3.如权利要求1所述的用于车机的信息检索方法,其特征在于,所述步骤S2,具体包括以下步骤:S21、根据获取的用户主题关键词,搜索引擎抓取主题关键词相关文本;S22、构建主题关键词相关文本的LDA模型,获取主题关键词相关词表。4.如权利要求1所述的用于车机的信息检索方法,其特征在于,所述步骤S3,具体包括以下步骤:构建矩阵,其中向量表示词汇集的容量,向量则表示文本集的容量;获取主题关键词相关词表中每个词出现的频数TF和包含该词的所有文本数的倒数IDF以及TF和IDF的乘积,并赋值乘积于矩阵中的对应位置;获取主题关键词相关词表中每个词在文本集中的IDF值;比对每个词的IDF值和IDF阈值;过滤掉影响因子分布结果中IDF值低于IDF阈值的词,获取主题关键词相关的初步主题词表。5.如权利要求1所述的用于车机的信息检索方法,其特征在于,所述步骤S4,具体包括以下步骤:步骤S41、构建策略网络;步骤S42、以用户主题关键词为主,初步主题词表为辅,经策略网络依次检索抓取词语相关信息,获取包括结构化数据和非结构化文档数据的相关信息。6.如权利要求5所述的用于车机的信息检索方法,其特征在于,所述步骤S41,具体包括以下步骤:步骤S411、获取待爬取服务类网页正文内容的主题相关性;步骤S412、获取待爬取服务类网页的链接权威性;
步骤S413、融合获取的主题相关性和链接权威性,获取优质网页的资源排序;步骤S414、...
【专利技术属性】
技术研发人员:李旭婕,詹修泓,罗凡,张焕期,张敬伟,
申请(专利权)人:东风汽车集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。