一种基于微酒店平台的智能问答方法技术

技术编号:26065923 阅读:17 留言:0更新日期:2020-10-28 16:38
本发明专利技术公开了一种基于微酒店平台的智能问答方法,该方法利用Python爬取携程、途牛等网站公开发布的酒店信息,并对爬取数据进行预处理,构建知识图谱。在此基础上,对用户所提出的问题文本采用自然语言处理技术获取实体,使用word2vec词向量训练方法将该实体训练成词向量,并采用余弦相似度算法计算该实体节点对应的词向量与上述预处理数据建立的知识图谱之间的相似度,进而按相似度由高到低排序对用户问题进行答复,解决了传统问答算法答非所问,无法回答复杂语句的问题。本方法利用知识图谱对数据非常好的描述能力,实现本方法在具体应用中无需使用大量的质量高的问答语料,有利于提高包含复杂语义的自然语言问句的回答准确性。

【技术实现步骤摘要】
一种基于微酒店平台的智能问答方法
本专利技术涉及数据获取和知识图谱信息问答领域,具体是一种基于微酒店平台的智能问答方法。
技术介绍
当前智能问答系统的目标是充分运用相关技术,为每一个用户所提出的问题实现准确的答复,让每个用户更便捷的获取所需信息。另一方面,随着互联网的快速发展和个人计算机的广泛普及,越来越多的消息和数据通过超文本传输协议以电子文档的形式发布。于是,数据检索的速度和能力遇到了巨大的挑战。如何准确并及时地在浩如烟海的信息世界中获取用户所需的信息,已成为互联网发展至今的一大难题。搜索引擎技术是一种较成熟的信息检索技术,但是,随着互联网数据的疯狂增长,搜索引擎的缺点正在逐渐呈现。百度、谷歌、必应这类传统的搜索引擎,通常只能以关键词作为输入,对于普通用户而言,他们往往难以凝炼出少量的关键词来准确地表述其查询意图。此外,搜索引擎的返回结果不是一种简洁的准确答案,而是一个网页片段的列表。这些网页片段通常含有大师的噪声数据,用户仍然需要阅读这些网页片段乃至相应的原始网页,才能找到其所共需的答案。目前现有的大多数智能问答方法,均是面向搜索来实现信息检索的,其原理是通过搜索的方式来实现字符的比对,以此满足用户的需求。因此现在的大多数产品的搜索功能不是很精准,难以处理较为复杂的数据,以至于最后对用户所提问题的答复远远达不到用户的要求,出现“答非所问”的情况。
技术实现思路
为了完善现有技术中存在的不足,本专利技术提供了一种基于微酒店平台的智能问答方法,该方法通过网络爬虫对酒店数据进行爬取,建立知识图谱,提高答复效率和答复准确度。实现本专利技术目的的技术方案是:一种基于微酒店平台的智能问答方法,包括如下步骤:(1)爬取酒店公开公布的相关数据:利用Selenium爬取酒店位置、评分、类别、评价等相关数据,并对所爬取的数据进行清洗、加工,再将处理过的数据信息存储至数据库,形成结构化的数据,用于构建知识图谱;(2)构建基于酒店信息的知识图谱:从步骤(1)的结构化数据中提取出实体、属性以及实体间的相互关系,形成本体化的知识表达,并将获得的实体链接和知识合并进行整合,对经过融合的新知识进行质量评估,将合格的部分加入到知识库中,新增数据后进行知识推理,拓展现有知识;采用自底向上的方式构建知识图谱,每一轮迭代更新,重复,获得基于酒店信息的知识图谱中的实体节点及属性;(3)获取问题实体节点并训练:对用户所提出的问题文本采用命名实体识别技术处理,并获取若干实体节点采用word2vec中skip-gram模型对该若干实体节点进行训练学习、提取特征后,得到对应实体节点对应的词向量;(4)计算实体节点之间关联度及完成问答:将步骤(3)获取的若干实体节点对应的词向量与步骤(2)构建的酒店信息知识图谱中的实体节点进行相似度计算,得到相似度值;按照由高到低的顺序对得到的相似度值进行排序;输出相似度最高的实体节点,完成用户问题的答复。步骤(1)中所述酒店位置、评分、类别、评价等数据来源于携程、途牛等网站公开发布的酒店数据。步骤(1)所述的清洗、加工方法包括:1)数据清理:当爬取的数据有缺失值、噪声数据时,通过使用一个全局变量填充缺失值或使用属性的中心度量填充缺失值等方法来填充数据,通过分箱、回归、离群点分析等方法去除噪声;2)数据集成:将来自多个数据源的数据去重,集成到一起,形成数据集;3)数据规约:将数据集将维规约或数据规约简化表示。步骤(4)所述的相似度计算,是采用余弦相似度算法计算实体节点的词向量之间的关联度,其中,余弦相似度算法公式如下:公式(1)中,A为实体1所对应的向量,B为实体2所对应的向量,Ai为实体1对应向量的第i个维度的值,Bi为实体2对应向量的第i个维度的值。本专利技术基于微酒店平台,以自然语言作为输入与输出的问答系统,用户能够以文本方式,使用自然语言直接地表达其查询需求,通过问答方法理解用户的查询意图后,通过一系列的检索、分析与处理,直接将以自然语言形式表述的准确答案返回给用户;该方法通过网络爬虫对酒店各项数据进行获取,便捷且适用性强;采用的余弦相似度算法能确保节点与节点之间有足够的关联性;将问答对应与知识图谱相结合,提升了问答服务的准确性和可解释性,对满足用户准确问答的需求起到推进作用,数据来源获取简单,采用文本训练方法,技术成熟,方法简单且行之有效、准确度高,适用性强。附图说明图1为本专利技术实施例中酒店平台获取信息的选定示意图(如酒店名称、位置、附近景点、评分及价格等);图2为本专利技术实施例构建部分基于酒店信息的知识图谱结构示意图;图3为本专利技术实施例待提取实体节点的输入问题文本示意图;图4为本专利技术实施例基于微酒店平台的智能问答方法的方法流程图。具体实施方式为了能够更清楚了解本专利技术的技术方案,使本领域的技术人员能依照说明书的内容予以实施,同时为了使本专利技术的目的、特征能够更浅显易懂,以下结合优先实施例,并配合附图进行详细说明。实施例:一种基于微酒店平台的智能问答方法,包括以下步骤:1)爬取相关网站如携程、去哪儿网等官方网站公开发布的酒店相关信息:1-1)利用Selenium爬取酒店名称位置、评价等相关信息,如图1,在携程页面公开发布的酒店信息中抽取酒店名称、附近景点、评分以及价格,如“花筑厦门Lin墅”、“鼓浪屿”、“4.8分”、“181”,可将此信息作为一条记录存储到数据库中;1-2)对所爬取的数据进行清洗、加工,得到关于酒店的有效真实数据;1-3)将处理过的信息存储到数据库中,形成结构化数据以便构建知识图谱;2)构建基于酒店信息的知识图谱,如图2所示:2-1)信息抽取:从步骤1)中的数据库中提取出实体,如酒店名称“灵玲大酒店”、附近景点“鼓浪屿”、属性“评分”等以及实体间的相互关系,形成本体化的知识表达;2-2)知识融合:获得新知识后进行整合,包括实体链接和知识合并;2-3)知识加工:对经过融合的新知识进行质量评估,合格的部分加入到知识库中,新增数据之后,进行知识推理,拓展现有知识;2-4)采用自底向上的方式构建知识图谱,每一轮迭代更新,重复步骤2-1)-步骤2-4),获得基于酒店信息的知识图谱中的实体节点及属性;3)获取问题文本如附图说明图3,提取实体节点并训练:3-1)对问题对应的文本用命名实体识别技术处理提取出实体节点,例如在图3的问题文本中可提取出实体节点“厦门”、“鼓浪屿”、“酒店”;3-2)采用word2vec中skip-gram模型对上述实体节点进行训练;3-3)训练学习、提取特征后,得到实体节点一一对应的词向量;4)计算步骤2)和步骤3)分别所获实体节点之间关联度及完成问答:4-1)将步骤3)获取的实体节点的词向量与步骤2)构建的酒店信息知识图谱中的实体节点采用余弦相似度算法进行相似度计算,得到相似本文档来自技高网...

【技术保护点】
1.一种基于微酒店平台的智能问答方法,包括如下步骤:/n(1)爬取酒店公开公布的相关数据:利用Selenium爬取酒店位置、评分、类别、评价的相关数据,并对所爬取的数据进行清洗、加工,再将处理过的数据信息存储至数据库,形成结构化的数据,用于构建知识图谱;/n(2)构建基于酒店信息的知识图谱:从步骤(1)的结构化数据中提取出实体、属性以及实体间的相互关系,形成本体化的知识表达,并将获得的实体链接和知识合并进行整合,对经过融合的新知识进行质量评估,将合格的部分加入到知识库中,新增数据后进行知识推理,拓展现有知识;采用自底向上的方式构建知识图谱,每一轮迭代更新,重复,获得基于酒店信息的知识图谱中的实体节点及属性;/n(3)获取问题实体节点并训练:对用户所提出的问题文本采用命名实体识别技术处理,并获取若干实体节点采用word2vec中skip-gram模型对该若干实体节点进行训练学习、提取特征后,得到对应实体节点对应的词向量;/n(4)计算实体节点之间关联度及完成问答:将步骤(3)获取的若干实体节点对应的词向量与步骤(2)构建的酒店信息知识图谱中的实体节点进行相似度计算,得到相似度值;按照由高到低的顺序对得到的相似度值进行排序;输出相似度最高的实体节点,完成用户问题的答复。/n...

【技术特征摘要】
1.一种基于微酒店平台的智能问答方法,包括如下步骤:
(1)爬取酒店公开公布的相关数据:利用Selenium爬取酒店位置、评分、类别、评价的相关数据,并对所爬取的数据进行清洗、加工,再将处理过的数据信息存储至数据库,形成结构化的数据,用于构建知识图谱;
(2)构建基于酒店信息的知识图谱:从步骤(1)的结构化数据中提取出实体、属性以及实体间的相互关系,形成本体化的知识表达,并将获得的实体链接和知识合并进行整合,对经过融合的新知识进行质量评估,将合格的部分加入到知识库中,新增数据后进行知识推理,拓展现有知识;采用自底向上的方式构建知识图谱,每一轮迭代更新,重复,获得基于酒店信息的知识图谱中的实体节点及属性;
(3)获取问题实体节点并训练:对用户所提出的问题文本采用命名实体识别技术处理,并获取若干实体节点采用word2vec中skip-gram模型对该若干实体节点进行训练学习、提取特征后,得到对应实体节点对应的词向量;
(4)计算实体节点之间关联度及完成问答:将步骤(3)获取的若干实体节点对应的词向量与...

【专利技术属性】
技术研发人员:钟艳如曹良斌甘才军李芳罗笑南
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1