旅游实体名词匹配方法、系统、设备及存储介质技术方案

技术编号:36212316 阅读:28 留言:0更新日期:2023-01-04 12:08
本发明专利技术提供了旅游实体名词匹配方法、系统、设备及存储介质,该方法包括:基于旅游景点POI信息建立旅游实体名词词典;将所述旅游实体名词词典数据输入神经网络模型进行训练,并保存训练好的旅游实体名词预测匹配模型;以及将一待匹配的实体名词输入所述旅游实体名词词典和所述旅游实体名词预测匹配模型进行匹配,得到匹配输出。本发明专利技术能够对于旅游实体名词,根据匹配的相似度,优化实体词典匹配的结果,且针对词典覆盖不到的范围,利用模型的泛化预测能力,有效补充词典匹配结果缺失的情况。况。况。

【技术实现步骤摘要】
旅游实体名词匹配方法、系统、设备及存储介质


[0001]本专利技术涉及人工智能领域,具体地说,涉及旅游实体名词匹配方法、系统、设备及存储介质。

技术介绍

[0002]实体名词一般是表述文本中具有特定意义的实体,例如景点名称,城市名称,专有名词等。实体名词的匹配是问答系统、信息提取、句法分析等应用领域的重要基础。在旅游的搜索中,对景点POI(Point of Interest,兴趣点,指互联网电子地图中的点类数据)的描述是景点名称、地址等多个互相之间相关性并不高的文本。如果采用全部文本域中检索的方式,就可能会产生大量的误召回。因此做词典类型的结构化召回,只在景点名称相关文本域检索,从而只召回相关的景点,精准地满足了用户需求。
[0003]针对文本域问题的解决,最终落脚点仍旧是文本匹配。文本匹配是自然语言处理中的一个重要任务,通常以文本相似度计算和文本相关性计算的形式出现,在搜索引擎、智能问答、知识检索、信息流推荐等应用系统中起核心支撑作用。一般的,文本匹配任务的目标是给定一个搜索项和一些候选的文档,从这些文档中找出与搜索词最匹配的一个文档或者按照匹配度对文档进行排序。
[0004]在搜索场景下,一般先通过检索方法召回相关项,再对这些相关内容进行重排序,关键词在其中起到至关重要的作用。而搜索与召回的排序中,文本的匹配相关性是一个重要维度,因此判断两个文本的语义匹配的关系与匹配深度是一个主要的研究问题。
[0005]传统的文本匹配技术有VSM、TF

IDF、BM25、SimHash等算法,TF

IDF、BM25是词项层面的文本匹配;LSA、LDA等主题模型是语义层面的文本匹配。文本匹配任务也可看成推理任务,即判断文本A与文本B是否构成语义上的推理或者蕴含关系。给定一个描述前提的句子A和一个描述假设的句子B,若句子A描述的前提下,若句子B为真,那么就说文本A蕴含了B,或者说A可以推理出B;若B为假,就说文本A与B互相矛盾;若无法根据A得出B是真还是假,则说A与B互相独立,如果忽略第三种互相独立的状态,则可以转化为文本A和文本B的匹配状态。
[0006]基于词汇重合度的匹配算法有很大的局限性,比如“苹果”在不同的语境下表示不同的东西,可以是水果,也可以指代的是一家科技公司。对于文本匹配任务,不能只考虑字面匹配层面,还需要语义层面的匹配。而语义层面的匹配,主要解决的是语义的表示和计算问题。当前的文本匹配方法,通常是单一内容的匹配,与文本领域密切相关。对于景点名称搜索场景,文本呈现搜索词较短,召回产品有一定的限制范围。
[0007]因此,本专利技术提供了一种旅游实体名词匹配方法、系统、设备及存储介质。

技术实现思路

[0008]针对现有技术中的问题,本专利技术的目的在于提供旅游实体名词匹配方法、系统、设备及存储介质,克服了现有技术的困难,能够对于旅游实体名词,根据匹配的相似度,优化实体词典匹配的结果,且针对词典覆盖不到的范围,利用模型的泛化预测能力,有效补充词
典匹配结果缺失的情况。
[0009]本专利技术的实施例提供一种旅游实体名词匹配方法,包括以下步骤:
[0010]基于旅游景点POI信息建立旅游实体名词词典;
[0011]将所述旅游实体名词词典数据输入神经网络模型进行训练,并保存训练好的旅游实体名词预测匹配模型;以及
[0012]将一待匹配的实体名词输入所述旅游实体名词词典和所述旅游实体名词预测匹配模型进行匹配,得到匹配输出。
[0013]优选地,所述基于旅游景点POI信息建立旅游实体名词词典,包括:
[0014]基于旅游业务数据资源获取旅游实体名词和旅游实体资源数据;
[0015]分别计算所述旅游实体资源数据和所述旅游实体名词之间的匹配相似度,并分别根据所述匹配相似度对所述旅游实体资源数据进行排序;
[0016]设置所述匹配相似度的阈值用于划分所述旅游实体资源数据,将所述匹配相似度高于所述阈值的所述旅游实体资源数据作为成功匹配结果,将匹配相似度低于所述阈值的所述旅游实体资源数据作为失败匹配结果;以及
[0017]分别建立所述旅游实体名词、所述成功匹配结果和所述失败匹配结果之间的映射关系,并建立所述旅游实体名词词典。
[0018]优选地,所述将所述旅游实体名词词典数据输入神经网络模型进行训练,并保存训练好的旅游实体名词预测匹配模型,包括:
[0019]基于所述旅游实体名词词典获取所述旅游实体名词、所述成功匹配结果和所述失败匹配结果,建立训练数据集,并标注训练标签;
[0020]对所述训练数据集进行文本预处理;
[0021]将经过预处理的所述训练数据集和所述训练标签数据输入中文RoBERTa模型进行训练;以及
[0022]保存经过训练的所述中文RoBERTa模型,得到所述旅游实体名词预测匹配模型。
[0023]优选地,所述将一待匹配的实体名词输入所述旅游实体名词词典和所述旅游实体名词预测匹配模型进行匹配,得到匹配输出,包括:
[0024]将一待匹配的实体名词输入所述旅游实体名词词典进行匹配,得到第一匹配结果;
[0025]在所述第一匹配结果为成功匹配结果的情况下,将所述第一匹配结果作为匹配结果输出,在所述第一匹配结果为失败匹配结果的情况下,将所述待匹配的实体名词输入所述旅游实体名词预测匹配模型,得到第二匹配结果;以及
[0026]在所述第二匹配结果的所述匹配相似度高于所述阈值的情况下,将所述第二匹配结果作为匹配结果输出,在所述第二匹配结果的所述相似度低于所述阈值的情况下,输出失败匹配结果。
[0027]优选地,所述分别计算所述旅游实体资源数据和所述旅游实体名词之间的匹配相似度,并分别根据所述匹配相似度对所述旅游实体资源数据进行排序,包括:
[0028]对所述旅游景点实体名词进行分词处理,对所述各分词分别进行匹配,并将所述各分词的匹配相似度加权计算,最终获得所述旅游实体资源数据和所述旅游实体名词之间的匹配相似度。
[0029]优选地,所述将经过预处理的所述训练数据集和所述训练标签数据输入中文RoBERTa模型进行训练,包括:
[0030]基于中文RoBERTa模型预训练分别获得所述旅游实体名词、所述成功匹配结果和所述失败匹配结果的语义向量;
[0031]计算所述旅游实体名词、所述成功匹配结果和所述失败匹配结果的语义向量之间的匹配相似度;
[0032]基于所述匹配相似度进行匹配结果分类;以及
[0033]基于所述训练标签数据调整所述中文RoBERTa模型的参数。
[0034]优选地,所述对所述训练数据集进行文本预处理包括,处理文本中的符号。
[0035]本专利技术的实施例还提供一种旅游实体名词匹配系统,用于实现上述的旅游实体名词匹配方法,所述旅游实体名词匹配系统包括:
[0036]词典建立模块,基于旅游景点POI信息建立旅游实体名词词典;
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种旅游实体名词匹配方法,其特征在于,包括以下步骤:基于旅游景点POI信息建立旅游实体名词词典;将所述旅游实体名词词典数据输入神经网络模型进行训练,并保存训练好的旅游实体名词预测匹配模型;以及将一待匹配的实体名词输入所述旅游实体名词词典和所述旅游实体名词预测匹配模型进行匹配,得到匹配输出。2.如权利要求1所述的旅游实体名词匹配方法,其特征在于,所述基于旅游景点POI信息建立旅游实体名词词典,包括:基于旅游业务数据资源获取旅游实体名词和旅游实体资源数据;分别计算所述旅游实体资源数据和所述旅游实体名词之间的匹配相似度,并分别根据所述匹配相似度对所述旅游实体资源数据进行排序;设置所述匹配相似度的阈值用于划分所述旅游实体资源数据,将所述匹配相似度高于所述阈值的所述旅游实体资源数据作为成功匹配结果,将匹配相似度低于所述阈值的所述旅游实体资源数据作为失败匹配结果;以及分别建立所述旅游实体名词、所述成功匹配结果和所述失败匹配结果之间的映射关系,并建立所述旅游实体名词词典。3.如权利要求2所述的旅游实体名词匹配方法,其特征在于,所述将所述旅游实体名词词典数据输入神经网络模型进行训练,并保存训练好的神经网络模型,包括:基于所述旅游实体名词词典获取所述旅游实体名词、所述成功匹配结果和所述失败匹配结果,建立训练数据集,并标注训练标签;对所述训练数据集进行文本预处理;将经过预处理的所述训练数据集和所述训练标签数据输入中文RoBERTa模型进行训练;以及保存经过训练的所述中文RoBERTa模型,得到所述旅游实体名词预测匹配模型。4.如权利要求2所述的旅游实体名词匹配方法,其特征在于,所述将一待匹配的实体名词输入所述旅游实体名词词典和所述旅游实体名词预测匹配模型进行匹配,得到匹配输出,包括:将一待匹配的实体名词输入所述旅游实体名词词典进行匹配,得到第一匹配结果;在所述第一匹配结果为成功匹配结果的情况下,将所述第一匹配结果作为匹配结果输出,在所述第一匹配结果为失败匹配结果的情况下,将所述待匹配的实体名词输入所述旅游实体名词预测匹配模型,得到第二匹配结果;以及在所述第二匹配结...

【专利技术属性】
技术研发人员:陈辰赵华鞠剑勋李健
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1