景点名称文本相似性检测方法、系统、设备及存储介质技术方案

技术编号:25042235 阅读:18 留言:0更新日期:2020-07-29 05:32
本发明专利技术提供了一种景点名称文本相似性检测方法、系统、设备及存储介质,该相似性检测方法包括如下步骤:获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;对各条所述地理兴趣点数据进行分词;根据建立的停用库去掉各条所述地理兴趣点数据中的停用词;计算每两条所述地理兴趣点数据之间的相似度;根据相似度合并重复的所述地理兴趣点数据。本发明专利技术方法通过建立停用词库,根据具体场景建立停用词库对数据库做重复文件检查,尤其是景点名称文本数据库,可以有效地去除重复的地理兴趣点数据,提高数据库的数据质量。

【技术实现步骤摘要】
景点名称文本相似性检测方法、系统、设备及存储介质
本专利技术涉及互联网领域,具体地说,涉及一种景点名称文本相似性检测方法、系统、设备及存储介质。
技术介绍
检测重复文本就必然涉及文本的相似性计算,编辑距离是计算文本相似性的一种方法,常用的用编辑距离计算相似性的有Levenshtein距离、Jaro距离、Jaro-Winkler距离等。简单来说,编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,Levenshtein距离允许的编辑操作包括替换、插入、删除。编辑距离越大,相似性越低。但是,使用编辑距离计算相似性这种方法存在的问题是没有考虑文本中每个词的重要性程度。比如“海洋之窗”和“北海·海洋之窗”实际上是同一个点,但由于第二个字符串中“北海·”的存在,导致编辑距离变大,相似性降低。直观上解决该问题的方法是去掉标点符号及一些重要性较弱的词,这类些重要性较弱的词称之为停用词。一般停用词都可采用现有的词典,但现有的词典可能不能适用于具体的应用场景,比如在计算同一个城市的景点名称重复的场景下,城市名称可以作为停用词,但现有的停用词库不一定包括特定的城市名称。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
针对现有技术中的问题,本专利技术的目的在于提供了一种景点名称文本相似性检测方法、系统、设备及存储介质,景点名称文本相似性检测方法根据景点名称相关数据库,首先建立停用词库,通过所建停用词库有效地去除重复的地理兴趣点数据,提高数据库的数据质量。本专利技术的实施例提供了一种景点名称文本相似性检测方法,其特征在于,包括以下步骤:获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;对各条所述地理兴趣点数据进行分词;根据建立的停用库去掉各条所述地理兴趣点数据中的停用词;计算每两条所述地理兴趣点数据之间的相似度;根据相似度合并重复的所述地理兴趣点数据。根据本专利技术的一示例,所述停用词库的建立方法包括如下步骤:获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;对各条所述地理兴趣点数据进行分词;分别计算分词后的每个词语的TF-DF值,其中,TF值采用如下计算步骤:统计地理兴趣点数据库在分词后的全部词语数量Sum;统计某个词语在地理兴趣点数据库中出现的次数N;TF=N/Sum;DF值采用如下计算步骤:统计地理兴趣点数据库的短文本数量Count;统计包含某个词语的短文本数量C;DF=C/Count;每个词语的TF-DF值可以采用如下公式:TF-DF=TF*DF;取TF-DF值大于第一阈值的词语建立停用词库。根据本专利技术的一示例,每条所述地理兴趣点数据至少包括地理兴趣点名称和地理兴趣点地址两种参数。根据本专利技术的一示例,每条所述地理兴趣点数据还包括地理兴趣点经度、地理兴趣点纬度和地理兴趣点电话中的一种或多种参数。根据本专利技术的一示例,所述计算每两条所述地理兴趣点数据的相似度,包括如下步骤:至少分别计算每两条所述地理兴趣点数据的地理兴趣点名称相似度和地理兴趣点地址相似度。根据本专利技术的一示例,所述根据相似度合并重复的所述地理兴趣点数据,包括如下步骤:判断每两条所述地理兴趣点名称相似度是否大于第二阈值,以及判断每两条所述地理兴趣点地址相似度是否大于第三阈值;如是,则合并重复的所述地理兴趣点数据。本专利技术的实施例还提供了一种景点名称文本相似性检测系统,用于实现上述的特征在于景点名称文本相似性检测方法,包括数据获取模块、分词模块、停用库模块和检测模块,其中:所述数据获取模块用于获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;所述分词模块用于对各条所述地理兴趣点数据进行分词;所述停用库模块根据建立的停用库去掉各条所述地理兴趣点数据中的停用词;所述检测模块用于计算计算每两条所述地理兴趣点数据之间的相似度;并根据相似度合并重复的所述地理兴趣点数据。根据本专利技术的一示例,所述停用库模块还用于建立停用词库,所述建立停用词库包括如下步骤:所述数据获取模块获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;所述分词模块用于对各条所述地理兴趣点数据进行分词;所述停用库模块用于分别计算分词后的每个词语的TF-DF值,其中,TF值采用如下计算步骤:统计地理兴趣点数据库在分词后的全部词语数量Sum;统计某个词语在地理兴趣点数据库中出现的次数N;TF=N/Sum;DF值采用如下计算步骤:统计地理兴趣点数据库的短文本数量Count;统计包含某个词语的短文本数量C;DF=C/Count;每个词语的TF-DF值可以采用如下公式:TF-DF=TF*DF;所述停用库模块还用于取TF-DF值大于第一阈值的词语建立停用词库。本专利技术的实施例还提供了一种订单生成设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述景点名称文本相似性检测方法的步骤。本专利技术的实施例还提供了一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现所述景点名称文本相似性检测方法的步骤。本专利技术方法通过建立停用词库,根据具体场景建立停用词库对数据库做重复文件检查,尤其是景点名称文本数据库,可以有效地去除重复的地理兴趣点数据,提高数据库的数据质量。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例的景点名称文本相似性检测方法的流程图;图2为本专利技术一实施例的停用词库的建立方法的流程图;图3为本专利技术一实施例的计算TF-DF值的流程图;图4为本专利技术一实施例的景点名称文本相似性检测系统的结构示意图;图5为本专利技术一实施例的景点名称文本相似性检测设备的结构示意图;图6为本专利技术一实施例的计算机可读存储介质的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合本文档来自技高网...

【技术保护点】
1.一种景点名称文本相似性检测方法,其特征在于,包括以下步骤:/n获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;/n对各条所述地理兴趣点数据进行分词;/n根据建立的停用库去掉各条所述地理兴趣点数据中的停用词;/n计算每两条所述地理兴趣点数据之间的相似度;/n根据相似度合并重复的所述地理兴趣点数据。/n

【技术特征摘要】
1.一种景点名称文本相似性检测方法,其特征在于,包括以下步骤:
获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;
对各条所述地理兴趣点数据进行分词;
根据建立的停用库去掉各条所述地理兴趣点数据中的停用词;
计算每两条所述地理兴趣点数据之间的相似度;
根据相似度合并重复的所述地理兴趣点数据。


2.根据权利要求1所述的景点名称文本相似性检测方法,其特征在于,所述停用词库的建立方法包括如下步骤:
获取地理兴趣点数据库,所述地理兴趣点数据库包括多条地理兴趣点数据;
对各条所述地理兴趣点数据进行分词;
分别计算分词后的每个词语的TF-DF值,其中,TF值采用如下计算步骤:
统计地理兴趣点数据库在分词后的全部词语数量Sum;
统计某个词语在地理兴趣点数据库中出现的次数N;
TF=N/Sum;
DF值采用如下计算步骤:
统计地理兴趣点数据库的短文本数量Count;
统计包含某个词语的短文本数量C;
DF=C/Count;
每个词语的TF-DF值可以采用如下公式:TF-DF=TF*DF;
取TF-DF值大于第一阈值的词语建立停用词库。


3.根据权利要求1所述的景点名称文本相似性检测方法,其特征在于,每条所述地理兴趣点数据至少包括地理兴趣点名称和地理兴趣点地址两种参数。


4.根据权利要求3所述的景点名称文本相似性检测方法,其特征在于,每条所述地理兴趣点数据还包括地理兴趣点经度、地理兴趣点纬度和地理兴趣点电话中的一种或多种参数。


5.根据权利要求4所述的景点名称文本相似性检测方法,其特征在于,所述计算每两条所述地理兴趣点数据的相似度,包括如下步骤:
至少分别计算每两条所述地理兴趣点数据的地理兴趣点名称相似度和地理兴趣点地址相似度。


6.根据权利要求5所述的景点名称文本相似性检测方法,其特征在于,所述根据相似度合并重复的所述地理兴趣点数据,包括如下步骤:
判断每两条地理兴趣点数据的地理兴趣点名称相似度是否大于第二阈值,以及
判断每两条地理兴趣点...

【专利技术属性】
技术研发人员:李玲田乾章陈剑明
申请(专利权)人:上海携程商务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1