一种不同信息源的房产数据同一性判别方法技术

技术编号:21547980 阅读:27 留言:0更新日期:2019-07-06 21:29
本发明专利技术涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。

A Method for Identity Discrimination of Real Estate Data from Different Information Sources

【技术实现步骤摘要】
一种不同信息源的房产数据同一性判别方法
本专利技术涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘

技术介绍
房地产是国民经济的重要承载体,是我国极为重要的支柱产业。房地产市场状况与价格走势不仅关乎国民经济的整体发展,更牵动和影响着人民的生活水平,近年来房地产市场“风云变幻”,已经成了社会关注的焦点和热点。如何加强监控房地产市场、分析房地产价格走势已经成为一个重要课题。随着我国房地产市场逐步走向成功,二手房市场的核心地位已日益突显,其主导整个市场的能力逐渐增强,特别是北京、上海等城市,其二手房交易量已经占据了大部分房产市场的交易量。关于二手房的交易,随着房地产市场的快速发展和互联网技术的广泛应用,目前网上已有很多房屋交易网站,如链家、我爱我家、中原地产等。这些房屋交易网站为购房者和售房者提供了便利的网络交易平台,售房者在这些网络平台上发布售房信息,购房者在平台上进行交易。由于其操作便捷,信息来源广等特点,这种网络交易方式也越来越受大众的青睐。在这些房屋交易平台发布的数据中,真实的反映了房地产市场状态。并且房屋交易网站覆盖面广,反映的信息实时性强。因此,如何利用这些实时的房屋交易网站上的房产信息进行分析,能更加准确地掌握房产市场情况。如何通过房屋交易网站的数据,对房地产市场分析,已经成为一个分析房地产市场的重要方法。很多房地产研究机构已经认识到房屋交易网站平台发布的房地产信息中所蕴含的价值,纷纷开始利用这些数据展开研究,分析房地产市场走势。例如链家研究院利用链家网站上的房屋交易信息,进行了房地产市场分析,取得了较好的效果。但是其研究的房屋交易范围在本网站的交易数据。也有许多机构开始通过抓取房地产交易网站中的数据,开展研究工作,为房地产市场分析提供了新的研究思路。较好的做法是综合各房地产交易网站中公布的房产交易数据,进行整体分析,能更加真实的反映房地产市场的状态。但是在汇聚多源地产交易网站的房屋数据时,存在同一用户,将同一房屋在不同网站发布房源信息的情况,甚至还有可能将同一房屋在发布到同一网站中。因此在进行房地产市场分析时,必须要对来自多源网站的房屋信息的同一性进行判别,将其中重复房屋剔除,房地产分析系统才能有效使用。在各房地产交易网站发布的房屋信息中,包含了待交易房屋的详细特征。如所在小区/位置、房价、楼层、面积、价格等。可以从抽取房屋关键特征入手,分析房屋的关键特征信息,并以此判别房屋的同一性,剔除重复房屋,为房产市场分析、研究提供准确的、可靠的数据基础。目前有许多的研究者在数据去重领域进行广泛研究,也提出了许多的方法。在这些研究方法中,研究者提出的去重方法,许多都是对通用的文本数据(文档)去重的方法,其基本思路,面向文本数据,计算文本之间的相似度,然后进行去重。但是目前,还没有针对融合多源房地产网站的房屋数据进行去重的方法。房地产交易网站公布的房屋数据,属于半结构化的数据,其中包含了丰富的房屋特征,例如所属小区、面积、所在楼层等,如果采用对网页文本进行判别,则会降低判断的准确性。因此本方明针对房地产交易网站公布的房屋信息,抽取房屋的关键特征,对多源房屋数据的同一性进行判别,去掉重复房屋。以融合这些多源、异构房屋数据,为房地产市场分析提供可以使用准确、有效的数据集,为房地产市场分析提供数据支持。
技术实现思路
本专利技术的目的在于针对现有房产数据信息源众多、信息混乱且判别准则不明朗的技术缺陷,提出了一种不同信息源的房产数据同一性判别方法,所述房产数据同一性判别方法基于已有多源及异构房地产交易网站公布的房屋数据,分析房屋特征,对房屋的同一性进行判别,剔除重复房屋;产生的数据集可用于房地产分析等相关
本专利技术的核心思想是基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,更加有效的融合多房屋交易平台的网站数据,为对房地产市场分析提供准确、有效的数据支撑。其中,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性;不同网站发布的房屋数据,虽然描述不尽相同,但描述对象为同一房屋时,存在如下相关性:1、房屋地址相同:房屋的地址体现在所在的小区是同一个小区,所在的楼栋属于同一个楼栋;由于很少有网站公布房屋所在楼栋的信息,因此在这方面的判断可以采用所在楼栋的楼层高来判断;2、房屋的基本属性相同:房屋的基本属性包括房屋面积、户型以及朝向;3、业主的期望相同:业主在出租以及销售房屋时,对房屋的价格期望是一致的,因此可用其挂牌价格判断。本专利技术是通过以下技术方案实现的:所述房产数据同一性判别方法,包括如下步骤:步骤1)针对不同网站对同一城市下的相同区域描述存在差异进行区域去重;进行区域判别的原因为:各房屋交易网站的数据均采用一种“城市—>区域—>小区—>房屋”的层次结构;为了确定房屋的位置,要确定房屋所在的小区是否为同一小区,而确定某个小区时,先要确定小区所在的城市区域为同一区域,以提高判别的准确性和效率;对区域的判别,通过区域名称来判断是否是同一个区域;通过对房屋交易网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加类似“区”、“县”后缀;即:区域名称构成具有较强的规律性,可以采用规则的方法对其判别;步骤1)又包括如下子步骤:步骤1-1)为了后续统计及分析方便,建立区域信息表,并在该表中设定字段保存从网站采集的区域所在城市和区域名称,以及区域的别名字段和别名来源优先级字段;区域的别名字段用于标识区域的名称,在对区域操作时,通过区域的别名是否相同,判断是否是同一区域。别名来源优先级用于对别名字段更新的判断;步骤1-2)确定房地产网站的优先级;其中,网站源优先级分别为0、1、2,数字越小,优先级越高;步骤1-3)按照步骤1-2)设定的房地产网站优先级,查询相同城市下的所有区域。将查询得到区域列表两两比较,比较的方法方式是判断区域的名称是否相似,依据判断的结果更新区域的别名,具体为:其中判断区域的名称是否相似,采用规则的方法判断;根据各网站对区域名称的特点,书写判别规则,然后使用判别规则对待判断的区域名称进行判定,如果判定两小区的名称相同,则按照下面的规则更新区域的名称。设当前比较的区域为A、B,若A区域和B区域的名称匹配成功,再判断A、B的别名是否赋值:若A、B的别名都未赋值进行1-3A)操作;若A的别名已赋值且B的别名未赋值进行1-3B)操作;若A的别名未赋值且B的别名已赋值进行1-3C)操作;若A、B的别名已赋值进行1-3D)操作;1-3A)获取A区域的来源网站的优先级λa,B区域的来源网站的优先级λb。如果λa大于λb,则将B区域的名称作为A区域的别名,λb作为A区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);反之,将A区域的名称作为B区域的别名,λa作为B区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);1-3B)获取A区域的别名来源优先级λa’,B区域的来源网站的优先级λb。如果λb大于λa’,将A的别名本文档来自技高网
...

【技术保护点】
1.一种不同信息源的房产数据同一性判别方法,其特征在于:所述房产数据同一性判别方法基于已有多源及异构房地产交易网站公布的房屋数据,分析房屋特征,对房屋的同一性进行判别,剔除重复房屋;具体基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据;其中,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性;不同网站发布的房屋数据,虽然描述不尽相同,但描述对象为同一房屋时,存在如下相关性:A、房屋地址相同:房屋的地址体现在所在的小区是同一个小区,所在的楼栋属于同一个楼栋;由于很少有网站公布房屋所在楼栋的信息,因此在这方面的判断可以采用所在楼栋的楼层高来判断;B、房屋的基本属性相同:房屋的基本属性包括房屋面积、户型以及朝向;C、业主的期望相同:业主在出租以及销售房屋时,对房屋的价格期望是一致的,因此可用其挂牌价格判断;所述房产数据同一性判别方法,包括如下步骤:步骤1)针对不同网站对同一城市下的相同区域描述存在差异进行区域去重;对区域的判别,通过区域名称来判断是否是同一个区域;通过对房屋交易网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加后缀;步骤1)又包括如下子步骤:步骤1‑1)为了后续统计及分析方便,建立区域信息表,并在该表中设定字段保存从网站采集的区域所在城市和区域名称,以及区域的别名字段和别名来源优先级字段;区域的别名字段用于标识区域的名称,在对区域操作时,通过区域的别名是否相同,判断是否是同一区域;别名来源优先级用于对别名字段更新的判断;步骤1‑2)确定房地产网站的优先级;其中,网站源优先级分别为0、1、2,数字越小,优先级越高;步骤1‑3)按照步骤1‑2)设定的房地产网站优先级,查询相同城市下的所有区域;将查询得到区域列表两两比较,比较的方法方式是判断区域的名称是否相似,依据判断的结果更新区域的别名,具体为:其中判断区域的名称是否相似,采用规则的方法判断;根据各网站对区域名称的特点,书写判别规则,然后使用判别规则对待判断的区域名称进行判定,如果判定两小区的名称相同,则按照下面的规则更新区域的名称:设当前比较的区域为A、B,若A区域和B区域的名称匹配成功,再判断A、B的别名是否赋值:若A、B的别名都未赋值进行1‑3A)操作;若A的别名已赋值且B的别名未赋值进行1‑3B)操作;若A的别名未赋值且B的别名已赋值进行1‑3C)操作;若A、B的别名已赋值进行1‑3D)操作;1‑3A)获取A区域的来源网站的优先级λa,B区域的来源网站的优先级λb;如果λa大于λb,则将B区域的名称作为A区域的别名,λb作为A区域的别名来源优先级,保存在区域信息表,跳至步骤1‑4);反之,将A区域的名称作为B区域的别名,λa作为B区域的别名来源优先级,保存在区域信息表,跳至步骤1‑4);1‑3B)获取A区域的别名来源优先级λa’,B区域的来源网站的优先级λb;如果λb大于λa’,将A的别名作为B的别名,λa’作为B的别名来源优先级,跳至步骤1‑4);反之,将A的别名更新为B的名称,将A区域的别名来源优先级更新为λb,跳至步骤1‑4);1‑3C)获取B区域的别名来源优先级λb’,A区域的来源网站的优先级λa;如果λa大于λb’,将B的别名作为A的别名,λb’作为A的别名来源优先级,跳至步骤1‑4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λb,跳至步骤1‑4);1‑3D)获取B区域的别名来源优先级λb’,A区域的别名来源优先级λa’;如果λa’大于λb’,将A的别名更新为B的别名,将A的别名来源优先级更新为λb’,跳至步骤1‑4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λa’,跳至步骤1‑4);步骤1‑4)通过步骤1‑3)比较区域名称并匹配完毕后,将所有区域别名字段为NULL的区域的别名赋值为区域名;步骤1‑5)以区域信息表中的区域别名作为依据进行城市区域的查询和统计;步骤2)小区去重,即针对城市区域中的小区进行同一性判别,具体包括如下子步骤:步骤2‑1)建立小区查重表,保存判别为相同小区的小区标识,该表中设立两个字段:比中源小区标识和比中目标小区标识;其中,小区标识为小区的ID;步骤2‑2)按照步骤1‑2)确定的网站优先级,根据区域信息表,搜索小区表中区域别名相同的小区,并两两比较小区的特征,设待比较的小区为C1、C2,具体包括如下子步骤:步骤2‑2‑1)计算小区位置差异度,具体采用公式(1)计算:小区位置差异度=|小区经度差|+|小区纬度差|  (1)其中,|小区经度差|表...

【技术特征摘要】
1.一种不同信息源的房产数据同一性判别方法,其特征在于:所述房产数据同一性判别方法基于已有多源及异构房地产交易网站公布的房屋数据,分析房屋特征,对房屋的同一性进行判别,剔除重复房屋;具体基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据;其中,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性;不同网站发布的房屋数据,虽然描述不尽相同,但描述对象为同一房屋时,存在如下相关性:A、房屋地址相同:房屋的地址体现在所在的小区是同一个小区,所在的楼栋属于同一个楼栋;由于很少有网站公布房屋所在楼栋的信息,因此在这方面的判断可以采用所在楼栋的楼层高来判断;B、房屋的基本属性相同:房屋的基本属性包括房屋面积、户型以及朝向;C、业主的期望相同:业主在出租以及销售房屋时,对房屋的价格期望是一致的,因此可用其挂牌价格判断;所述房产数据同一性判别方法,包括如下步骤:步骤1)针对不同网站对同一城市下的相同区域描述存在差异进行区域去重;对区域的判别,通过区域名称来判断是否是同一个区域;通过对房屋交易网站中对区域命名的特点,以及人们对区域的称呼习惯的分析,一般对区域的称谓,都有一个“核心词”;有些就直接以该“核心词”命名,有些在“核心词”的后面附加后缀;步骤1)又包括如下子步骤:步骤1-1)为了后续统计及分析方便,建立区域信息表,并在该表中设定字段保存从网站采集的区域所在城市和区域名称,以及区域的别名字段和别名来源优先级字段;区域的别名字段用于标识区域的名称,在对区域操作时,通过区域的别名是否相同,判断是否是同一区域;别名来源优先级用于对别名字段更新的判断;步骤1-2)确定房地产网站的优先级;其中,网站源优先级分别为0、1、2,数字越小,优先级越高;步骤1-3)按照步骤1-2)设定的房地产网站优先级,查询相同城市下的所有区域;将查询得到区域列表两两比较,比较的方法方式是判断区域的名称是否相似,依据判断的结果更新区域的别名,具体为:其中判断区域的名称是否相似,采用规则的方法判断;根据各网站对区域名称的特点,书写判别规则,然后使用判别规则对待判断的区域名称进行判定,如果判定两小区的名称相同,则按照下面的规则更新区域的名称:设当前比较的区域为A、B,若A区域和B区域的名称匹配成功,再判断A、B的别名是否赋值:若A、B的别名都未赋值进行1-3A)操作;若A的别名已赋值且B的别名未赋值进行1-3B)操作;若A的别名未赋值且B的别名已赋值进行1-3C)操作;若A、B的别名已赋值进行1-3D)操作;1-3A)获取A区域的来源网站的优先级λa,B区域的来源网站的优先级λb;如果λa大于λb,则将B区域的名称作为A区域的别名,λb作为A区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);反之,将A区域的名称作为B区域的别名,λa作为B区域的别名来源优先级,保存在区域信息表,跳至步骤1-4);1-3B)获取A区域的别名来源优先级λa’,B区域的来源网站的优先级λb;如果λb大于λa’,将A的别名作为B的别名,λa’作为B的别名来源优先级,跳至步骤1-4);反之,将A的别名更新为B的名称,将A区域的别名来源优先级更新为λb,跳至步骤1-4);1-3C)获取B区域的别名来源优先级λb’,A区域的来源网站的优先级λa;如果λa大于λb’,将B的别名作为A的别名,λb’作为A的别名来源优先级,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λb,跳至步骤1-4);1-3D)获取B区域的别名来源优先级λb’,A区域的别名来源优先级λa’;如果λa’大于λb’,将A的别名更新为B的别名,将A的别名来源优先级更新为λb’,跳至步骤1-4);反之,将B的别名更新为A的名称,将B区域的别名来源优先级更新为λa’,跳至步骤1-4);步骤1-4)通过步骤1-3)比较区域名称并匹配完毕后,将所有区域别名字段为NULL的区域的别名赋值为区域名;步骤1-5)以区域信息表中的区域别名作为依据进行城市区域的查询和统计;步骤2)小区去重,即针对城市区域中的小区进行同一性判别,具体包括如下子步骤:步骤2-1)建立小区查重表,保存判别为相同小区的小区标识,该表中设立两个字段:比中源小区标识和比中目标小区标识;其中,小区标识为小区的ID;步骤2-2)按照步骤1-2)确定的网站优先级,根据区域信息表,搜索小区表中区域别名相同的小区,并两两比较小区的特征,设待比较的小区为C1、C2,具体包括如下子步骤:步骤2-2-1)计算小区位置差异度,具体采用公式(1)计算:小区位置差异度=|小区经度差|+|小区纬度差|(1)其中,|小区经度差|表示C1的经度与C2的经度差的绝对值,|小区纬度差|表示C1的纬度与C2的纬度差的绝对值;如果C1、C2没有经纬度信息,则小区位置差异度为0;步骤2-2-2)计算小区面积相似度,具体采用公式(2)计算:小区面积相似度=|1-|小区面积差|/Min(小区面积)|(2)其中,|小区面积差|表示C1的小区面积与C2的小区面积差的绝对值;Min(小区面积)表示C1的小区面积与C2的小区面积中的较小值,如果两者相等,则为C1的小区面积;如果没有建筑面积信息,则小区面积相似度为1;步骤2-2-3)计算小区总户数相似度,具体采用公式(3)计算:小区总户数相似度=|1-|小区总户数差|/Min(小区总户数)|(3)其中,|小区总户数差|表示C1的小区总户数与C2的小区总户数差的绝对值;Min(小区总户数)表示C1的小区总户数与C2的小区总户数中的较小值,如果两者相等,则为C1的小区总户数;如果小区没有总户数信息,则小区总户数相似度为1;步骤2-2-4)计算小区名称的相似度,具体采用公式(4)计算:小区名称相似度=1-(eDistance/maxlength(小区名称))(4)其中,eDistance是C1的小区名称与C2的小区名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的小区名称转换成C2的小区名称所需要的最少操作步骤数;maxlength(小区名称)是C1的小区名称的长度与C2的小区名称长度的较大值,如果两者相等,则为C1的小区名称的长度;步骤2-2-5)计算小区物业公司名称的相似度,具体采用公式(5)计算:1-(eDistance/maxlength(小区物业公司名称))(5)其中,eDistance是C1的物业公司名称与C2的物业公司名称的字符串编辑距离,计算方法为,采用插入、修改、删除一个字符的方法,把C1的物业公司名称转换成C2的物业公司名称所需要的最少操作步骤数;maxlength(小区物业公司名称)是C1的物业公司名称的长度与C2的物业公司名称长度的较大值,如果两者相等,则为C1的物业公司名称的长度;步骤2-3)利用步骤2-2中计算的小区特征的相似度,判断小区的同一性;如果小区位置差异度小于设定的阈值T1,并且面积相似度、总户数相似度大于设定的阈值T2、小区名称、物业公司名称的相似度大于设定的阈值T3,则判定为是同一小区;其中,阈值T1的选取准则为根据经纬度相差0.01度,距离相差约1000米的方法,将T1选取为0.02;阈值T2选取为0.95;阈值T3选取为0.9;步骤2-4)如果小区C1和C2在步骤2-3中判定为同一小区,则将C1和C2更新到小区查重表,具体为:获取小区C1的来源网站优先级λ1,小区C2的来源网站优先级λ2;如果λ1大于λ2,则将C2作为比中源,C1作为比中目标,保存到小区查重表;否则将C1作为比中源,C2作为比中目标,保存到小区查重表;步骤3)房屋去重,即进行房屋同一性判别;其中,所述房屋信息特征包括所在楼栋的层高、所属楼层、挂牌价格、建筑面积、户型结构、户型图以及朝向;再根据所述房屋信息特征判别房屋的同一性;步骤3)具体包括如下子步骤:步骤3-1)建立房屋查重表,设立两个字段:比中源房屋标识和比中目标房屋标识;其中,房屋标识为房屋的ID;步骤3-2)根据城市的区域,搜索同一区域的小区,建立小区列表cList,并按照网站优先级排序;步骤3-3)根据小区查重表的信息,将小区列表cList中的小区进行聚类,具体为:步骤3-3A)构建邻接表G,邻接表G中的每一个节点代表小区列表cList中的一个小区;步骤3-3B)从小区查重表中查询小区列表cList中被判别为同一小区的小区列表rList,rList中的每个元素包含两个信息:比中列表比中源和比中列表比中目标;步骤3-3C)遍历rList,将比中源和比中目标所对应的小区,在邻接表G中构建一条边;步骤3-3D)采用深度优先算法,遍历邻接表G,在G中生成森林F,森林F中的每一棵树,是G中的极大连通子图;其中,F中每一棵树表示一个小区;步骤3-4)遍历由步骤3-3)中产生的森林F中的每一个树Tree,从房屋表查询得到树Tree所有节点表示的小区...

【专利技术属性】
技术研发人员:刘春阳张旭王鹏姜越张华平张吴波张宝华
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1