一种基于数据清洗的信息分析系统技术方案

技术编号:38648786 阅读:9 留言:0更新日期:2023-09-02 22:38
本发明专利技术公开了一种基于数据清洗的信息分析系统,涉及数据清洗的信息分析技术领域,包括数据输入单元,所述数据输入单元将出租人信息、房源信息和租户信息依次录入数据清洗分析系统。本发明专利技术通过输入房源的面积、位置和租金后系统会自动生成唯一房源ID,一旦退租房源ID就会空出来,被下一位房源使用,所述数据自清洗模块是针对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,所述数据清洗模块是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留。不影响分析结果的字段保留。不影响分析结果的字段保留。

【技术实现步骤摘要】
一种基于数据清洗的信息分析系统


[0001]本专利技术涉及数据清洗的信息分析
,具体为一种基于数据清洗的信息分析系统。

技术介绍

[0002]目前,数字化发展越来越快,很多租赁平台都在使用数据清洗的信息分析系统对租客的租赁信息进行重新审查和校验,最终的目的是删除重复信息、纠正存在错误的信息、并且检查数据的准确性,数据清洗技术是提高数据质量的有效方法,提高租赁业务的工作效率,所以,数据清洗的信息分析系统的应用会越来越普及。
[0003]尽管如此,现有的数据清洗的信息分析系统,仍存在部分租赁的业务数据,由于数据时间跨度较大、对于字段的约束不够严谨和业务审核机制不健全等一系列问题,导致很多记录的业务数据与实际数据相差较大,同时因为统计的机制不够清晰,导致无法保证出租人、房源和租户可以完全对应起来,从而对租赁带来一定的经济损失。

技术实现思路

[0004]本专利技术的目的在于提供一种基于数据清洗的信息分析系统,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于数据清洗的信息分析系统,包括数据输入单元,所述数据输入单元将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;
[0006]数据清洗单元,所述数据清洗单元对数据输入单元传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;
[0007]数据分析单元,所述数据分析单元对数据分析单元传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;<br/>[0008]数据输出单元,所述数据输出单元将分析后准确的出租人信息、房源信息和租户信息数据输出。
[0009]优选的,所述数据输入单元包括出租人信息模块、房源信息模块和租户信息模块,所述出租人信息模块输入出租人的姓名、性别、年龄和联系方式后系统会自动生成唯一出租人ID,一旦退租出租人ID就会空出来,被下一位出租人使用,所述房源信息模块输入房源的面积、位置和租金后系统会自动生成唯一房源ID,一旦退租房源ID就会空出来,被下一位房源使用,所述租户信息模块输入租户的姓名、性别、年龄和联系方式系统会自动生成唯一租户ID,一旦退租租户ID就会空出来,被下一位租户使用。
[0010]优选的,所述数据清洗单元包括数据审核模块和数据校验模块,所述数据审核模块将输入的出租人信息、房源信息和租户信息进行审核,保证每个字段没有缺失的情况,所述数据校验模块将输入的出租人信息、房源信息和租户信息进行校验,对于重复的数据再次校验重复的次数、重复的时间和数据来源检验出来,对于不符合常规的数据比如房源面
积小于0平方米和联系方式不是11位的情况校验出来。
[0011]优选的,所述数据清洗单元还包括数据自清洗模块和数据清洗模块所述数据自清洗模块是针对校验后的数据进行系统默认的清洗方式进行数据清洗,对于字段缺失严重的,影响分析结果的自动删除,所述数据清洗模块是针对自清洗后仍存在问题的数据进行人工干预再次进行数据清洗,对于字段缺失不严重的比如性别,不影响分析结果的字段保留。
[0012]优选的,所述数据分析单元包括审核分析模块和校验分析模块,所述审核分析模块对出租人信息、房源信息和租户信息审核后并进行分析,所述校验分析模块对出租人信息、房源信息和租户信息校验后并进行分析。
[0013]优选的,所述数据分析单元还包括自清洗分析模块和清洗分析模块,所述自清洗分析模块对自清洗后的数据进行分析,所述清洗分析模块对人工干预清洗后的数据进行再次分析。
[0014]优选的,所述数据输出单元包括出租人信息输出模块和房源信息输出模块,所述出租人信息输出模块将准确的出租人的姓名、性别、年龄和出租人ID输出,所述房源信息输出模块将准确的房源的面积、位置、租金和房源ID输出。
[0015]优选的,所述数据输出单元还包括租户信息输出模块,所述租户信息输出模块将准确的租户的姓名、性别、年龄和租户ID输出。
[0016]数据清洗算法包括数据质量算法,数据质量算法具体为:
[0017][0018]其中,#recodes
right
代表清洗后的正确数据,#rows代表数据行数,#colums
error
代表错误数据所在例的个数,quality代表数据质量。
[0019]数据清洗算法还包括缺失值算法,缺失值算法具体为:
[0020][0021]其中A代表缺失值,A
i
代表缺失值所在属性的属性值,n代表该类记录的总数。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]本专利技术通过对出租人、房源和租户设置ID,保证出租人、房源和租户都是一对一或一对多的对应关系,产生退租的情况ID会自动空出被新的租户使用,方便数据清洗分析系统的统计,并且退租后,ID就会被重新启用,减少了数据冗余,并且使数据更加清晰,对数据审核校验对字段进行约束和业务审核,对于字段缺失严重的,影响分析结果的自动删除,对于字段缺失不严重的比如性别,不影响分析结果的字段保留,经过清洗降低记录的业务数据与实际数据之前的数据差,数据清洗技术提高了数据质量的同时也提高租赁的经济效益。
附图说明
[0024]图1为本专利技术的数据清洗分析系统框图;
[0025]图2为本专利技术的数据输入单元模块框图;
[0026]图3为本专利技术的数据清洗单元内部模块框图;
[0027]图4为本专利技术的数据分析单元内部模块框图;
[0028]图5为本专利技术的数据输出单元内部模块框图。
[0029]图中:1、数据输入单元;101、出租人信息模块;102、房源信息模块;103、租户信息模块;2、数据清洗单元;201、数据审核模块;202、数据校验模块;203、数据自清洗模块;204、数据清洗模块;3、数据分析单元;301、审核分析模块;302、校验分析模块;303、自清洗分析模块;304、清洗分析模块;4、数据输出单元;401、出租人信息输出模块;402、房源信息输出模块;403、租户信息输出模块。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]请参阅图1

5,本专利技术提供一种技术方案:一种基于数据清洗的信息分析系统,包括数据输入单元1,数据输入单元1将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;
[0032]数据清洗单元2,数据清洗单元2对数据输入单元1传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;
[0033]数据分析单元3,数据分析单元3对数据分析单元3传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据清洗的信息分析系统,其特征在于:包括数据输入单元(1),所述数据输入单元(1)将出租人信息、房源信息和租户信息依次录入数据清洗分析系统;数据清洗单元(2),所述数据清洗单元(2)对数据输入单元(1)传输的数据进行接收,并对数据进行审核、校验、自清洗和清洗;数据分析单元(3),所述数据分析单元(3)对数据分析单元(3)传输的数据进行接收,对审核、校验、自清洗和清洗后的数据通过数据清洗算法进行分析;数据输出单元(4),所述数据输出单元(4)将分析后准确的出租人信息、房源信息和租户信息数据输出。2.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据输入单元(1)包括出租人信息模块(101)、房源信息模块(102)和租户信息模块(103),所述出租人信息模块(101)输入出租人的姓名、性别、年龄和联系方式后系统会自动生成唯一出租人ID,一旦退租出租人ID就会空出来,被下一位出租人使用,所述房源信息模块(102)输入房源的面积、位置和租金后系统会自动生成唯一房源ID,一旦退租房源ID就会空出来,被下一位房源使用,所述租户信息模块(103)输入租户的姓名、性别、年龄和联系方式系统会自动生成唯一租户ID,一旦退租租户ID就会空出来,被下一位租户使用。3.根据权利要求1所述的一种基于数据清洗的信息分析系统,其特征在于:所述数据清洗单元(2)包括数据审核模块(201)和数据校验模块(202),所述数据审核模块(201)将输入的出租人信息、房源信息和租户信息进行审核,所述数据校验模块(202)将输入的出租人信息、房源信息和租户信息进行校验。4.根...

【专利技术属性】
技术研发人员:金文光臧宇灵
申请(专利权)人:无锡数科云软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1