当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于贝叶斯网络的人口合成方法技术

技术编号:38029522 阅读:13 留言:0更新日期:2023-06-30 10:56
本发明专利技术公开了一种基于贝叶斯网络的人口合成方法,包括:获取研究区域内的微观人口样本信息与关键社会经济属性的统计分布信息;得到样本数据后,根据对家庭成员的年龄跨度计算家庭结构类型,并将个人信息与家庭信息进行匹配,得到样本数据;获取每个家庭结构下家庭层和个人层包含各属性之间联合概率的最优的贝叶斯网络;根据贝叶斯网络对样本数据进行随机采样,得到符合人口总量的初步合成人口;根据社会经济属性的统计分布信息,通过迭代比例拟合方法对初步合成人口进行边缘控制调整,得到符合社会经济属性统计分布的目标合成人口。本发明专利技术利用微观样本生成符合关键社会经济属性的人口信息,降低了计算复杂度,可广泛应用于计算机技术领域。计算机技术领域。计算机技术领域。

【技术实现步骤摘要】
一种基于贝叶斯网络的人口合成方法


[0001]本专利技术涉及计算机
,尤其是一种基于贝叶斯网络的人口合成方法。

技术介绍

[0002]大数据时代促进了分析基础与统计学、计算理论基础、逻辑基础的融合。在此基础上,“数据饥渴”、“数据共融”促进了合成数据的发展,具有真实的统计特征的合成数据逐渐被广泛运用在不同的领域。在交通预测、应用定量和交通模型评估长期交通政策等领域的研究中,将城市交通出行参与者抽象为“智能体”(agent)作为分析单元,成为了一种捕捉城市与交通系统的复杂交互关系、观测推演个体行为动态变化、评估分析未来城市交通场景的有效手段。与传统统计变量模型(结构方程模型、回归模型等)相比,智能体模型更接近社会现实,因此更适合社会行为仿真模拟。
[0003]作为基于智能体仿真分析中交通出行行为建模的基础,大规模、全面、多维度的人口数据,往往由于开展调查代价太大、采集时间长,各类相关数据集成程度低、多源信息利用程度不高,且人口数据涉及侵犯隐私等法律问题等原因难以获取。而合成人口作为一种基于智能体模型发展而成的一种利用微观样本和公开的统计数据合成比较真实的虚拟人口数据的技术,可以将现实中的家庭、个人等抽象成为虚拟的智能体。可以大程度地保持与真实人口一致的社会经济属性以及空间分布,从而帮助交通出行仿真的结果尽可能地反映现实情况。
[0004]目前国内外有不少人口合成的方法,可分为单层、两层及两层以上两类,两层及两层以上的人口合成方法又可细分为合成重建、组合优化、统计学习三种。单层的人口合成方法仅考虑家庭或个体层,个体异质性反映欠佳。两层及两层以上的人口合成则同时考虑了家庭和个体层,甚至更多的层面。然而,这些方法大多数都要求样本数据具有一定的代表性,无法生成在实际群体中存在的特定个体的样本中没有观察到的个体,且随着样本规模的增长,计算时间、算法的可扩展性也逐渐降低。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种计算复杂度小的基于贝叶斯网络的人口合成方法。
[0006]本专利技术实施例的一方面提供了一种基于贝叶斯网络的人口合成方法,包括:
[0007]获取研究区域内的微观人口样本信息与关键社会经济属性的统计分布信息;
[0008]对所述微观人口样本信息和所述统计分布信息进行预处理,得到样本数据;
[0009]根据对家庭成员的年龄跨度计算家庭结构类型,并将个人信息与家庭信息进行匹配,得到具有家庭结构的样本数据;
[0010]根据具有家庭结构的样本数据,利用爬山算法和赤池信息量准则获取每个家庭结构下家庭层和个人层包含各属性之间联合概率的最优的贝叶斯网络;
[0011]根据所述贝叶斯网络对所述样本数据进行随机采样,得到符合人口总量的初步合
成人口;
[0012]根据所述关键社会经济属性的统计分布信息,通过迭代比例拟合方法对所述初步合成人口进行边缘控制调整,得到符合社会经济属性统计分布的目标合成人口。
[0013]可选地,所述获取研究区域内的微观人口样本信息与关键社会经济属性的统计分布信息这一步骤中,
[0014]所述微观人口样本信息包括:家庭编号、个体编号、家庭住址所在位置的行政区、家庭住址所在位置的街道、户收入信息、住房来源、家庭规模、个体年龄、个体性别和个体的户籍类型;
[0015]所述关键社会经济属性的统计分布信息包括:研究区域总人口数量及子区域内人口数量、研究区域内人口的年龄分布情况、研究区域内人口的性别比例或总量。
[0016]可选地,所述对所述微观人口样本信息和所述统计分布信息进行预处理,得到样本数据,包括:
[0017]对所述微观人口样本信息进行无效数据清洗、重复数据去除和关键社会经济属性筛选的处理;其中,所述无效数据表征家庭与个体无法匹配的数据;所述重复数据表征同一家庭编号或个体编号的两条及两条以上相同的数据;
[0018]对微观人口样本信息的缺失及错误匹配数据的剔除;其中,所述字段缺失数据表征个体或家庭编号、行政区或区域、收入、住房来源、家庭规模、年龄、性别、户籍字段有缺失的数据;
[0019]所述错误匹配数据表征同一家庭编号下个体数量多于该户人口规模的数据;所述关键社会经济属性筛选的处理这一步骤中,得到的属性信息包括人口、年龄、性别、地区、家庭结构;
[0020]所述属性信息基于统一的地区维度进行汇总。
[0021]可选地,所述根据对家庭成员的年龄跨度计算家庭结构类型,并将个人信息与家庭信息进行匹配,得到具有家庭结构的样本数据这一步骤中,
[0022]所述家庭结构通过计算同一家庭的个体年龄跨度得到,具体地,所述家庭结构的划分方式包括:
[0023]将个体年龄按5年为单位划分年龄段;
[0024]将家庭规模为1人的记为“单人户”;
[0025]对除单人户外的每个家庭按年龄段进行频数统计,并计算家庭人口的年龄跨度,确定家庭中年龄最小的与年龄最大的人之间所跨年龄段数量;
[0026]若有两个及两个以上大于等于2的年龄跨度,则记为“多代家庭户”;
[0027]若年龄跨度小于2,且家庭规模为2,记为“已婚未育家庭”;
[0028]若只有一个大于等于2的年龄跨度,则记为“单亲家庭”;
[0029]若只存在一个大于等于2的年龄跨度,且包含三个或更多的人,其中有两个人比其他人年长至少15岁,则记为“核心家庭”;
[0030]余下的记为“其他家庭”。
[0031]可选地,所述根据具有家庭结构的样本数据,利用爬山算法和赤池信息量准则获取每个家庭结构下家庭层和个人层包含各属性之间联合概率的最优的贝叶斯网络,包括:
[0032]为每个家庭结构设置一个初始空网络结构,计算初始空网络结构的得分;
[0033]在所述初始空网络结构的基础上,重复对网络的边进行增加、删减或颠倒操作,计算每次操作后得到的网络得分,若得分优于操作前的网络,则保留当前网络结构,直至得到最优的贝叶斯网络。
[0034]可选地,所述赤池信息量准则的计算公式为:
[0035]AIC=

2ln(L)+2k
[0036]其中,AIC是赤池信息量准则;L是在该模型下的最大似然函数;k是模型中参数的个数。
[0037]可选地,所述根据所述贝叶斯网络对所述样本数据进行随机采样,得到符合人口总量的初步合成人口,包括:
[0038]配置所需要生成的人口数量、家庭数量,各类家庭结构的比例;
[0039]根据所述贝叶斯网络及各个属性之间的联合概率,先对根节点进行随机采样,然后根据联合概率对子节点随机采样,直到对该网络结构中所有的节点都完成了采样,得到符合人口总量的初步合成人口;
[0040]所述根据所述关键社会经济属性的统计分布信息,通过迭代比例拟合方法对所述初步合成人口进行边缘控制调整,得到符合社会经济属性统计分布的目标合成人口,包括:
[0041]根据给定的关键社会经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于贝叶斯网络的人口合成方法,其特征在于,包括:获取研究区域内的微观人口样本信息与关键社会经济属性的统计分布信息;对所述微观人口样本信息和所述统计分布信息进行预处理,得到样本数据;根据对家庭成员的年龄跨度计算家庭结构类型,并将个人信息与家庭信息进行匹配,得到具有家庭结构的样本数据;根据具有家庭结构的样本数据,利用爬山算法和赤池信息量准则获取每个家庭结构下家庭层和个人层包含各属性之间联合概率的最优的贝叶斯网络;根据所述贝叶斯网络对所述样本数据进行随机采样,得到符合人口总量的初步合成人口;根据所述关键社会经济属性的统计分布信息,通过迭代比例拟合方法对所述初步合成人口进行边缘控制调整,得到符合社会经济属性统计分布的目标合成人口。2.根据权利要求1所述的一种基于贝叶斯网络的人口合成方法,其特征在于,所述获取研究区域内的微观人口样本信息与关键社会经济属性的统计分布信息这一步骤中,所述微观人口样本信息包括:家庭编号、个体编号、家庭住址所在位置的行政区、家庭住址所在位置的街道、户收入信息、住房来源、家庭规模、个体年龄、个体性别和个体的户籍类型;所述关键社会经济属性的统计分布信息包括:研究区域总人口数量及子区域内人口数量、研究区域内人口的年龄分布情况、研究区域内人口的性别比例或总量。3.根据权利要求1所述的一种基于贝叶斯网络的人口合成方法,其特征在于,所述对所述微观人口样本信息和所述统计分布信息进行预处理,得到样本数据,包括:对所述微观人口样本信息进行无效数据清洗、重复数据去除和关键社会经济属性筛选的处理;其中,所述无效数据表征家庭与个体无法匹配的数据;所述重复数据表征同一家庭编号或个体编号的两条及两条以上相同的数据;对微观人口样本信息的缺失及错误匹配数据的剔除;其中,所述字段缺失数据表征个体或家庭编号、行政区或区域、收入、住房来源、家庭规模、年龄、性别、户籍字段有缺失的数据;所述错误匹配数据表征同一家庭编号下个体数量多于该户人口规模的数据;所述关键社会经济属性筛选的处理这一步骤中,得到的属性信息包括人口、年龄、性别、地区、家庭结构;所述属性信息基于统一的地区维度进行汇总。4.根据权利要求1所述的一种基于贝叶斯网络的人口合成方法,其特征在于,所述根据对家庭成员的年龄跨度计算家庭结构类型,并将个人信息与家庭信息进行匹配,得到具有家庭结构的样本数据这一步骤中,所述家庭结构通过计算同一家庭的个体年龄跨度得到,具体地,所述家庭结构的划分方式包括:将个体年龄按5年为单位划分年龄段;将家庭规模为1人的记为“单人户”;对除单人户外的每个家庭按年龄段进行频数统计,并计算家庭人口的年龄跨度,确定家庭中年龄最小的与年龄最大的人之间所跨年龄段数量;若有两个及两个以上大于等于2的年龄跨度,则记为“多代家庭户”;
若年龄跨度小于2,且家庭规模为2,记为“已婚未育家庭”;若只有一个大于等于2的年龄跨度,则记为“单亲家庭”;若只存在一个大于等于2的年龄跨度,且包含三个或更多的人,...

【专利技术属性】
技术研发人员:黄殷旎周檬李伊帆
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1