System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的城市地铁客流量预测方法及系统技术方案_技高网

一种基于大语言模型的城市地铁客流量预测方法及系统技术方案

技术编号:44888490 阅读:9 留言:0更新日期:2025-04-08 00:25
本发明专利技术公开了一种基于大语言模型的城市地铁客流量预测方法及系统,根据地铁客流时间序列数据生成补丁嵌入向量;利用多头注意力机制将补丁嵌入向量进行融合,得到注意力机制补丁嵌入向量;根据地铁客流时间序列数据构建前缀提示;融合前缀提示和注意力机制补丁嵌入向量得到输出投影。本发明专利技术不仅能够充分挖掘和利用地铁客流量数据的复杂特征,从而提高预测的准确性和可靠性,而且能够为城市地铁运营管理提供了有效的决策支持,有助于优化交通调度和乘客服务。

【技术实现步骤摘要】

本专利技术涉及大语言模型、深度学习领域,尤其涉及一种基于大语言模型的城市地铁客流量预测方法及系统


技术介绍

1、随着城市化进程的不断推进,地铁已成为现代城市公共交通系统中的重要组成部分。地铁不仅在缓解交通拥堵、降低碳排放方面发挥了关键作用,还为市民提供了高效、便捷的出行方式。然而,随着地铁线路的扩展和乘客流量的增加,地铁系统的运行和管理面临着日益严峻的挑战。准确预测城市地铁客流量对交通管理部门优化运营方案和流量管理和个人出行规划具有重要的实际意义。

2、城市地铁客流量预测是一项复杂的任务,需要综合考虑历史客流数据、节假日效应、天气变化和城市重大活动等因素。目前,大多数预测方法依赖于分析和建模地铁站的进出客流数据、网络拓扑图、天气等外部因素,以预测未来的客流量变化。传统的地铁客流量预测主要依赖数理统计方法(如arima)来分析客流量变化趋势,但这些方法难以适应外部环境引起的客流数据的突发变化,也难以捕捉数据中的复杂时空依赖性。以动态贝叶斯为代表的机器学习方法虽然提升了地铁客流量预测的精度,但在处理高维度和复杂时空数据时仍然存在一定的局限性。随着地铁客流数据的规模不断扩大以及深度学习的快速发展,许多研究致力于基于深度学习的地铁客流预测,如图卷积记忆网络(gcmn)和reslstm等方法。这些深度学习模型通常需要精心设计特定的网络结构来处理地铁数据的时空复杂性。然而,尽管这些设计可以提高预测的准确性,它们也在一定程度上限制了模型的泛化能力和在现实世界缺乏标记数据的情况下的适应性。


技术实现思路

1、专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于大语言模型的城市地铁客流量预测方法,该方法利用滑动窗口技术将地铁客流时间序列数据分割成固定长度的时间段,生成一系列连续的补丁嵌入向量。这些补丁嵌入向量保留了数据中的短期与长期波动特征,从而使模型能够更好地理解客流的时序动态。生成的补丁嵌入向量同时包含时间序列中的高频(短期波动)和低频(长期趋势)特征,为后续的预测模型提供丰富的时序输入数据,有助于更全面地捕捉客流变化模式。此外,多头注意力机制通过多个并行的注意力头,使模型能够从不同维度和时间窗口捕捉到客流数据的多层次关联性。这种机制有助于模型识别数据中潜在的关联关系,更好地理解特定时间窗口内影响客流变化的重要因素。在融合补丁嵌入向量时,多头注意力机制通过对齐地铁客流数据与语言模态的数据特征,使模型能够同时理解客流时序和语言提示中的特征,提升预测的多模态表达能力。前缀提示为语言模型生成明确的上下文提示,使其在预测过程中能够专注于客流预测的关键特征。我方专利技术针对现有技术的不足进行了有益的探索与创新,为提高城市地铁流量预测的精确度和效率提供了新的技术方案。

2、技术方案:为实现上述目的,本专利技术采用的技术方案为:

3、一种基于大语言模型的城市地铁客流量预测方法,包括以下步骤:

4、步骤1,根据地铁客流时间序列数据生成补丁嵌入向量。

5、步骤2,利用多头注意力机制将补丁嵌入向量进行融合,得到注意力机制补丁嵌入向量。

6、步骤3,根据地铁客流时间序列数据构建前缀提示。

7、步骤4,融合前缀提示和注意力机制补丁嵌入向量得到输出投影。

8、本专利技术基于城市地铁客流量数据生成补丁嵌入向量,以捕捉客流量的时空特征。接着,采用多头注意力机制对这些补丁嵌入向量进行融合,以实现更全面的信息整合。此外,设计前缀提示以增强模型的上下文理解能力,确保其在特定任务中的表现更加精准。最后,将融合后的前缀提示与补丁嵌入的输出进行投影,以生成最终的预测结果。

9、优选的:步骤1中生成补丁嵌入向量的方法:

10、通过滑动窗口方法将地铁客流时间序列数据分割成固定长度的时间段,生成一系列连续的补丁;每个补丁的长度为p,滑动步长为s,则将铁客流时间序列数据分割成n个补丁,其中则得到每个补丁pi的嵌入向量可以表示为:

11、

12、其中,t表示时间长度,x[i:i+p]表示每一个补丁,表示添加位置信息的补丁嵌入向量,w1是补丁向量映射线性层的权重矩阵,将补丁向量映射到嵌入空间,pi是第i个补丁向量,b1是补丁向量映射偏置向量,是位置编码向量。

13、优选的:步骤2中利用多头注意力机制将补丁嵌入向量进行融合的方法:将补丁嵌入向量重新编程为源数据表示空间,以对齐地铁客流数据和自然语言模态,以激活大语言模型的时间序列理解和推理能力。使用预训练的词嵌入来重新编程补丁嵌入其中v是词汇表的大小,d是嵌入维度。通过线性探测e来维护一小组文本原型,表示为其中v′<<v,e′表示线性探测,v′表示文本原型,表示维度为d的文本原型。文本原型学习通过连接语言线索来捕捉时间序列的特征,并将这些线索结合起来表示局部补丁信息。

14、优选的:在步骤2的多头注意力机制中,对于每一个头部k={1,…,k},k表示注意力头数,定义查询矩阵关键值矩阵以及值矩阵其中,表示查询权重矩阵,表示键权重矩阵,表示值权重矩阵,特别地,d表示模型的隐藏维度,且将每个注意力机制头中对时间序列补丁进行重新编程,具体的计算公式如下:

15、

16、其中,表示嵌入向量,attention表示注意力机制,softmax表示归一化计算。

17、通过聚合每个头部中的输出得到接着,进行线性投影,使隐藏维度与主干模型对齐,从而生成输出注意力机制补丁嵌入向量

18、优选的:步骤3根据地铁客流时间序列数据构建前缀提示的方法:通过在地铁客流时间序列数据前添加提示信息,引导地铁客流时间序列数据补丁的重新编程,改善模型对时间序列的理解和处理,从而生成更高质量的自然语言描述。

19、优选的:步骤3中,前缀提示包括数据集上下文、务指令以统计信息,数据集上下文为llm提供了关于输入地铁客流时间序列的基本背景信息,任务指令对llm在特定任务的补丁嵌入转换中起着关键作用的指导,统计信息用于丰富输入地铁客流时间序列,以便促进模式识别和推理。

20、优选的:步骤4中融合前缀提示和注意力机制补丁嵌入向量的方法:通过冻结的大语言模型对前缀提示嵌入和注意力机制补丁嵌入向量进行打包和前馈后,丢弃前缀部分,得到输出投影。

21、优选的:在步骤4中,融合前缀提示和注意力机制补丁嵌入向量得到输出投影的公式为:

22、

23、其中,表示模型的最终预测输出,w2为平面化后的向量映射线性层权重,flattened表示展平操作,reshape表示重塑形状,o(i)为注意力机制补丁嵌入向量,b2为平面化后的向量映射偏置。

24、本专利技术的另一目的是提供一种基于大语言模型的城市地铁客流量预测系统,采用所述的基于大语言模型的城市地铁客流量预测方法,包括输入单元、补丁嵌入向量生成单元、多头注意力单元、前缀提示构建单元、融合单元、输出单元,其中:

25、所述输入单元用于输入地铁客流时间序列数据。<本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的城市地铁客流量预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤1中生成补丁嵌入向量的方法:

3.根据权利要求2所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤2中利用多头注意力机制将补丁嵌入向量进行融合的方法:将补丁嵌入向量重新编程为源数据表示空间,以对齐地铁客流数据和自然语言模态,以激活大语言模型的时间序列理解和推理能力;使用预训练的词嵌入来重新编程补丁嵌入其中V是词汇表的大小,D是嵌入维度;通过线性探测E来维护一小组文本原型,其中V′<<V,E′表示线性探测,V′表示文本原型,表示维度为D的文本原型;文本原型学习通过连接语言线索来捕捉时间序列的特征,并将这些线索结合起来表示局部补丁信息。

4.根据权利要求3所述基于大语言模型的城市地铁客流量预测方法,其特征在于:在步骤2的多头注意力机制中,对于每一个头部k={1,…,K},K表示注意力头数,定义查询矩阵关键值矩阵以及值矩阵其中,表示查询权重矩阵,表示键权重矩阵,表示值权重矩阵,特别地,D表示模型的隐藏维度,且将每个注意力机制头中对时间序列补丁进行重新编程,具体的计算公式如下:

5.根据权利要求4所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤3根据地铁客流时间序列数据构建前缀提示的方法:通过在地铁客流时间序列数据前添加提示信息,引导地铁客流时间序列数据补丁的重新编程,改善模型对时间序列的理解和处理,从而生成更高质量的自然语言描述。

6.根据权利要求5所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤3中,前缀提示包括数据集上下文、务指令以统计信息,数据集上下文为LLM提供了关于输入地铁客流时间序列的基本背景信息,任务指令对LLM在特定任务的补丁嵌入转换中起着关键作用的指导,统计信息用于丰富输入地铁客流时间序列,以便促进模式识别和推理。

7.根据权利要求6所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤4中融合前缀提示和注意力机制补丁嵌入向量的方法:通过冻结的大语言模型对前缀提示嵌入和注意力机制补丁嵌入向量进行打包和前馈后,丢弃前缀部分,得到输出投影。

8.根据权利要求7所述基于大语言模型的城市地铁客流量预测方法,其特征在于:在步骤4中,融合前缀提示和注意力机制补丁嵌入向量得到输出投影的公式为:

9.一种基于大语言模型的城市地铁客流量预测系统,其特征在于,采用权利要求1-8任一所述的基于大语言模型的城市地铁客流量预测方法,包括输入单元、补丁嵌入向量生成单元、多头注意力单元、前缀提示构建单元、融合单元、输出单元,其中:

10.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器和通信接口;所述处理器、存储器和通信接口相互间进行通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行权利要求1-8任一所述的基于大语言模型的城市地铁客流量预测方法。

...

【技术特征摘要】

1.一种基于大语言模型的城市地铁客流量预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤1中生成补丁嵌入向量的方法:

3.根据权利要求2所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤2中利用多头注意力机制将补丁嵌入向量进行融合的方法:将补丁嵌入向量重新编程为源数据表示空间,以对齐地铁客流数据和自然语言模态,以激活大语言模型的时间序列理解和推理能力;使用预训练的词嵌入来重新编程补丁嵌入其中v是词汇表的大小,d是嵌入维度;通过线性探测e来维护一小组文本原型,其中v′<<v,e′表示线性探测,v′表示文本原型,表示维度为d的文本原型;文本原型学习通过连接语言线索来捕捉时间序列的特征,并将这些线索结合起来表示局部补丁信息。

4.根据权利要求3所述基于大语言模型的城市地铁客流量预测方法,其特征在于:在步骤2的多头注意力机制中,对于每一个头部k={1,…,k},k表示注意力头数,定义查询矩阵关键值矩阵以及值矩阵其中,表示查询权重矩阵,表示键权重矩阵,表示值权重矩阵,特别地,d表示模型的隐藏维度,且将每个注意力机制头中对时间序列补丁进行重新编程,具体的计算公式如下:

5.根据权利要求4所述基于大语言模型的城市地铁客流量预测方法,其特征在于:步骤3根据地铁客流时间序列数据构建前缀提示的方法:通过在地铁客流时间序列数据前添加提示信息,引导地铁客流时间序列数据补丁的重新编程,改善模型...

【专利技术属性】
技术研发人员:程海涛王昶龚梓斌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1