一种实现自组织的Chiplet的方法和芯片技术

技术编号:39184409 阅读:23 留言:0更新日期:2023-10-27 08:31
本发明专利技术公开了一种实现自组织的Chiplet的方法和芯片,属于集成电路技术领域,包括:每个Chiplet(芯粒)都有自我检测和报告故障的能力,当芯粒检测到自身出现故障,立即停止工作,并向其他芯粒广播故障信息;所述其他芯粒在接收到故障通知后,开始竞争和协商以重新分配资源;所述资源包括电源资源、计算资源、存储资源和通信资源;通过比较其他芯粒中每个芯粒自身的当前状态和处理能力,确定被选择芯粒以及能够提供给故障芯粒的任务的资源,然后向被选择的芯粒分配资源。本发明专利技术通过芯粒的自我检测和故障响应,以及自组织和协商的资源分配机制,有效提高了系统的稳定性、性能及自适应性。性能及自适应性。性能及自适应性。

【技术实现步骤摘要】
一种实现自组织的Chiplet的方法和芯片


[0001]本专利技术属于集成电路
,尤其涉及一种实现自组织的Chiplet的方法和芯片。

技术介绍

[0002]随着半导体技术的发展,芯片的规模和复杂性都在持续增长。传统的单芯片设计和制造方法已经难以满足日益增长的计算需求和性能目标,同时,也面临着功耗、故障率和生产成本等挑战。这促使了芯片设计的新思路和新方法的发展,其中一种是采用芯粒Chiplet的设计和制造方法。
[0003]Chiplet方法将芯片分解为多个小的、模块化的部分,每个部分都有自己的功能,例如CPU核、内存控制器、I/O控制器等。这些Chiplet可以通过高速互连技术连接在一起,组合成一个完整的系统。这种方法可以提高芯片的制造效率和灵活性,降低生产成本,同时也能提高系统的性能和可靠性。
[0004]然而,Chiplet的设计和制造方法也面临着自身的挑战。一方面,由于Chiplet的数量和复杂性的增加,故障的概率和影响也相应增大。另一方面,由于Chiplet的动态性和独立性,需要有有效的机制来动态地分配和优化资源,包括电源资源、计算资源、存储资源和通信资源。
[0005]因此,需要研发一种新的自组织Chiplet的实现方法,以解决上述问题,提高Chiplet的可用性和性能,同时也提高系统的自适应性。

技术实现思路

[0006]针对上述现有技术中存在的缺陷,本专利技术提供一种实现自组织的Chiplet的方法,包括:每个Chiplet都有自我检测和报告故障的能力,当Chiplet检测到自身出现故障,立即停止工作,并向其他Chiplet广播故障信息;所述其他Chiplet在接收到故障通知后,开始竞争和协商以重新分配资源;其中,所述资源包括电源资源、计算资源、存储资源和通信资源;在资源分配的过程中,通过比较其他Chiplet中每个Chiplet自身的当前状态和处理能力,确定被选择Chiplet,并确定被选择的Chiplet可以提供给故障Chiplet的任务的资源,然后向被选择的Chiplet分配资源;所述被选择的Chiplet为竞争成功的Chiplet。
[0007]其中,对故障的Chiplet停止电源或降低电源,这部分电源资源重新分配给其他接收故障Chiplet任务的Chiplet,电源资源由芯片系统进行重新分配。
[0008]其中,故障的Chiplet的数据需要被迁移到其他Chiplet上,计算资源由承接故障Chiplet任务的Chiplet内部进行确认和分配。
[0009]其中,重新配置通信路径以绕过故障的Chiplet,通信资源由承接故障Chiplet任
务的Chiplet内部进行确认和分配,其他与故障Chiplet具有通信需求和协作需求的Chiplet根据承接故障Chiplet的通信配置进行适应性调整。
[0010]其中,当Chiplet检测到故障时,首先需要初始化一个广播,包括根据芯片的互连技术确定广播资源、设置广播计时器、以及确定广播计划;Chiplet按照预定义的故障信息格式,将故障信息编码为一串数字或符号后在广播资源上发送编码后的信息;Chiplet通过等待其他Chiplet的反馈信息确认其他Chiplet已经接收到故障信息。
[0011]其中,所述其他Chiplet在接收到故障通知后,开始竞争和协商以重新分配资源,包括:每个Chiplet首先确认自身是否与故障Chiplet可替换,确认为与故障Chiplet可替换的Chiplet进入竞争阶段;所有可替换的Chiplet将自身信息广播给所有其他可替换的Chiplet;每个可替换的Chiplet在接收到广播信息后,根据预设的第一竞争策略在本地生成初始的第一竞争列表,所述第一竞争列表中的Chiplet按照预设规则排序,所述第一竞争策略在所有Chiplet中是相同的。
[0012]其中,按照第一竞争列表的顺序,每个Chiplet接收第一竞争列表中的前一Chiplet发送的第二竞争列表,以及每个Chiplet向第一竞争列表中的下一Chiplet发送包括自身的经过第二竞争策略调整后的第二竞争列表。
[0013]其中,每个可替换的Chiplet在接收到包含关键参数的广播信息后,根据预设的第一竞争策略在本地生成初始的第一竞争列表,包括:定义每个Chiplet的性能分数S1_i如下:,其中,和是权重参数,P_i为Chipleti的处理能力,E_i为Chipleti的功耗,M_i为Chipleti的内存大小;接下来进行功能匹配性检查,用Chipleti和Chipletj的功能兼容性compatibility(i,j)表示为一个介于0和1之间的值,其中1表示完全兼容,0表示完全不兼容;每个Chiplet的功能由一组特性参数F来描述,compatibility(i,j)定义为这些参数的相似度度量;其中,F_i和F_j是连续的数值向量,计算它们的余弦相似度,compatibility(i,j)=cosine_similarity(F_i,F_j);得到调整后的性能分数S1'_i:;最后根据调整后的性能分数S1'_i生成第一竞争列表,包括:对所有Chiplet计算S1'_i,将所有Chiplet按照S1'_i从高到低排序,将排序后的Chiplet列表作为第一竞争列表。
[0014]其中,第二竞争策略基于当前负载、未来负载预测和通信开销来确定;其中,当前负载为Chiplet的当前正在处理的任务负载,表示为当前正在处理的任务数量;未来负载预测为未来一段时间内任务负载,所述任务负载表示为预测未来任务队列中任务数量;通信开销表示为剩余的通信资源。
[0015]其中,Chiplets按照第一竞争列表的顺序,每个Chiplet接收来自其前一个Chiplet的消息,并将自己的消息发送给下一个Chiplet;在接收到消息后,每个Chiplet都会比较自己的S2_i分数和接收到的消息中的S2_i分数;如果一个Chiplet发现自己的S2_i分数高于接收到的消息中的S2_i分数,更新自己的第二竞争列表,将自己的ID插入到接收到的列表中,位置在该列表中所有S2_i分数低于自己的Chiplet之前;如果一个Chiplet发现自己的S2_i分数低于接收到的消息中的所有S2_i分数,该Chiplet应将自己的ID和S2_i分数添加到接收到的列表的末尾。
[0016]其中,基于第二竞争列表确定承载故障Chiplet的Chiplet,包括对一个或多个Chiplet的选择;如果故障Chiplet的负载和资源需求可以被第二竞争列表中排名最高的Chiplet承载,选择排名最高的Chiplet来承载故障Chiplet;如果故障Chiplet的负载和资源需求超过了任何单个Chiplet的剩余资源,选择多个Chiplet共同承载故障Chiplet的负载。
[0017]本专利技术还公开了一种实现自组织的Chiplet的芯片,所述芯片为基于芯粒Chiplet技术实现的,当芯片上的一个Chiplet出现故障时,所述芯片上的多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现自组织的Chiplet的方法,包括:每个Chiplet都有自我检测和报告故障的能力,当Chiplet检测到自身出现故障,立即停止工作,并向其他Chiplet广播故障信息;所述其他Chiplet在接收到故障通知后,开始竞争和协商以重新分配资源;其中,所述资源包括电源资源、计算资源、存储资源和通信资源;在资源分配的过程中,通过比较其他Chiplet中每个Chiplet自身的当前状态和处理能力,确定被选择Chiplet,并确定被选择的Chiplet可以提供给故障Chiplet的任务的资源,然后向被选择的Chiplet分配资源;所述被选择的Chiplet为竞争成功的Chiplet。2.如权利要求1所述的一种实现自组织的Chiplet的方法,其特征在于,对故障的Chiplet停止电源或降低电源,这部分电源资源重新分配给其他接收故障Chiplet任务的Chiplet,电源资源由芯片系统进行重新分配。3.如权利要求1所述的一种实现自组织的Chiplet的方法,其特征在于,故障的Chiplet的数据需要被迁移到其他Chiplet上,计算资源由承接故障Chiplet任务的Chiplet内部进行确认和分配。4.如权利要求1所述的一种实现自组织的Chiplet的方法,其特征在于,重新配置通信路径以绕过故障的Chiplet,通信资源由承接故障Chiplet任务的Chiplet内部进行确认和分配,其他与故障Chiplet具有通信需求和协作需求的Chiplet根据承接故障Chiplet的通信配置进行适应性调整。5.如权利要求1所述的一种实现自组织的Chiplet的方法,其特征在于,当Chiplet检测到故障时,首先需要初始化一个广播,包括根据芯片的互连技术确定广播资源、设置广播计时器、以及确定广播计划;Chiplet按照预定义的故障信息格式,将故障信息编码为一串数字或符号后在广播资源上发送编码后的信息;Chiplet通过等待其他Chiplet的反馈信息确认其他Chiplet已经接收到故障信息。6.如权利要求1所述的一种实现自组织的Chiplet的方法,其特征在于,所述其他Chiplet在接收到故障通知后,开始竞争和协商以重新分配资源,包括:每个Chiplet首先确认自身是否与故障Chiplet可替换,确认为与故障Chiplet可替换的Chiplet进入竞争阶段;所有可替换的Chiplet将自身信息广播给所有其他可替换的Chiplet;每个可替换的Chiplet在接收到广播信息后,根据预设的第一竞争策略在本地生成初始的第一竞争列表,所述第一竞争列表中的Chiplet按照预设规则排序,所述第一竞争策略在所有Chiplet中是相同的。7.如权利要求6所述的一种实现自组织的Chiplet的方法,其特征在于,按照第一竞争列表的顺序,每个Chiplet接收第一竞争列表中的前一Chiplet发送的第二竞争列表,以及每个Chiplet向第一竞争列表中的下一Chiplet发送包括自身的经过第二竞争策略调整后的第二竞争列表。8.如权利要求6所述的一种实现自组织的Chiplet的方法,其特征在于,每个可替换的Chiplet在接收到包含关键参数的广播...

【专利技术属性】
技术研发人员:王嘉诚张少仲
申请(专利权)人:中诚华隆计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1