大数据运算加速系统及数据传输方法技术方案

技术编号:28302926 阅读:19 留言:0更新日期:2021-04-30 16:33
本发明专利技术实施例提供一种大数据运算加速系统及数据传输方法,所述大数据运算加速系统,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,其中N为大于等于4的正整数;所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据,所述2个以上运算芯片连接成环形。采用本发明专利技术实施例中的技术方案提高了在多个ASIC芯片之间数据传输的速率。

【技术实现步骤摘要】
【国外来华专利技术】大数据运算加速系统及数据传输方法
本专利技术涉及集成电路领域,特别是涉及一种大数据运算加速系统及数据传输方法。
技术介绍
ASIC(ApplicationSpecificIntegratedCircuits)即专用集成电路,是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。随着科技的发展,越来越多的领域,比如人工智能、安全运算等都涉及大运算量的特定计算。针对特定运算,ASIC芯片可以发挥其运算快,功耗小等特定。同时,对于这些大运算量领域,为了提高数据的处理速度和处理能力,通常需要控制N个运算芯片同时进行工作。随着数据精度的不断提升,人工智能、安全运算等领域需要对越来越大的数据进行运算,例如:现在照片的大小一般为3-7MB,但是随着数码相机和摄像机的精度增加,照片的大小可以达到10MB或者更多,而30分钟的视频可能达到1个多G的数据。而在人工智能、安全运算等领域中要求计算速度快,时延小,因此如何提高计算速度和反应时间一直是芯片设计所要求的目标。由于ASIC芯片搭配的内存一般为64MB或者128MB,而当要处理的数据在512MB以上时,ASIC芯片要多次利用内存存取数据,多次将数据从外部存储空间中搬入或者搬出内存,降低了处理速度。同时,随着数据精度的不断提升,人工智能、安全运算等领域需要对越来越大的数据进行运算,为了存储数据一般需要给ASIC芯片配置多个存储单元,例如一块ASIC芯片要配置4块2G内存;这样N个运算芯片同时工作时,就需要4N块2NG内存。但是,在多运算芯片同时工作时,数据存储量不会超过2个G,这样就造成了存储单元的浪费,提高了系统成本。在处理大量相关数据的设计中,现有技术中面临两个难题:1、是大幅度提升性能的需求。2、如果是分布式系统,那么还要解决数据相关性问题,即某个子系统中处理完的数据需要呈现给所有其他的子系统中进行确认和再处理。一般通过两种方式减少数据处理耗费的时间,一是加快处理数据逻辑的时钟;二是增加处理数据的并发块数。在工艺限制下,时钟速率的提升很有限。提升并发数目是更加有效的提升性能的方法。但提升并发数目之后,一般也相应的提高了数据带宽的要求。一般的系统中,如果数据带宽取决于DDR提供的带宽,但DDR的带宽提升并不是线性的。假设初始系统含有DDR一组,提供带宽1x。如果我们需要获得2x的带宽提升,可以实现两组DDR,但如果需要获得16x以上的带宽提升,因为物理尺寸的限制,不可能通过简单的在一个系统中例化16组DDR实现。如果需要多个ASIC芯片协同工作的话,不能直接将数据分布在不相连的多个系统中进行处理,因为这些数据都是相关的,每份在某个处理单元中完成的数据都必须在其他处理单元中进行确认和再处理,因此如果提高在多个ASIC芯片之间数据传输的速率也是必须要解决多系统互联的问题。
技术实现思路
本专利技术实施例的目的就是提供一种使用高速接口连接分布式存储的方式,实现多个同构系统并发处理大量相关数据。本专利技术实施例提供一种大数据运算加速系统,该系统中取消了芯片外接内存,将存储单元设置在ASIC芯片内部,减少了ASIC芯片从外部读取数据的时间,加快了芯片运算速度。多个ASIC芯片共享存储单元,这样不仅减少了存储单元的数量,也减少了ASIC运算芯片之间的连接线,简化了系统构造,减低了ASIC芯片的成本。同时,多个运算芯片之间采用serdes接口技术进行数据传输,提高了在多个ASIC芯片之间数据传输的速率。为达到上述目的,本专利技术实施例提供如下技术方案:根据本专利技术实施例的第一方面,提供一种大数据运算加速系统,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,其中N为大于等于4的正整数;所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据,所述2个以上运算芯片连接成环形。根据本专利技术实施例的第二方面,提供一种大数据运算加速系统的数据传输方法,所述大数据运算加速系统包括2个以上运算芯片,所述2个以上运算芯片通过发送接口(tx)和接收接口(rx)进行连接传输数据,所述2个以上运算芯片连接成环形;数据源头第一运算芯片产生数据后,通过所述发送接口(tx)将数据发送给第一运算芯片相邻一侧的第二运算芯片;所述相邻一侧的第二运算芯片将数据分为两路传播,第一路发送给所述第二运算芯片的内核core,另一路通过发送接口(tx)转发到第二运算芯片相邻一侧的第三运算芯片。本专利技术实施例通过在大数据运算加速系统中设置多个芯片,多个芯片包括多个内核core,每个内核core执行运算和存储控制功能,并且在芯片内部给每个内核core连接至少一个存储单元,这样每个内核通过读取自己连接的存储单元和其他运算芯片内核连接的存储单元中的数据,使得每个内核可以具有大容量内存,减少了数据从外部存储空间中搬入或者搬出内存的次数,加快了数据的处理速度;同时,由于多个内核可以分别独立运算或者协同运算,这样也加快了数据的处理速度。多个ASIC芯片共享存储单元,这样不仅减少了存储单元的数量,也减少了ASIC运算芯片之间的连接线,简化了系统构造,减低了ASIC芯片的成本。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1说明第一实施例具有M个ASIC芯片的大数据运算加速系统结构的示意图;图2说明具有4个内核的运算芯片结构示意图;图3说明数据通道lane的结构示意图;图4a说明存储单元第一实施例的结构示意图的图4b说明存储单元第二实施例的结构示意图;图5说明大数据运算加速系统数据传输过程的示意图;图6说明第一实施例具有4个内核的运算芯片信号流程示意图的;图7说明根据本专利技术的数据结构示意图。具体实施方式下面将基于附图具体说明本专利技术的示例性实施方式,应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。此外,需要说明书的是,各附图中的上、下、左、右的各方向仅是以特定的实施方式进行的例示,本领域技术人员能够根据实际需要将附图中所示的各构件的一部分或全部改变方向来应用,而不会影响各构件或系统整体实现其功能,这种改变了方向的技术方案仍属于本专利技术的保护范围。多核芯片是具体本文档来自技高网
...

【技术保护点】
一种大数据运算加速系统,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,其中N为大于等于4的正整数;所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据,所述2个以上运算芯片连接成环形。/n

【技术特征摘要】
【国外来华专利技术】一种大数据运算加速系统,包括2个以上运算芯片,所述运算芯片包括N个内核core、N个数据通道(lane)和至少一个存储单元,其中N为大于等于4的正整数;所述数据通道(lane)包括发送接口(tx)和接收接口(rx),所述内核core和数据通道(lane)一一对应,所述内核core通过数据通道(lane)发送和接收数据;所述2个以上运算芯片通过所述发送接口(tx)和所述接收接口(rx)进行连接传输数据,所述2个以上运算芯片连接成环形。


根据权利要求1所述的系统,其特征在于,所述运算芯片的所述发送接口(tx)和所述接收接口(rx)为serdes接口,所述运算芯片之间通过serdes接口进行通信。


根据权利要求1或2所述的系统,其特征在于,所述数据通道(lane)进一步包括接收地址判断单元、发送地址判断单元;接收地址判断单元一端连接于接收接口,接收地址判断单元另一端连接于内核core;发送地址判断单元一端连接于发送接口(tx),发送地址判断单元另一端连接于内核core;接收地址判断单元和发送地址判断单元相互连接。


根据权利要求3所述的系统,其特征在于,接收接口(rx)接收相邻一侧运行芯片发送的数据帧,将所述数据帧发送给接收地址判断单元,接收地址判断单元将所述数据帧发送给内核core,同时将所述数据帧发送给发送地址判断单元;发送地址判断单元接收所述数据帧,将所述数据帧发送给发送接口(tx),发送接口将所述数据帧发送给相邻另一侧运行芯片。


根据权利要求3所述的系统,其特征在于,内核core产生数据帧,将所述数据帧发送给发送地址判断单元,发送地址判断单元将所述...

【专利技术属性】
技术研发人员:秦强
申请(专利权)人:北京比特大陆科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1