描述了与深度学习加速器和存储器相关的系统、装置和方法。举例来说,一种数据存储装置可配置成执行具有矩阵操作数的指令,且配置有:接口,其用以接收视频流;以及随机存取存储器,其用以缓冲所述视频流的一部分作为到人工神经网络的输入,且存储可由所述深度学习加速器执行的指令和所述人工神经网络的矩阵。所述深度学习加速器可执行指令以产生所述人工神经网络的输出,包含对所述经缓冲部分的分析。所述数据存储装置中的视频编码器可使用所述分析来压缩视频流的所述部分以存储在所述装置中。置中。置中。
【技术实现步骤摘要】
【国外来华专利技术】具有深度学习加速器和随机存取存储器的可移除式存储装置中的视频压缩
[0001]相关申请
[0002]本申请主张2020年6月19日申请且标题为“具有深度学习加速器和随机存取存储器的可移除式存储装置中的视频压缩(VIDEO COMPRESSION IN REMOVABLE STORAGE DEVICE HAVING DEEP LEARNING ACCELERATOR AND RANDOM ACCESS MEMORY)”的第16/906,261号美国专利申请的优先权,其全部公开内容由此以引用的方式并入本文中。
[0003]本文公开的至少一些实施例大体上涉及数据存储装置,且更具体地但不限于由人工神经网络(ANN)的集成加速器供电的可移除式装置,所述ANN例如通过机器学习和/或深度学习配置以用于视频压缩和存储的ANN。
技术介绍
[0004]人工神经网络(ANN)使用神经元网络来处理到网络的输入,且产生来自网络的输出。
[0005]举例来说,网络中的每一神经元接收一组输入。到神经元的一些输入可以是网络中的某些神经元的输出;且到神经元的一些输入可以是提供给神经网络的输入。所述网络中的神经元之间的输入/输出关系表示所述网络中的神经元连接性。
[0006]举例来说,每一神经元可分别针对其输入具有偏置、激活函数和一组突触权重。激活函数可呈阶跃函数、线性函数、对数S型(log
‑
sigmoid)函数等形式。网络中的不同神经元可具有不同激活函数。
[0007]举例来说,每一神经元可产生其输入和其偏置的加权和,且随后产生为加权和的函数的输出,所述输出是使用神经元的激活函数计算的。
[0008]ANN的输入与输出之间的关系一般来说是由ANN模型定义的,所述ANN模型包含表示网络中的神经元的连接性的数据,以及每个神经元的偏置、激活函数和突触权重。基于给定ANN模型,计算装置可配置成根据到网络的给定的一组输入计算网络的输出。
[0009]举例来说,可基于相机输入产生发到ANN网络的输入;且来自ANN网络的输出可为例如事件或物件等项目的识别。
[0010]一般来说,可使用监督方法来训练ANN,其中调整ANN中的参数以最小化或减少与相应输入相关联或由相应输入产生的已知输出与通过将输入应用于ANN而产生的所计算输出之间的误差。监督学习/训练方法的实例包含强化学习和具有误差校正的学习。
[0011]替代地或组合地,可以使用非监督方法来训练ANN,其中由给定的一组输入产生的确切输出在所述训练完成之前是未知的。可以训练ANN,以将项目分类成多个类别,或将数据点分类成群集。
[0012]可以将多个训练算法用于复杂机器学习/训练范例。
[0013]深度学习使用机器学习的多个层以从输入数据逐渐地提取特征。举例来说,较低
层可配置成识别图像中的边缘;且较高层可配置成基于使用较低层检测到的边缘识别图像中所捕捉的项目,例如人脸、物件、事件等。深度学习可经由人工神经网络(ANN)实施,例如深度神经网络、深度信念网络、递归神经网络和/或卷积神经网络。
[0014]深度学习已应用于许多应用领域,例如计算机视觉、语音/音频辨识、自然语言处理、机器翻译、生物信息学、药物设计、医疗图像处理、游戏等。
附图说明
[0015]在附图的图式中作为实例而非限制示出实施例,在附图中,相同的参考标号指示类似元件。
[0016]图1示出根据一个实施例的具有经配置的深度学习加速器和随机存取存储器的集成电路装置。
[0017]图2示出根据一个实施例的配置成执行矩阵
‑
矩阵操作的处理单元。
[0018]图3示出根据一个实施例的经配置以执行矩阵
‑
向量操作的处理单元。
[0019]图4示出根据一个实施例的配置成执行向量
‑
向量操作的处理单元。
[0020]图5示出根据一个实施例的配置成自主地应用到经训练人工神经网络的输入的深度学习加速器和随机存取存储器。
[0021]图6至8示出根据一些实施例的具有经配置的深度学习加速器和随机存取存储器的存储装置。
[0022]图9示出根据一个实施例的实施于存储装置中的方法。
具体实施方式
[0023]本文所公开的至少一些实施例提供可移除式数据存储装置,其具有配置成用较少能量消耗和计算时间执行人工神经网络(ANN)的计算的通用集成电路。集成电路包含深度学习加速器(DLA)和随机存取存储器。通过人工神经网络分析存储到装置中的输入视频数据以产生分析,基于所述分析,视频编码器执行视频压缩。具有小于输入视频数据的大小的经压缩视频可作为输入视频数据的替代物存储在数据存储装置中,且可经检索以回放视频以供演示,所述演示大体上相同于输入视频数据的回放。
[0024]深度学习加速器(DLA)包含一组通用可编程硬件计算逻辑,其经专门化和/或优化以执行并行向量和/或矩阵计算,包含但不限于向量和/或者矩阵的相乘和累加。
[0025]此外,深度学习加速器(DLA)可包含一或多个算术逻辑单元(ALU)以对整数二进制数执行算术和逐位运算。
[0026]深度学习加速器(DLA)可经由一组指令进行编程,以执行人工神经网络(ANN)的计算。
[0027]对向量和矩阵运算的深度学习加速器(DLA)的粒度对应于可在由深度学习加速器(DLA)执行一个指令期间对其进行操作的向量/矩阵的最大单元。在对向量/矩阵操作数执行预定义操作的指令期间,深度学习加速器(DLA)可以并行操作向量/矩阵操作数的元素,以减少与存储器/数据存取相关联的执行时间和/或能量消耗。对深度学习加速器(DLA)的粒度的向量/矩阵操作数的操作可用作构建块以对较大大小的向量/矩阵实施计算。
[0028]典型/实际人工神经网络(ANN)的实施涉及具有大于深度学习加速器(DLA)的操作
粒度的大小的向量/矩阵操作数。为了使用深度学习加速器(DLA)实施此类人工神经网络(ANN),涉及较大大小的向量/矩阵操作数的计算可分解为深度学习加速器(DLA)的粒度的向量/矩阵操作数的计算。深度学习加速器(DLA)可以通过指令进行编程,以执行涉及大型向量/矩阵操作数的计算。举例来说,在响应于指令而操控深度学习加速器(DLA)的粒度的向量和矩阵时的深度学习加速器(DLA)的原子计算能力可经编程以在人工神经网络(ANN)中实施计算。
[0029]在一些实施方案中,深度学习加速器(DLA)不具有典型中央处理单元(CPU)的一些逻辑运算能力。然而,深度学习加速器(DLA)可配置有充足逻辑单元以处理提供到人工神经网络(ANN)的输入数据且根据针对深度学习加速器(DLA)产生的一组指令产生人工神经网络(ANN)的输出。因此,深度学习加速器(DLA)可在中央处理单元(CPU)或另一处理器的极少帮助或无帮助的情况下执行人工神经网络(ANN)的计算。任选地,常规通用处理器还可被配置为深度学习加速本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种装置,其包括:主机接口,其配置成接收视频流;随机存取存储器,其配置成存储表示人工神经网络的权重的第一数据且存储表示具有矩阵操作数的指令的第二数据,所述指令能够执行以使用表示所述人工神经网络的所述权重的所述第一数据实施所述人工神经网络的矩阵计算;控制器,其与所述随机存取存储器和所述主机接口耦合,其中所述控制器配置成将表示所述视频流的一部分的第三数据写入到所述随机存取存储器中作为到所述人工神经网络的输入;至少一个处理单元,其与所述随机存取存储器耦合且配置成执行所述指令以至少部分地基于存储于所述随机存取存储器中的所述第一数据和所述视频流的所述部分产生视频分析作为所述人工神经网络的输出;以及视频编码器,其耦合到所述随机存取存储器且配置成使用所述视频分析压缩所述视频流的所述部分;其中所述控制器配置成将表示所述视频流的所述部分的经压缩版本的第四数据写入到所述装置中作为经由所述主机接口接收到的所述视频流的所述部分的替代物。2.根据权利要求1所述的装置,其中所述视频分析包含表示像素概率模型的数据。3.根据权利要求1所述的装置,其中所述视频分析包含图片内预测、图片间预测、跨通道预测或概率分布预测,或其任何组合。4.根据权利要求1所述的装置,其中所述视频编码器配置成基于所述视频分析执行变换、环路后滤波、环路内滤波、下采样、上采样或编码优化或其任何组合。5.根据权利要求1所述的装置,其中所述装置被配置为能够连接到计算机系统以用于操作,且能够从所述计算机系统断开而无需重新启动所述计算机系统的可移除式存储媒体。6.根据权利要求5所述的装置,其中所述装置为固态硬盘、存储卡、网络存储装置或通用串行总线(USB)驱动器。7.根据权利要求6所述的装置,其中所述计算机系统为数码相机、个人计算机、移动计算机、智能手机、机顶盒、个人媒体播放器、物联网(IoT)的集线器和/或服务器计算机。8.根据权利要求6所述的装置,其中所述主机接口配置成根据存储卡接口、通用串行总线(USB)、外围组件互连(PCI)总线、PCI高速(PCIe)总线、外围总线、局域网、移动行业处理器接口(MIPI)、无线个域网、无线局域网或物联网(IoT)的协议通信。9.根据权利要求5所述的装置,其中所述视频分析针对所述视频流的所述部分而产生且用于在其中所述视频流的另一部分接收于所述主机接口中的时间周期期间压缩所述部分。10.根据权利要求9所述的装置,其中在将所述视频流从所述计算机系统流式传输到所述主机接口期间即时执行所述视频流的压缩。11.根据权利要求10所述的装置,其中所述主机接口进一步配置成从所述计算机系统接收一组配置参数;所述一组配置参数识别视频分辨率、视频格式或所述装置中存储所述视频流的经压缩版本的位置;且所述视频流的所述压缩由所述装置根据所述一组配置参数自主地执行。
12.根据权利要求9所述的装置,其进一步包括:实施深度学习加速器的现场可编程门阵列(FPGA)或专用集成电路(ASIC)的集成电路裸片,所述深度学习加速器包括所述至少一个处理单元以及控制单元,所述控制单元配置成从所述随机存取存储器加载所述指令以用于执行。13.根据权利要求12所述的装置,其中所述至少一个处理单元包含配置成对指令的两个矩阵操作数进行操作的矩阵
‑
矩阵单元;其中所述矩阵
‑
矩阵单元包含配置成并行操作...
【专利技术属性】
技术研发人员:P,
申请(专利权)人:美光科技公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。