【技术实现步骤摘要】
【国外来华专利技术】经改进的插入指令的装置和方法背景
本专利技术一般涉及计算科学,且更具体地涉及经改进的插入指令的装置和方法。
技术介绍
图1示出了在半导体芯片上用逻辑电路实现的处理核100的高级图。该处理核包括流水线101。该流水线由各自被设计成在完全执行程序代码指令所需的多步骤过程中执行特定步骤的多个级组成。这些级通常至少包括:1)指令取出和解码;2)数据取出;3)执行;4)写回。执行级对由在先前级(例如在上述步骤1))中所取出和解码的指令所标识并在另一先前级(例如在上述步骤2))中被取出的数据执行由在先前级(例如在上述步骤1))中取出和解码的指令所标识的特定操作。被操作的数据通常是从(通用)寄存器存储空间102中取出的。在该操作完成时所创建的新数据通常也被“写回”寄存器存储空间(例如在上述级4))。与执行级相关联的逻辑电路通常由多个“执行单元”或“功能单元”103_1至103_N构成,这些单元各自被设计成执行其自身的唯一操作子集(例如,第一功能单元执行整数数学操作,第二功能单元执行浮点指令,第三功能单元执行从高速缓存/存储器的加载操作和/或到高速缓存/存储器的存储操作等等)。由所有这些功能单元执行的所有操作的集合与处理核100所支持的“指令集”相对应。计算机科学领域中广泛认可两种类型的处理器架构:“标量”和“向量”。标量处理器被设计成执行对单个数据集进行操作的指令,而向量处理器被设计成执行对多个数据集进行操作的指令。图2A和2B呈现了展示标量处理器与向量处理器之间的基本差异的比较示例。图2A示出标量AND(与)指令的示例,其中单个操作数集A和B一起进行“与”运算以产生奇 ...
【技术保护点】
一种装置,包括:指令执行逻辑电路,用于执行:a)第一指令和第二指令,其中所述第一指令和所述第二指令两者将第一组输入向量元素插入相应的第一和第二结果向量的多个第一不重叠部分中的一个部分中,所述第一组具有第一位宽,所述多个第一不重叠部分中的每个部分具有与所述第一组相同的位宽;b)第三指令和第四指令,其中所述第三指令和所述第四指令两者将第二组输入向量元素插入相应的第三和第四结果向量的多个第二不重叠部分中的一个部分中,所述第二组具有比所述第一位宽大的第二位宽,所述多个第二不重叠部分中的每个部分具有与所述第二组相同的位宽;掩码层电路,用于在第一结果向量粒度下对第一和第三指令进行掩码操作,并在第二结果向量粒度下对第二和第四指令进行掩码操作。
【技术特征摘要】
【国外来华专利技术】1.一种指令处理装置,包括:解码器,用于将具有第一立即操作数的第一指令解码成经解码的第一指令、将具有第二立即操作数的第二指令解码成经解码的第二指令、将具有第三立即操作数的第三指令解码成经解码的第三指令、以及将具有第四立即操作数的第四指令解码成经解码的第四指令;指令执行逻辑电路,用于执行:a)所述经解码的第一指令和所述经解码的第二指令,其中所述经解码的第一指令的执行用于将第一组输入向量元素插入第一结果向量的多个第一不重叠部分中的一个部分中,所述经解码的第二指令的执行用于将第一组输入向量元素插入第二结果向量的多个第一不重叠部分中的一个部分中,所述第一组输入向量元素具有第一位宽,所述多个第一不重叠部分中的每个部分具有与所述第一组输入向量元素相同的位宽;b)所述经解码的第三指令和所述经解码的第四指令,其中所述经解码的第三指令的执行用于将第二组输入向量元素插入第三结果向量的多个第二不重叠部分中的一个部分中,所述经解码的第四指令的执行用于将第二组输入向量元素插入第四结果向量的多个第二不重叠部分中的一个部分中,所述第二组输入向量元素具有比所述第一位宽大的第二位宽,所述多个第二不重叠部分中的每个部分具有与所述第二组输入向量元素相同的位宽;掩码层电路,用于在由所述第一立即操作数和所述第三立即操作数指定的第一结果向量粒度下对所述第一结果向量和所述第三结果向量进行掩码操作,并在由所述第二立即操作数和所述第四立即操作数指定的第二结果向量粒度下对所述第二结果向量和所述第四结果向量进行掩码操作。2.如权利要求1所述的装置,其特征在于,所述第二组输入向量元素的所述第二位宽是所述第一组输入向量元素的所述第一位宽的两倍大。3.如权利要求2所述的装置,其特征在于,所述第一组输入向量元素是128位,且所述第二组输入向量元素是256位。4.如权利要求1所述的装置,其特征在于,所述第一结果向量粒度是32位,且所述第二结果向量粒度是64位。5.如权利要求1所述的装置,其特征在于,所述第一、第二、第三和第四结果向量是512位。6.如权利要求1所述的装置,其特征在于,所述向量元素是浮点数据值。7.如权利要求1所述的装置,其特征在于,如果目的地向量中的元素的位置被掩码,则所述掩码层电路允许保留所述元素。8.一种用于处理指令的方法,包括:将具有第一立即操作数的第一指令解码成经解码的第一指令、将具有第二立即操作数的第二指令解码成经解码的第二指令、将具有第三立即操作数的第三指令解码成经解码的第三指令、以及将具有第四立即操作数的第四指令解码成经解码的第四指令;执行所述经解码的第一指令,包括:将第一组输入向量元素插入到第一结果向量的多个第一不重叠部分中的一个部分中,所述第一组输入向量元素具有第一位宽,所述多个第一不重叠部分中的每个部分具有与所述第一组输入向量元素相同的位宽;以及在由所述第一指令的第一立即操作数指定的第一粒度下对所述第一组输入向量元素进行掩码操作;执行所述经解码的第二指令,包括:将第二组输入向量元素插入到第二结果向量的多个第二不重叠部分中的一个部分中,所述第二组输入向量元素具有第二位宽,所述多个第二不重叠部分中的每个部分具有与所述第二组输入向量元素相同的位宽;以及在由所述第二指令的第二立即操作数指定的第二粒度下对所述第二组输入向量元素进行掩码操作,所述第一粒度比所述第二粒度精细;执行所述经解码的第三指令,包括:将第三组输入向量元素插入到第三结果向量的多个第三不重叠部分中的一个部分中,所述第三组输入向量元素具有所述第一位宽,所述多个第三不重叠部分中的每个部分具有与所述第一组输入向量元素相同的位宽;以及在由所述第...
【专利技术属性】
技术研发人员:E·乌尔德阿迈德瓦尔,R·凡伦天,J·考博尔,B·L·托尔,M·J·查尼,Z·斯波伯,A·格雷德斯廷,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。