大模型终端部署新趋势:硬件直接支持混合矩阵乘法
混合精度矩阵乘法与传统的矩阵乘法有何不同?在传统的矩阵乘法中,参与运算的两端数值是对称的,例如FP16*FP16、int8*int8。但大模型的低比特量化打破了这种对称性,使乘法的一端是高比特,另一端是低比特,例如在1-bit的BitNet模型中实现的int8*int1或int8*int2,以及浮点数与整数的混合乘法FP16*i...
英特尔正式推出Gaudi3 AI芯片:比英伟达H100慢,成本更低
新芯片的速度比英伟达广受欢迎的H100和H200GPU(用于AI和HPC)要慢,因此英特尔将其Gaudi3的成功押注于其较低的价格和较低的总拥有成本(TCO)。英特尔的Gaudi3处理器使用两个芯片,包含64个张量处理器核心(TPC,带有FP32累加器的256x256MAC结构)、8个矩阵乘法引擎(MME,256位宽矢量处理器)和96MB片上SRAM缓存,带宽...
我国研制出世界首个碳纳米管张量处理器芯片:高性能、高能效
IT之家7月22日消息,北京大学电子学院碳基电子学研究中心彭练矛-张志勇团队,在下一代芯片技术领域取得重大突破,成功研发出世界首个基于碳纳米管的张量处理器芯片(TPU)。该芯片由3000个碳纳米管场效应晶体管组成,能够高效执行卷积运算和矩阵乘法。该芯片采用了新型器件工艺和脉动阵列架构,可实现并行的2位整...
Groq:软件定义硬件的张量流式处理器架构
核心矩阵乘法单元MXM,包含4个320x320的个MACC-乘累加plane,每个plane由20个16x16个supercell组成。每个plane存储了102,400个“权重参数”,并且有409,600个乘累加器(MAcCs)。MXM支持8位整数和16位浮点数的数值,通过同时使用两个320×320字节平面来实现16位浮点数结果。每个输出只经过一次舍入步骤,就产生320...
掌握PyTorch 张量乘法:八个关键函数与应用场景对比解析
是PyTorch中专门用于二维张量(矩阵)之间进行矩阵乘法的函数。与torch.matmul不同,torch.mm仅适用于2D张量,并且不支持高维张量或广播操作。torch.mm进行标准的矩阵乘法操作,适用于两个2D张量(矩阵)之间的乘法。对于形状为(m,n)的张量A
科学家发现运算速度更快的矩阵乘法算法
近期,清华大学交叉信息研究院段然副教授带领团队,采用非对称哈希弥补组合损失的方法,通过对CW张量的八次幂进行分析,打破矩阵乘法最优时间复杂度的指数界限,成功给出了<2.371866的新的上界(www.e993.com)2024年12月19日。这里的“上界”指的是矩阵乘法更快的算法,即矩阵乘法最终的计算复杂度的上界。
AI Phone:先是芯片,再是模型,最后才是手机厂商
ASIC思想下的AI芯片作为一种专用处理器,通过在硬件层面优化深度学习算法所需的大矩阵乘法、张量运算、卷积运算等关键运算,可以显著加速AI应用的执行速度,降低功耗。与在通用CPU上用软件模拟这些运算相比,AI芯片能带来数量级的性能提升。因此,AI芯片已成为如今大模型训练和推理的关键载体。
(2024.11.4)半导体一周要闻-莫大康
光子计算再度被认真考虑也是因为AI的兴起。AI的计算,不管是卷积神经网络(ConvolutionalNeuralNetwork;CNN)或者是在大型语言模型中使用的变换器(transformer)模型,其最底层的计算都是矩阵乘法的平行运算。数据量大,但是算法相对单一,这是光子计算的良好应用场域。
AI的最大瓶颈是什么?
Eiso:我们的思路是,这些芯片每一代的性能提高了两倍,而我们在它们上面进行的操作仍然是相同的——矩阵乘法、加法等数学运算。从训练的角度来看,Blackwell并不会解锁任何新的功能,只是意味着我们可以用更少的芯片完成更多的工作。我的H2百芯片会在市场上变得不那么有价值,但这并不一定意味着我必须升级到下一代。
高性能光子芯片突破神经网络限制!
针对在矩阵-向量乘法操作中的低插入损耗和宽电光带宽现象,本文通过精细的电光测试和光学表征手段,深入分析了TFLN材料的微观机理,得到了器件在不同工作波长下的调制特性和带宽表现。这一研究不仅揭示了TFLN材料在负数乘法运算中的新应用潜力,还为其在复杂神经网络计算中的可行性奠定了基础。