AI芯片的技术格局(GPU/TPU/FPGA)
XilinxVersal是一个自适应计算加速平台(ACAP)。ACAP是一个异构计算平台,结合了标量引擎、自适应引擎(又名可配置逻辑块CLB)和AI引擎。我们可以将其视为SoC(片上系统)的AI版本。所有这些引擎都与片上网络(NoC)互连,以实现多TB通信。AI引擎包含一组具有紧密耦合本地内存的VLIW/SIMD矢量内核。
在算力竞速方面,FPGA是如何紧紧抓住AI大时代的呢?
由于AI算法的核心是大量的乘加/乘累加,不是一般的乘加,而是一种“张量”运算。所以促进FPGA实现AI算法的途径自然是将DSP模块提升到更适合AI张量运算,而这恰恰是Intel技术路线所在。Intel第一款采用张量模块的FPGA是2020年推出的Stratix10NX,其张量模块架构主要针对AI计算中常用的矩阵-矩阵或矢量-矩阵乘法和加法运...
芯片设计五部曲之四 | 电磁玄学宗师——射频芯片
它将电路中的元件抽象为等效的电阻、电容和电感等参数,以简化的形式描述了复杂电路的行为,减少了繁琐的计算步骤。欧姆定律和基尔霍夫定律是集总参数电路的两个基本定律,只跟电路的连接方式有关,与元件的位置无关。模型是关于时间的单变量函数,属于标量计算(即只有大小,没有方向的量)。适用于描述低频电路或电...
华硕灵耀 14 Air AI 超轻薄本评测:AI 应用渐成熟,离电性能够出色
这是因为不同的模块均有着自己的擅长之处,将一些负载比如AI助手交给NPU处理,可以更为高效节能。事实上,LunarLake的三大模块CPU、GPU和NPU都能进行AI运算,集合起来整个SoC的算力可高达115TOPS。第四代NPU比MeteorLake上的第三代NPU有着明显的提升可以看到由于锐炫140V实在太...
英特尔Lunar Lake浅析:架构推倒重来,AI性能猛增
由于MAC阵列可以在单个周期内处理2048个INT8和1024个FP16的乘法累加计算,并且宽度达到512bit,在一个时钟周期内,NPU4的矢量运算效率非常高。SHAVEDSP可以让NPU4带来4倍的TOPS,12倍于NPU3的矢量计算性能,也对于Transformer语言模型和大语言模型LLM而言非常有用。
IP核出货量达130亿颗 业界期待AI成就RISC-V生态
黄烨锋进一步指出,RISC-V+AI的紧耦合模式就是通过指令集扩展实现AI加速,理论上,ARM公司的Neon、Helium(前者是适用于ARMCortex-A系列处理器的一种128位SIMD扩展结构,后者是ARMCortex-M系列产品的MVE一种新的矢量指令集扩展)都属于此类;AI+RISC-V的松耦合模式则在RISC-VCPU的基础上,增加协处理器...
异构计算+高性能低功耗NPU,高通正在推动终端侧生成式AI发展
以第三代骁龙8为例,高通HexagonNPU中最重要的是张量、矢量和标量三大加速单元,它们能够对不同的数据类型做处理,例如张量加速器可以用来处理卷积运算、张量数据。此外还包括片上内存,让这三个加速器能够协作更高效。神经网络推理是有很多层的,每层之间都会有一些中间数据。而这些中间数据如果没有片上内存做缓存的话,...
论文荣登计算机体系结构顶会ISCA,芯片架构成为边缘AI最佳并行计算...
这种设计选择提供了广泛的内存容量,增强了数据重用并减少了频繁访问外部存储器的需求。3)矢量化和多线程管道:RPP的硬件架构和编程模型可实现有效的矢量化和多线程管道。这种设计充分利用了RPP进行并行处理的全部计算潜力,确保其资源得到最大程度的利用,从而提高性能。
类脑计算有望彻底改变计算领域,丰田合作综述类脑计算的兴起
超维计算(HD,也称为矢量符号架构)的核心是维数约为1000s的超向量,它们是(伪)随机的,具有独立且相同的分布(i.i.d)分量;即近似正交向量。例如,在经典计算机中,图像由像素强度矩阵表示,其中更高的强度意味着更亮的像素。但是,图像也可以存储为超维向量(例如,维数为10,000),这是一种完全整体的表示,超向...
4支F1车队在用的AI仿真,拿到2700万美元融资
此外,NeuralConcept的在汽车行业也有系列应用辅助工程设计,如换热器应用预测出口温度和压力下降,或引入Shape应用预测模拟结果,使工程师能获得标量和矢量,整合风洞数据,以及Shape可以模拟优化旋转机械。由此,该平台加速了产品开发、产品模拟、性能改善的效率,被形容为“未来车辆的工程智能”。他们与全球多家供应商签订...