英特尔正式推出Gaudi3 AI芯片:比英伟达H100慢,成本更低
新芯片的速度比英伟达广受欢迎的H100和H200GPU(用于AI和HPC)要慢,因此英特尔将其Gaudi3的成功押注于其较低的价格和较低的总拥有成本(TCO)。英特尔的Gaudi3处理器使用两个芯片,包含64个张量处理器核心(TPC,带有FP32累加器的256x256MAC结构)、8个矩阵乘法引擎(MME,256位宽矢量处理器)和96MB片上SRAM缓存,带宽...
集数学与物理科学于一体的美感——《从群到李代数:浅说它们的理论...
著有《物理学中的几何方法》《从一元一次方程到伽罗瓦理论》《从求解多项式方程到阿贝尔不可能性定理——细说五次方程无求根公式》《从代数基本定理到超越数——一段经典数学的奇幻之旅》《从矢量到张量:细说矢量与矢量分析,张量与张量分析》《从空间曲线到高斯-博内定理》;译有《怎样解题:数学思维的新方法》《恋...
黄仁勋两万字访谈实录:希望英伟达拥有5万名员工和1亿个AI助手
他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有...
外尔半金属薄膜的介电张量及色散性质研究
从修正的电位移矢量和电场强度关系出发,通过介电函数张量比较了不同费米能级情况下WSM介电常数的变化。在此基础上,引入4×4的磁光矩阵来求解麦克斯韦方程组,得到菲涅尔反射系数,研究波矢的色散方程。研究结果表明,WSM的色散在短波矢处具有线性色散,而在长波矢极限近似具有恒定频率。当WSM厚度的持续增大...
如何理解纳维尔-斯托克斯方程?《张朝阳的物理课》详解流体的动力学
总结起来,即一个一阶张量的协变导数,再升一次指标,得到的是梯度算符与该矢量的张量积的逆变形式。如果仿照求点乘,对两个指标进行缩并,即立刻得到散度的对应表达在下面的计算中,将反复用到这些“翻译”,在矢量微积分与张量分析间来回切换,以实现高效地推导与计算。
简化AI芯片设计:单一指令集和工具链的集成创新
我们创造了一种全新的方法,只用RISC-V指令集和单一开发环境,使得编程变得简单(www.e993.com)2024年12月19日。将各种模块集成到一个RISC-VAI处理单元中,意味着可以轻松部署新的AI算法,而不必担心如何分配工作负载。数据存储在矢量寄存器中,可以由矢量单元或张量单元使用,每个部分只需依次等待访问同一位置即可。因此,零通信延迟和最小化的缓存使得...
高性能光子芯片突破神经网络限制!
导读:研究团队开发了一种基于薄膜锂铌酸盐的集成光子张量核心,实现了高达120GOPS的计算速度,并能灵活调整输入输出数量,支持多种神经网络架构,为光子学在AI领域的应用打开新大门。研究背景光子学是研究光的产生、传播和相互作用的科学,因其在高速和低功耗计算中的优势,逐渐应用于人工智能(AI)和神经形态计算等...
为什么雨滴落下不会砸死人?《张朝阳的物理课》推导斯托克斯定律
这个等式的右边看起来还是二阶导,但与(1)式不同的是,这里的nabla算子▽是依次以叉乘的形式作用在后面的矢量上的,而(1)式是两个nabla算子以点乘成拉普拉斯算子的形式作用到速度矢量上,前者的两次求导操作是容易拆分的,后者要拆分的话比较困难,需要先作用一次导出二阶张量再求散度来缩并回一阶矢量。受到(4)式的启...
张朝阳求纳维尔斯托克斯方程的特解
首先来计算第一次nabla算符作用后的结果,它将被作用的矢量沿不同方向求导,但对求导方向的基矢和被作用后的矢量的基矢这两个基矢而言做了张量积,张量积既不是点乘也不是叉乘,而是把两个基矢直接放在一起作为二阶张量的基底,以三维空间来看,它包含了3×3=9个系数和基底。用??代表矢量的张量积,可以写成...
AI芯片的技术格局(GPU/TPU/FPGA)
AI引擎包含一组具有紧密耦合本地内存的VLIW/SIMD矢量内核。与FPGA一样,它针对专业硬件设计具有高度可配置性,并且针对DL推理。FPGA的灵活性可帮助大型软件公司在其大型数据中心中加速一组特定的AI应用程序。与Intel合作的MicrosoftBrainwave项目就是其中之一。功耗和延迟旨在匹配ASIC设计。但硬件...