AMD发布新GPU加速卡Instinct MI325X:八卡2TB HBM3E、FP8性能超...
在AdvancingAI2024大会上,AMD正式发布了新款GPU加速卡“InstinctMI325X”。它在大获成功的MI300X基础上再进一步,主要是增强了HBM内存部分。硬件规格、性能篇MI325X配备了多达256GBHBM3E内存,相比于MI300X又增加了64GB,还是八颗,但单颗容量从24GB增至32GB。同时,带宽从5.3TB/s来到了6TB/s,同样...
GPU泡沫将破?英伟达再创新高
首先是Nvidia专有的CUDA软件,用于加速GPU计算。CUDA平台包括编译器、库和开发人员工具,可帮助程序员加速其应用程序。全球有超过500万开发人员使用CUDA。根据英伟达首席执行官黄仁勋的评论,Nvidia在人工智能处理器方面的竞争优势是可持续的,包括人工智能推理领域。这对Nvidia来说是个好兆头。MeliusResearch分析师BenReit...
字节跳动采购10万颗华为GPU!性能、能效超NVIDIAA100
性能、能效超NVIDIAA100字节跳动正在大规模向华为采购GPU加速芯片,用于AI大模型的训练和推理。字节跳动和BAT一样对高性能GPU需求非常大,目前正在使用的是NVIDIAH20,专为中国市场定制的特供版。消息人士称,字节跳动今年已经向华为订购了多达10万颗昇腾910B芯片,目前已经到货3万颗。昇腾910B的性能、能效都优于NVI...
每天消失30家,为何这5家国产GPU公司活得很好?
基于天垓、智铠加速卡的算力集群方案,天垓、智铠系列通用GPU产品能够有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pre-train(预训练)和Fine-tune(微调),并适配了清华、智源、复旦等在内的国内多个研究机构的开源项目。一年前,在2023年的北京智源大会上,天数智芯宣布,智源研究院70亿参数的Aquila语言基...
扩张与洗牌并存 国产GPU厂商发力AI生态
按定义和应用看,GPU起初是一种显示芯片,用于加速计算机上的图像处理。随着技术进步和应用范围的扩大,GPU衍生出了GPGPU,后者是通过利用GPU并行处理能力特别强、计算能效比高的特点,处理更为复杂的计算任务(如AI模型训练与推理等)。基于此,如今的GPU已被广泛应用于人工智能、虚拟现实、游戏、科学计算等诸多领域。I...
CUDA vs OpenCL:GPU 编程模型该如何选?
近年来,GPU(图形处理单元)已从最初的图形渲染专用硬件,发展成为高性能计算领域的“加速器”,为各类计算密集型任务提供了强大的并行计算能力(www.e993.com)2024年11月8日。GPU编程,即利用GPU的并行架构来加速应用程序的执行,已成为推动科学计算、人工智能、大数据等领域快速发展的重要驱动力。
CUDA是英伟达的壁垒,却是其他GPU厂商的泥潭
虽然,英伟达并没有明确规定CUDA只能在其硬件上运行。实际上,CUDA的部分组件,如编译器和开发工具,可以在不使用英伟达GPU的情况下运行。然而,CUDA的核心功能——GPU加速计算——确实是专为英伟达的GPU设计和优化的。具体来说,CUDA的计算核心是紧密依赖于英伟达GPU架构(如CUDAcores)进行加速的,因此在实际应用中,CUD...
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
2.多种高效管理GPU内存的方法,如全局内存、共享内存和常量内存3.创建并管理多条并行线程,提高数据处理效率4.编译器、调试器和性能分析工具组成的工具链,,帮助开发者优化代码简而言之,CUDA使GPU加速LLM训练变为现实,大幅缩短了训练时间。100%的Triton内核...
数毛社解释PS5游戏运行更好:高效GPU编译器和API
近日,数毛社解释了PS5和XSX在游戏运行上的差异,为何XSX的TeraFLOPS(浮点运算能力)强于PS5,但不少游戏在PS5上的实际运行效果要略强于XSX。据数毛社分析,PS5之所以运行效果优于XSX,是因为其拥有更高效的GPU编译器和API。以《艾尔登法环》举例,PS5版运行速度更快,但索尼对可变刷新率的支持有限,故游戏在XSX上会带...
摩尔线程自主GPU成功适配!OpenCV-MUSA正式开源:轻松替代CUDA
此次发布的OpenCV-MUSA开源项目,目的就在于将OpenCV的强大功能、MUSA架构的高性能计算能力相结合,充分发挥摩尔线程全功能GPU的强大算力。在现有OpenCV代码的基础上,摩尔线程新增了MUSA设备后端,并为多个算法模块提供了MUSA加速支持,并对编译脚本也进行适配。目前,OpenCV-MUSA已支持包括core、mudev、musaarithm、musa...