SDN可编程交换芯片架构核心:RMT,一个可编程的网络DSA
用于核心路由器的芯片可能需要一个非常大的32位IP最长匹配表和一个小的128位ACL匹配表;用于L2桥的芯片可能希望有一个48位目的MAC地址匹配表和第二个48位源MAC地址学习表;企业路由器可能希望有一个较小的32位IP前缀表和一个更大的ACL表以及一些MAC地址匹配表。为每个用例制造单独的芯片是低效的,因此商业交换机...
从零开始设计一个GPU:附详细流程
调度程序——GPU的主要控制单元,将线程分配给可用资源执行然后在每个计算核心中,我了解了主要单元:寄存器-为每个线程存储数据的专用空间。本地/共享内存-线程之间共享内存以相互传递数据加载-存储单元(LSU)-用于从全局内存存储/加载数据计算单元-ALU、SFU、专用图形硬件等,用于对寄存器值执行计算...
AI芯片黑马Groq走红,英伟达又多了一个挑战者
在算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。需要注意的是,尽管Groq媒体称为“最快大模型”,但事实上Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral8x7B-32k和Llama270B-4k。Groq对此发文解释道:“我们不是大型语言...
谷歌二代TPU到底有什么秘密?听听专家怎么说的
你可以看到TPU2机柜的计算节点从一侧伸出来,这一侧有6个接口,当中的2个接口向上连接到一个机框。在TPU2机框的最顶行,两个接口向上延伸,进入另一个机框,里面似乎没有安装TPU2单元。照猜测它是一个准系统(Barebone)闪存机框,以很高的速度为TPU存储本地数据。不论怎样,主板至少有32个TPU2,也就是说一个...
OceanBase CEO 杨冰:2.8万字总结金融核心系统数据库升级路径与...
以某国有大行为例,国内首个贷记卡核心系统“大机下移”分布式已经稳定运行一年有余,目前已有ECIF、对公网银等几十套系统数据库升级至OceanBase,传统核心也在基于OceanBase进行大机下移和单元化改造;以中国太平洋保险公司(以下简称“中国太保”)为例,其采取“先难后易”策略,自关联关系最为复杂、商业数据库绑定程度...
Zen 5 对比初代已提升 85%!AMD CPU/GPU/NPU 三大新架构揭秘
锐龙AI300系列升级到了全新的XDNA2架构,也是AMD的新一代NPU(www.e993.com)2024年11月17日。最直观的变化,就是AI引擎单元从20个大幅增加到32个(分为四行八列),而每个单元内的MAC数量也翻了一番。再加上板载内存容量增加1.6倍、BlockFP16块状浮点格式支持、非线性增强支持、8条并发空间流(翻倍)...
超强MCU 科普文
Watchdog的最基本的应用是为MCU因为意外的故障而导致死机提供了一种自我恢复的能力。PART.04全球主流单片机制造商(排名不分先后,整理为主流厂商,如有缺少请在评论区补充)欧美地区1、Freescale+NXP(飞思卡尔+恩智浦):荷兰,主要提供16位、32位MCU。应用范围:汽车电子、LED和普通照明、医疗保健、多媒体融合、...
AI时代进击的CPU们
DP4A和DP2A类指令最早是nvidia在Pascal架构GPU中引入,每个CUDACore有一个针对int8的dp4a单元。存储在32位寄存器中的int8向量,与另一个int8向量做点积运算(即DP),中间结果和结果32位寄存器中的数据累加到一起,存回结果寄存器。DP2A与之类似,只是把8bit数据换成16位的数据,如int16,fp16或者bf16。后两类的结果...
EDR板块涨势不止,启明信息一个月股价翻倍,这些公司搭热点要当概念股
华西证券研报表示,中国乘用车市场过去5年基本稳定在2000万台左右,假设随着EDR快速普及,设备价格大幅下滑,预计价格会稳定在500元左右,保守预计EDR设备市场空间在100亿元左右,其中传感器、存储、MCU、备用电池等产业链受益较大。值得注意的是,从交易数据来看,伴随着龙头股股价的飙升,不少游资机构也看上了EDR板块...
存储芯片行业深度报告:算力拉动,拐点提前
ChatGPT带动算力需求飙升,存算侧硬件全面增量需求。据NVIDIA估算,训练GPT3,假设单个机器的显存/内存容量足够的前提下,8张V100显卡训练时长预计达36年,1024张80GBA100显卡完整训练GPT-3的时长为1个月,算力侧硬件需求全面增长。