2024全球AI芯片峰会:架构创新群雄混战,边端较劲大模型

2024-10-07

9月6日~7日,2024全球AI芯片峰会(GACS 2024)在北京举行。本届峰会以「智算纪元 共筑芯路」为主题,全面展示AI芯片产业在算力、网络、存储、软件、系统及应用方面的前沿技术、最新成果与落地进程。

50+位产学研嘉宾全程密集输出干货,本届峰会有 超过1500位观众到场参会,线上观看人次累计超过210万。

大会由智一科技旗下芯东西联合智猩猩发起主办,以「智算纪元 共筑芯路」为主题,邀请50+位嘉宾来自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等领域的嘉宾与会,分享AI产业最新技术创新、落地现状、商业化挑战与机遇。

 

继首日开幕式、数据中心AI芯片专场、Chiplet技术论坛火热开场(直击国产AI芯片生存现状:GPU造血,TPU突袭,Chiplet成大势,网络卡脖子)后,峰会第二天演讲继续输出密集干货,并正式公布「2024年度中国智算集群解决方案企业TOP 20」、「2024年度中国AI芯片新锐企业TOP 10」AiiP AI生产力创新先锋企业榜单。

 

AI之外,近存计算斗不过存算分离

上午主会场举行的AI芯片架构创新专场期间,北京超弦存储器研究院首席科学家戴瑾进行了一场信息满载的存内计算主题演讲。在回顾芯片级、机架级存算分离与近存计算的斗争后,他抛出结论:AI之外,近存计算斗不过存算分离。

天量的AI模型参数带来无尽的带宽要求,存算分离架构的带宽、功耗、时延会严重制约系统性能,严重降低硬件的费效比。涉及HBM、3D封装等的近存计算,以及存内计算,成为必需品。

目前做存内计算的路线中,彻底借鉴人类的类脑计算进展缓慢,但戴瑾认为“笨的AI容易成功”。神经网络计算中还有数字引擎和模拟引擎两种路线。数字引擎把GPU、NPU或部分与内存集成在同一个芯片上,要求存储介质可以和逻辑工艺集成;模拟引擎用存储单元和存储阵列做计算,等效内存容量扩大16倍,但可用算法有限。

 

存内计算按介质划分为SRAM、NOR、DRAM成熟存储介质和MRAM、RRAM、PCRAM、FeRAM等新兴存储介质。

戴瑾称这些存储介质都不理想,各有优劣。如SRAM兼容逻辑工艺、速度快,但容量低、容易漏电;NOR Flash工艺成熟、节能,但无法使用先进工艺节点,且受擦写速度和擦除次数所限,只能用于推理;DRAM理论上可用于训练和推理,最大困难不在于技术,而在于产业。

新兴存储介质中,FeRAM存储介质是铁电材料。戴瑾认为,这是新兴存储中唯一容量可能超过DRAM且速度、功耗性能相对好的介质,应该可以在存算一体中取代DRAM,作为一种非易失存储或存内计算介质都很有吸引力。

比新兴存储更新的是2T0C DRAM。在戴瑾看来,这是看得见的存储技术中最理想的存内计算介质。2T0C DRAM分读写两个MOS,利用读晶体管的寄生电容做存储。其最大的好处是做多bit更为简单、直接,速度不逊于DRAM,能做到无限次擦写、功耗很低,但唯一的不确定性是IGZO材料在半导体行业尚未彻底应用。

突破有效算力天花板,可重构、存算一体、类脑智能是未来

随着AI PC等边缘端推理需求增长,珠海芯动力创始人兼CEO李原相信,未来可重构芯片将成为主流。他认为性价比已成为边缘计算的核心要求,但性能和TOPS并非直接挂钩,模型在Prefill和Decode阶段的计算类型不同,也对性能有不同的要求。针对这一特点,珠海芯动力推出了可重构并行处理器架构(RPP)。

RPP基于数据流架构,兼容CUDA指令集,融合了GPU和NPU的优势。RPP第一代产品算力可达32TOPS,DRAM带宽达59GB/s,具有性能高、面积效率高、功耗低灵活性强的特点,FOStrip先进封装工艺将芯片面积和厚度缩小至原来的1/3。测试中,其计算机视觉和信号处理性能都较同类产品有较大提升,以14nm工艺达到甚至超越了英伟达A100芯片的功耗。

 

芯片行业,没电了

 

没有了!