14336个ARM核心,基于芯片的晶圆AI引擎

2021年10月15日//尼克费海提
14336个ARM核心,基于芯片的晶圆AI引擎
美国的研究人员在世界上最大的晶圆片规模的机器学习引擎中使用了2048片芯片,其中14336个ARM Cortex M3核。

加州大学洛杉矶分校和美国伊利诺伊大学的研究人员在晶圆级互连基板上集成了预先测试过的已知良好的未包装裸晶片或晶片。该系统由1024个芯片组成,每个芯片由两个芯片组成,共2048个芯片,直径约为15000毫米2总面积。

“据我们所知,这是迄今为止尝试过的最大的芯片组装系统,”该团队在最近的一篇论文中说。“就活跃面积而言,我们的原型系统比英伟达/AMD的单片芯片系统大10倍,比英伟达的64片Simba研究系统大100倍。”

相比之下,Cerebras的第二代人工智能系统在单个晶圆上有850,000个优化张量核,分布在46225平方米的面积上。

加州大学洛杉矶分校(UCLA)开发的基于微晶片的晶片级系统使用硅互连Fabric (Si-IF),在高密度互连晶片上紧密集成多个晶片,该高密度互连晶片基于细间距铜柱(10µm间距)I/ o,比基于插入器的系统中使用的传统μ包密度至少为16倍。晶片间距为~ 100µm。

该芯片可以采用异构技术制造,并有可能提供更好的性价比,在高性能计算和AI应用中,它具有100兆位/秒的tb级内存和PFLOPs的计算吞吐量。

相关文章

“这个原型系统的规模迫使我们重新思考设计流程的几个方面。由于这是首次尝试建立这样一个系统,在制造和装配过程中存在一些未知因素。”该团队在论文中说。“因此,容错和弹性是我们设计决策背后的主要驱动力之一。我们还确保设计决策不会太复杂,这样他们就可以由一个小团队可靠地执行,”他们说。

每个芯片由两个芯片组成:一个计算芯片和一个内存芯片。每个40nm计算芯片包含14个独立可编程ARM Cortex-M3处理器核,64kbit本地SRAM,内存芯片提供512KB全局共享内存。该系统的架构是一个统一的存储系统,其中任何一块上的任何核心都可以通过互连直接访问整个晶圆级系统的全局共享内存。

芯片是在TSMC 40nm-LP工艺中设计和制造的,端接在顶部铜金属层,在那里搭建了细间距I/O焊盘。晶片级衬底是一种无源衬底,其中包含了连接到晶片I/ o的晶片与铜柱之间的互连线。晶片是倒装在晶片基板上的,通过边缘连接提供电源。

由于硅片衬底的尺寸比十字线的最大尺寸大得多,Si-IF衬底的设计必须是可逐步重复的。整个晶圆片被分成更小的相同的薄片,通过拼接这些薄片来制作,每个薄片由72块(12x6)组成。inter-chiplet链接在每个十字线有2µm的宽度和间距3µm,但在每个分划板的边缘链接逃离是胖(宽度增加到3µm和间距再保险[1]人为2µm),同时保持常数,以减少分划板拼接误差的影响。

网格边缘的每个瓷片上的若干I/O需要呈扇形向晶圆边缘散开,并与外部连接器相连,因此每个网线上都设计有扇形布线和边缘I/O焊盘。Si-IF基片上的晶片槽将保持不填充状态,外部连接器将连接到这些晶片中的晶片。

为了确保这些I/O焊盘不会在晶片粘合时产生问题,该团队使用了定制块蚀刻工艺,在不需要的地方移除焊盘。如果铸造厂在每个晶圆上支持多个薄片,那么晶圆的边缘也可以使用一个单独的掩模来印刷。

其他chiplet文章

其他文章在eeNews欧洲


你确定吗?

如果您访问désactivez les cookies,您就可以访问我们的网站。

你可以给我们être再riger vers谷歌。

Baidu