Flex Logix用尖端人工智能芯片挑战英伟达

面试 |
Flex Logix首席执行官Geoff Tate表示,在推出高度优化的16nm芯片和PCI Express边缘人工智能卡后,Flex Logix正在考虑更激进的设计阅读更多
尼克费海提

分享:

窗口。dataLayer =窗口。dataLayer | | [];

函数gtag () {dataLayer.push(论点);}

gtag (js,新的日期());gtag(“配置”、“ua - 160857065 - 1”);

FPGA芯片制造商Flex Logix正在与行业巨头英伟达(Nvidia)竞争一款用于视觉系统的机器学习新芯片。该公司已将其互连织物用于特定应用的推理引擎,用于边缘使用16纳米工艺进行机器学习,但正在关注第二代7纳米工艺。

Flex Logic的首席执行官兼联合创始人、Rambus的前创始人、AMD处理器业务总经理杰夫•塔特(Geoff Tate)表示,这款芯片针对视频图像和大型机器学习模型进行了优化,而不是通用的人工智能芯片。

“我们的重点是在边缘,在现实世界中,超声波系统,相机应用,自动驾驶汽车,基因测序和自动检测,”Tate说。

“除了自动驾驶汽车,客户只有一个传感器,并带来带有深度信息的矩形‘图像’。所有这些客户都有一个单一的模型,他们不必关心其他模型是如何运行的,也不必寻找一个能够快速且廉价运行它的芯片,这就是我们得到特定应用推断的地方。他们想要更高的产量和更低的成本。”

与竞争对手Blaize一样,Flex Logix芯片也是一种图形处理器,依靠编译器将芯片的资源分配给人工智能模型。

“超声波或核磁共振成像使用大模型和大图像,”他说。最小的是50万到400万像素。我们使用最大的模型——数据权重为62mb,我们的客户希望运行大图像,并不想放弃精度。”

“你不能在FPGA上有效地运行这些模型——如果你想实现整个模型,你需要一个非常大的FPGA,这是非常昂贵的,模型的每一层都必须实现。我们很久以前就放弃了这个想法,通过在几微秒内快速重新配置来解决这个问题。”

芯片为54mm2在16nm TSMC工艺中,最坏情况下热TDP封装为7到13W,使其非常适合边缘设计。“我们将以21 x 21毫米倒装芯片和PCIe板的形式销售,比如基因测序或核磁共振等系统,它们可以有一个服务器机架,这样就可以通过插入板来更容易地集成技术。”

该芯片使用了一个一维向量处理单元阵列,可以在4us中重新配置,以允许多层神经网络计算。这给出了吞吐量/mm2这比GPU的效率高3到18倍,Tate说,如果芯片采用相同的工艺技术,这将永远是一个优势。

他说:“我们之所以选择这种方法,是因为它提供了最好的粒度。”“它在64个周期内引入一个张量,做一个64 x 64的矩阵乘法,移出结果,输入和输出可以通过编程连接到其他tpu或内存。处理器是16个tiles,所以我们将它们整合到一个数组中,这个实现是64个处理器,这是针对tiles的。”

“高速下的重新配置是一个缓存内存的问题,它保存下一层的配置,并在4us中转移。我们也有很多的SRAM芯片隐藏,TPU的权重矩阵例如我们称之为L0、L1接近处理器,L2分割成块,分别可寻址64 x64乘数L3,大概是1 mbit配置内存。我们总是可以有一个完整的带宽,无阻塞的路径通过处理器到内存,这给内存的高利用率,”他说。

他说,这种重新配置的成本非常低。“像YOLOv3 (You Only Look Once)这样的大型模型需要3000亿次MAC操作,平均每层需要30亿次MAC操作。这比重新配置所需的时间长得多,占总执行时间的0.2%。”

“我们认为YOLOv3将主导市场,但我们的架构对于其他运营商来说是可重构的,比如生命科学领域的3D卷积。拥有大量应用程序的客户将使用特定的一套模式,我们将继续增加更多运营商。”

第一款PCI Express卡是X1P1,只有一个芯片,售价499美元,而搭载四个芯片的X1P4汽车的吞吐量将相当于英伟达T4卡的一半,”tate说。“我们不会在应用中取代T4,我们希望扩大市场,我们希望看到更高的销量。”

为了投放市场,第一个芯片特意采用了16nm,但为了更高的性能、更小的尺寸、更低的成本和更低的功率,它将转向7nm。Tate说:“GUC设计公司完成了芯片SOC部分的所有物理后端,但我们将180nm到12nm用于嵌入式FPGA,因此我们有很多经验。”“我们已经开始了7纳米的设计工作,没有发现任何问题。”

www.flexlogix.com

AI芯片相关edge文章

eeNews Europe的其他文章

相关的文章

eeNews欧洲

10年代
Baidu