专注工科类创新实验教学、科研开发20余年!方案覆盖嵌入式、IOT、AI、机器人、新能源等领域。
 
  当前位置:首页 >> 新闻动态 >> 行业新闻
 
公司新闻
 
培训与竞赛
行业新闻
 
产品资讯

点击排行(TOP 10)
  创新设计方案:手机便携式
  首届NAO机器人在线程序设计
  Altera官方视频教程
  中国EDA助力移动互联发展
  嵌入式微处理器选型的考虑
  在京高校专利申请去年首破
  无线充电时代即将普及
  英特尔挑战ARM移动市场
  日本三大电子巨头走下神坛
  德州仪器不再重点投资移动
  华为“网络天线”,颠覆传
 
AMD将用FPGA干什么?
     革新科技  来源:半导体行业观察 日期:2022/3/2 9:13:47 阅读:350 次
- 返回 -
 

近日,AMD已经完成了对Xilinx的收购,由于过去一年半时间里AMD的股价上涨,最终成本接近490亿美元,而不是最初在2020年10月宣布该交易时预计的350亿美元。

现在,随着AMD获得监管机构的批准并花光了所有“钱”——稀释后的市值与实际现金不同,但你可以用它买东西——很自然,收购完成后,CPU和GPU设计人员不仅可以使用作为Xilinx器件核心的FPGA可编程逻辑,还可以使用在所有FPGA混合中变得普遍的晶体管硬块,例如DSP引擎、AI加速器、内存控制器、I/O控制器和其他类型的互连SerDes。

AMD需要很长时间才能建立一支工程师团队,这些工程师团队拥有赛灵思在可编程逻辑方面以及在其航空航天、国防、电信/通信、工业和广播/媒体业务领域所获得的专业知识,并且结合了凭借Vitis软件堆栈,Xilinx的价值超过了收购一家在其他领域拥有收入和利润流且与AMD核心业务几乎没有重叠的公司的价值,这立即转化为AMD首席执行官LisaSu所看中的,更为广泛的,估值为1350亿美元的潜在市场。

不断增加的TAM对于AMD(实际上是任何半导体公司)实现增长至关重要,并将Xilinx的收入和利润流(在过去12个月中分别为36.8亿美元和9.29亿美元)添加到AMD的收入和利润流中,2021年分别为163.4亿美元和31.6亿美元。

但真正的价值,以及为什么Lisa Su和公司花了这么多钱来收购Xilinx。皆因它需要做很多事情来最大限度地提高投资并推动其收入远高于仅仅通过合而取得的收入。

AMD以及数据中心的任何主要芯片公司都不清楚他们从第三方获得了多少IP块的许可。在我看来,这可能比我们许多人意识到的成本更高,并且假设赛灵思实际上创建了自己的内存控制器、I/O控制器、网络控制器和更通用的SerDes以及片上互连,那么AMD可能随着时间的推移转移到赛灵思IP块,能够节省一些钱。如果赛灵思IP块比AMD替代品更好或完全从AMD堆栈中消失,那么这里有各种可能性来改进AMD在CPU和GPU插槽中的内容以及它如何从中创建自己的新IP。

例如,想象一下,基于Xilinx SerDes的数据中心规模Infinity Fabric交换结构以及由AMD和Xilinx融合团队共同创建的数据包处理引擎?想象一下类似于IBM为其Power10处理器创建的内存区域网络,但跨机架和机架以及EpycCPU和Instinct CPU加速器的行和行运行。...想象一下,根本不关心以太网或InfiniBand,除了作为集群的入口点。...这会有多酷?

看看Versal系列的“Everest”一代中的Xilinx FPGA混合器件:

那些用于机器学习推理处理的AI矩阵引擎和用于各种信号处理的DSP引擎是过去在可编程逻辑中实现的硬块——赛灵思在其Versal系列中一直将其称为自适应引擎——但由于空间、热量和性能问题,将这些块实现为ASIC并使用芯片上的高速互连将所有这些块相互连接并连接到可编程逻辑要高效得多。

AMD的工程师在考虑如何构建计算引擎、系统和集群时,可以使用这些硬块中的每一个,包括Arm内核。AMD设计的每个计算设备,无论是单片芯片还是封装中的小芯片集合,都可以在AMD认为合适的时候添加一些可编程逻辑。

那么除了在很大程度上保持业务不变之外,AMD将如何与Xilinx合作呢?它还没有说,除了说AMD在交易失败之前已经授权了一些Xilinx IP,并且无论该IP是什么——不要假设它是可编程逻辑——都将在明年年底的某个时候出现在AMD芯片中。

让我们看看他们合并后的一些潜在可能性,如果您有自己的想法,请提出来。

首先,我们认为整个CPU和整个FPGA的单芯片混合实现是不太可能的,但有可能会发生共同封装的CPU-FPGA混合。

这是英特尔早在2014年就与FPGA制造商Altera合作的东西,这甚至发生在它收购该公司之前——在2018年,宣布将“Skylake”至强SP处理器与Arria 10 FPGA混合在一个封装中的产品。我们认为这些产品不会在数据中心起飞,原因与为什么我们在数据中心的单个封装中看不到CPU-GPU混合体的原因相同,除非是非常特殊的情况,例如带有集成显卡的PC芯片被重新用作媒体处理服务器引擎,就像AMD和英特尔过去在其嵌入式产品线中所做的那样。

在其frankensocket CPU-GPU复合体中,英特尔将125瓦的成熟20核Xeon SP-6138P与额定70瓦的成熟Arria 10 GX FPGA 1150放在同一封装中。它们通过UltraPath互连(UPI)链接进行连接,这些链接用于与CPU进行共享内存NUMA配置,这意味着英特尔将UPI控制器移植到Arria 10上。(这个UPI控制器似乎不太可能在可编程控制器中实现逻辑,但UPI协议可能是在硬编码SerDes之上实现的,该SerDes适合UPI的时序,可编程逻辑填补了空白。)Arria10 GX没有在FPGA复合体上激活Arm内核(他们可能一直在那里,英特尔从未明确表示过)。

这个frankensocket的FPGA部分的目标应用程序是在可编程逻辑上运行Open vSwitch虚拟切换,使其运行速度提高3倍以上,并允许Xeon CPU托管2倍的虚拟机,因为Open vSwitch没有在至强核心的软件上运行。我们估计组合设备的成本为6,500美元,当时Xeon部分的成本约为2,600美元。据我们所知,这个想法并没有席卷市场,后续也转向卸载虚拟存储、虚拟网络和交换以及加密/解密到DPU(一种美化的SmartNIC,取决于你想要什么定义使用)。

AMD十多年来一直在考虑这种混合CPU-GPU计算方法及其异构系统架构,甚至在一些服务器部件中实现了它们,并且显然已经为PC和大批量定制游戏机芯片做到了这一点。在一定程度上,Infinity Fabric互连是HSA的一种实现。

AMD可以将整个CPU和整个FPGA集成在一起——由用于CPU计算的frankensocket、用于FPGA可编程逻辑的小芯片以及它们两者的共享内存和I/O集线器组成——这很有趣,因为它可以提供连贯的共享插槽内跨CPU和FPGA容量的内存。使用Infinity Fabric链接,它也可以跨socket完成。正如我们所建议的,使用Infinity Fabric交换,它可以跨机架甚至跨行完成。这是一个强大的想法。

其中任何一个问题都是锁定任何socket中的配置。CPU与FPGA可编程逻辑的比例会因应用、行业和客户用例而异。而且,如果您将GPU加入其中,您就会有许多不同的变量可供选择,实际上,每个芯片都会及时成为特定客户的定制部件。你可以为超大规模和云建设者这样做,因为数量值得,但如果AMD想把它卖给其他服务提供商和大型企业,它必须选择一些SKU,而且它所做的任何事情都可能不是最理想的。

Nvidia并没有用到任何FPGA,除了可能用于模拟自己的芯片(如果它在其“Selene”超级计算机上进行所有模拟和验证,可能甚至没有),该公司的联合创始人兼首席执行官Jensen Huang对此并不伪言。但英特尔收购了Altera而现在AMD又收购了Xilinx的事实至少表明,FPGA在现成CPU上运行的编程语言和用于实现某些功能或软件堆栈的定制ASIC之间的边界仍然具有吸引力。

我们一直认为,一个平衡的系统将包括所有三个计算引擎,例如现代交换机。您需要用于快速串行处理和大内存占用的CPU,用于快速并行处理和高内存带宽的GPU,以及用于加速硬编码算法的FPGA,这些算法在X86或Arm处理器上的软件实现中可用,但在由于这些算法变化太大,或者因为您无法支付热量或成本溢价,因此无法保证定制ASIC的数量。

我们认为将FPGA可编程逻辑嵌入到每个CPU插槽甚至每个GPU插槽中作为这些设备的一种暂存器,这样它们就可以拥有散列算法、加密算法、安全协议或虚拟开关的元素,这在FPGA中绝对是一件有趣的事情(或部分完成),而不是在CPU或GPU芯片上的逻辑块中,在添加到CPU或GPU插槽的单独小芯片中,或在CPU上运行的更高级别的软件中。

多年来,IBM已经在其System z和Power处理器中添加了此类暂存器(请注意,不是用FPGA逻辑实现的),允许它们实现新指令或创建复合指令,这些指令在芯片流片了。这不会是芯片/插座空间的很大一部分。

我们绝对认为很快就会有Versal FPGA混合使用Xen X86内核交付,我们认为Vitis堆栈将进行调整,以便能够将代码编译到这些内核以及Versal计算的其他元素复杂的。我们认为AMD不太可能将X86或Arm内核引入其GPU,但我们确实认为该公司可以创建一系列混合了FPGA和X86内核的SmartNIC和DPU——如果它的话,甚至可能是婴儿GPU具有架构意义。AMD是SmartNIC的新手,但Xilinx不是,尤其是在2019年4月收购Solarflare之后。

这让我们在这个探索中有了更多的想法,这是我们自混合旅程开始以来一直鼓励计算引擎制造商做的事情。似乎很清楚的是,我们将在插槽内或跨插槽拥有小芯片组件,并在它们之间进行某种互连。对于AMD和Xilinx,它将是Infinity Fabric,并且可能在其之上支持CCIX或CXL协议,如果Infinity Fabric确实是PCI-Express的超集,其中融入了AMD HyperTransport功能,这应该是可能的。想要将许多东西打包到混合计算引擎中并制作一个大socket有很好的延迟原因。但也许在后摩尔定律时代,要有最好的答案。

所以,我们希望看到AMD这样做。创建一个高性能的Zen4内核,去掉所有矢量引擎,并在芯片上放置更多内核或在芯片上放置更多更快的内核。我们选择后者是因为在这个CPU上,我们想要惊人的串行性能。我们想要这个东西上的HBM3内存,我们想要至少256GB的容量,这应该是可能的。大量的Infinity Fabric链接从单个插槽中脱落。最高500瓦,我们不在乎。现在,在系统板左侧的旁边,我们想要一个杀手级“Aldebaran”Instinct GPU,而MI200的一半可能就足够了——Instinct MI200在一个封装中具有两个逻辑GPU–或者可能需要配备四台毕宿五发动机的完整MI300。这将取决于客户。在GPU周围也放置大量HBM3内存。在CPU的右侧,我们想要一个Versal FPGA混合,其中包含更多的Infinity Fabric链接,去掉了Arm内核,保留了DSP引擎和AI引擎,以及所有硬块互连的东西。这是一个集成的可编程逻辑引擎,在需要时可以像DPU一样工作。Infinity Fabric通道可以从这里断开以创建集群,或者直接断开GPU和CPU,但我们喜欢在DPU上实现Infinity Fabric交换机的想法。

现在,利用这些计算引擎模块,允许客户在系统板上、机架内和跨行配置他们需要的比率。也许有一个客户需要为每个CPU配备四个GPU,为每个具有单个Infinity Fabric交换机的复杂系统配备两个DPU。在另一种情况下,可能由于延迟原因,GPU更靠近DPU(想想现代超级计算机),而CPU挂在GPU的一侧。或者CPU和GPU都从DPU集线器发出。或者CPU处于环形拓扑结构中,而GPU处于机架内的胖树中。将其全部设为Infinity Fabric,并使拓扑在Infinity Fabric交换机上可更改。(不同的工作负载需要不同的拓扑结构。)每个组件都经过高度调整、精简,完全没有冗余,硬件与软件绝对协同设计。

在AMD未来的系统中,除了集群中的头节点以外,没有InfiniBand或以太网,它们只是Epyc CPU-only服务器。

如果我们是AMD,我们会这样做!


 
 
   
销售电话:010-82608898     技术支持:82608898-800    Email:sales@gexin.com.cn
Copyright © 2012-2024 版权所有:北京革新创展科技有限公司   京ICP备20004067号-1