专注工科类创新实验教学、科研开发20余年!方案覆盖嵌入式、IOT、AI、机器人、新能源等领域。
 
  当前位置:首页 >> 新闻动态 >> 行业新闻
 
公司新闻
 
培训与竞赛
行业新闻
 
产品资讯

点击排行(TOP 10)
  创新设计方案:手机便携式
  首届NAO机器人在线程序设计
  Altera官方视频教程
  中国EDA助力移动互联发展
  嵌入式微处理器选型的考虑
  在京高校专利申请去年首破
  无线充电时代即将普及
  英特尔挑战ARM移动市场
  日本三大电子巨头走下神坛
  德州仪器不再重点投资移动
  华为“网络天线”,颠覆传
 
AMD/Xilinx通过改进的VCK5000推理卡瞄准Nvidia
     革新科技  来源:半导体行业观察 日期:2022/3/14 15:41:37 阅读:540 次
- 返回 -
 

AMD/Xilinx发布了其VCK5000 AI推理卡的改进版本以及一系列直接针对Nvidia的GPU产品线的竞争性基准测试。AMD表示,新的VCK5000的性能是早期版本的3倍,并且TCO是NvidiaT4的2倍。AMD还展示了针对几款Nvidia GPU的良好基准,声称其VCK5000在“真正的AI模型工作负载”上实现了90%的真实峰值TOPS,作为对比,Nvidia的A100、A30、A10和T4的表现介乎34%到42%之间。

采取如此强硬的立场,强调对Nvidia产品的TCO,这有点让人想起AMD在2017年对英特尔的战略,当时AMD在数据中心长期缺席后推出了Epyc CPU产品线。当然,AMD刚刚完成了对Xilinx的收购,早在2020年他们就宣布了这笔交易。VCK5000现在的售价为2745美元,AMD称这是一个非常有竞争力的价格,尤其是考虑到“当前的供应链问题”。

“VCK5000是第一款采用我们7nm Versal ACAP芯片的PCIe卡。它针对AI推理进行了优化,这是我们第一次将AI引擎内核中的一些东西放入FPGA,”AMD新的自适应和嵌入式计算事业部的AI和软件解决方案产品营销总监Nick Ni说。“这张卡实际上并不新,但改变的是我们在AI推理上的性能提高了近3倍。我们还声称我们是世界上第一个用于人工智能推理的零暗硅——我们是唯一实现接近100%数据表峰值的公司,这是其他人无法接近的。”

VCK5000AI推理卡包括FPGA和Arm CPU元件,于去年5月推出。它是AMD Versal自适应计算加速平台(ACAP)的一部分。AMD表示,整体设计解决了它所谓的“暗硅”问题——基本上是空闲的处理元件等待来自内存的数据。

HyperionResearch的分析师史蒂夫·康威(Steve Conway)提出了谨慎的看法。“英伟达几乎单枪匹马地创造了GPGPU市场并在今天占据主导地位,但任何大市场都会吸引竞争对手,竞争是好事。现在知道新的AMD/Xilinx推理卡的竞争力还为时过早,但对推理给予更多关注是件好事。更有能力的推理为人工智能增加了智能,并应减少给定任务的训练负担,”康威说。

HPC社区可能更熟悉Xilinx-Alveo U55C,这是该公司在SC21推出并宣传为其最强大的基于FGPA的加速器卡。当被要求区分这两张卡时,AMD提供了以下内容:
“Alveo U55C属于AMD-Xilinx生产加速卡产品组合,专门针对HPC和大数据工作负载。它基于Virtex UltraScale+ FPGA,与VCK5000相比具有不同的外形尺寸。借助基于Xilinx RoCE v2的集群解决方案,我们使具有大规模计算工作负载的广泛客户能够使用他们现有的数据中心基础设施和网络实施基于FPGA的强大HPC集群。
“VCK5000是一款基于公司7nm Versal产品组合的开发卡,针对需要高吞吐量AI推理和信号处理计算性能的设计进行了优化。VCK5000是第一款实现接近零暗硅的AI芯片,使用标准基准模型,其性能功耗比比Nvidia的A100和T4 GPU等竞争设备高出2倍。”

广泛使用FPGA的一个长期绊脚石是其冗长而复杂的开发过程,需要在RTL级别进行编程。Alveo U55C和VCK5000卡都试图通过利用AMD/Xilinx Vitis统一软件平台来应对这一挑战。

Ni描述了对最新VCK5000进行编程以运行基准测试的努力:“因此,如果您进行自下而上的设计,即使用RTL的传统设计,与使用GPU相比,[开发]肯定会花费更长的时间。但是我们[通过Vitis]使用软件抽象。我们在这里展示的所有结果都没有涉及任何RTL开发。一切都只是基于TensorFlow、Pytorch。我们基本上将MLPerf提供的TensorFlow和ResNet 50模型带入了我们的编译器。你运行它,你会得到结果。这实际上与GPU的设计周期相同。”

Ni表示AMD/Xilinx将在未来的MLPerf推理练习中提交VCK5000的结果。

值得一提的是,基于FPGA的解决方案最近受到了关注。就在昨天,英特尔推出了基于Intel 7工艺的Agilex M系列FPGA。英特尔报告称,新的FPGA具有:“业界最高的FPGA内存带宽;在支持HBM的FPGA中实现业界最高的DSP计算密度;与竞争的7nmFPGA相比,每瓦的结构性能超过2倍。”英特尔于2015年通过收购Altera进入了FPGA市场。

对FPGA的兴趣重新抬头有很多原因,包括:AI模型的规模快速增长;需要加速进出这些模型的数据移动;软件定义架构的持续发展以及对分散智能控制器的相关需求;并改进FPGA编程工具。倡导者认为,基于FPGA的解决方案提供了专业化、灵活性和性能的高性价比组合。这一直是承诺,但兑现承诺往往具有挑战性。

现在,FPGA——无论是单独使用还是与其他处理和内存组件配对并封装为SoC——都引起了人们的关注。供应商越来越多地将它们描述为从数据中心到边缘的AI解决方案组合的一部分。

AMD认为,与固定架构GPU不同,可以针对AI模型的特定需求,特别是数据流要求,设计更灵活的基于FPGA的系统。这一论点是AMD“解决暗硅”问题的核心,它表示在某些工作流程中,英伟达GPU的峰值TOPS远低于50%。

“因为你有一个固定核心的AI处理器,而Nvidia是用于Tensor核心GPU的,它是为某些模型设计的,它是固定的,而且必须将数据泵入引擎以获得100%的效率。[当]您运行当今较大的模型时,会发生什么情况是您创建了巨大的数据气泡(下面的幻灯片),因为您必须在共享缓存中有很多缓存未命中。例如,即使Nvidia A30引擎能够执行330 TOPS,但他们说只有40%的时间是在[获取]数据。这就是我们需要获得自适应硅[设备]的地方,例如FPGA。

“[Xilinx方法]的不同之处在于两点。一个是我们的引擎。它和ASIC一样好,但我们还内置了一点可编程性。在我们的VLIW内核中,您还可以执行不同类型的数据传递,[例如]您可以进行广播。但最重要的是我们正在将FPGA架构连接到该基本内核。我们是无缓存的,我们甚至在系统中都没有缓存,所以没有缓存未命中之类的东西。您可以创建一个完美的内部存储器[流],以便您可以将每个时钟周期的数据泵入引擎。这就是你如何获得100%或接近100%的效率,[通过]显着减少数据泡沫。”

Ni在简报中强调了视频分析应用,AMD/Xilinx确实有视频分析SDK和插件。但平台更灵活。

“我们称之为特定领域的架构。想想看,我们仔细设计了非常具体的领域,在这种情况下,人工智能推理是具体的,可以运行所有这些模型的FPGA编程。我们不想制造一招一式的小马,对吧?我们不想制作只能是Resnet50的IP,”Ni说。他说,推理处理引擎可以有一个辅助“内部小型处理器”,可以根据编译指令针对不同的模型进行调整。

AMD当然对其基于FPGA的平台产品组合寄予厚望。

在Xilinx交易完成时,AMD首席执行官Lisa Su表示:“对Xilinx的收购汇集了一系列高度互补的产品、客户和市场,并结合了差异化的IP和世界一流的人才,打造了业界高性能和自适应计算的领导者。Xilinx提供行业领先的FPGA、自适应SOC、AI引擎和软件专业知识,使AMD能够提供业内最强大的高性能和自适应计算解决方案组合,并在我们看到的约1350亿美元的云市场机会中占据更大份额、边缘和智能设备。”


 
 
   
销售电话:010-82608898     技术支持:82608898-800    Email:sales@gexin.com.cn
Copyright © 2012-2024 版权所有:北京革新创展科技有限公司   京ICP备20004067号-1