FPGA还是GPU?你的AI主芯片将如何选择

发布者:EEWorld资讯最新更新时间:2023-02-01 来源: EEWORLD关键字:FPGA  GPU 手机看文章 扫描二维码
随时随地手机看文章

尽管模仿人类思想和想法的软件算法是人工智能的基础,但硬件也是一个重要组成部分,这就是现场可编程门阵列 (FPGA) 和图形处理单元(GPU)发挥重要作用的地方。


人工智能 (AI) 是指能够以与人类相同的方式做出决策的非人类机器智能。 这包括沉思、适应能力、意图能力和判断力。机器视觉、机器人自动化、认知计算、机器学习和计算机视觉都是人工智能市场的应用。人工智能正在汽车、消费电子、媒体和娱乐以及半导体等多个行业领域迅速获得关注,预示着下一次伟大的技术变革。


半导体预计将在未来几年持续增长。 随着全球对机器学习设备的需求不断增长,许多属于 EDA(电子设计自动化)、显卡、游戏、多媒体行业的主要市场参与者正在投资提供创新的高速计算处理器。 虽然人工智能主要基于模仿人类思想和想法的软件算法,但硬件也是一个重要组成部分。 现场可编程门阵列 (FPGA) 和图形处理单元 (GPU) 是大多数 AI 操作的两种主要硬件解决方案。 据先行研究组预测,2021年全球人工智能硬件市场规模为104.1亿美元,预计到2030年将达到892.2亿美元,2022-2030年复合年增长率为26.96%。


FPGA 和 GPU 概述


FPGA 概述


具有可重新编程逻辑门的硬件电路称为现场可编程门阵列 (FPGA)。 当芯片在现场使用时,用户可以通过覆盖配置来设计独特的电路。 这与不能重新编程的标准芯片形成对比。 使用 FPGA 芯片,您可以构建从简单的逻辑门到多核芯片组的任何东西。 FPGA 的使用非常流行,其中内部电路是必不可少的,并且预计会发生变化。 FPGA 应用涵盖 ASIC 原型设计、汽车、多媒体、消费电子产品以及更多领域。根据应用要求,可选择低端、中端或高端 FPGA 配置。 Lattice 半导体的 ECP3 和 ECP5 系列、Xilinx 的 Artix-7/Kintex-7 系列和 Intel 的 Stratix 系列是一些流行的低功耗和低设计密度的 FPGA 设计。


逻辑块是使用具有有限输入的查找表 (LUT) 构建的,并使用基本存储器(例如 SRAM 或闪存)来构建以存储布尔函数。 每个 LUT 都链接到一个多路复用器和一个触发器寄存器以支持时序电路。 同样,许多 LUT 可用于创建复杂的功能。


FPGA 更适合嵌入式应用,并且比 CPU 和 GPU 使用的功率更低。 这些电路不受 GPU 等设计的限制,可用于定制数据类型。 此外,FPGA 的可编程性使得修改它们变得更加简单。


使用 FPGA 的优势


高效节能


借助 FPGA,设计人员可以精确调整硬件以满足应用程序的要求。 凭借其低功耗能力,可以最大限度地降低 AI 和 ML 应用程序的整体功耗。 这可以延长设备的使用寿命并降低培训的总体成本。


易于灵活


FPGA 为处理 AI/ML 应用程序提供了可编程性的灵活性。 可以根据需要对一个单独的块或整个块进行编程。


减少延迟


FPGA 擅长处理短语并减少延迟。 减少延迟是指计算系统以最小延迟响应的能力。 这在视频监控、视频预处理和后处理以及文本识别等实时数据处理应用中至关重要,在这些应用中,每一微秒都至关重要。 因为它们在没有操作系统的裸机环境中运行,所以 FPGA 和 ASIC 比 GPU 更快。


并行处理


FPGA 的操作和能源效率由于它们能够同时执行多项任务甚至指定设备的特定部分用于特定功能而得到显着提高。 少量分布式内存包含在 FPGA 特殊架构的结构中,使它们更接近处理器。


GPU 概述


图形处理单元 (GPU) 的最初目的是创建计算机图形和虚拟现实环境,这些环境依赖于复杂的计算和浮点功能来渲染几何对象。 没有它们,现代人工智能基础设施将不完整,并且非常适合深度学习过程。


人工智能需求大量数据可供研究和学习以取得成功。 要运行人工智能算法并移动大量数据,需要大量的计算能力。 GPU 可以执行这些任务,因为它们的创建是为了快速处理生成图形和视频所需的大量数据。 它们在机器学习和人工智能应用中的广泛使用部分归功于它们的高计算能力。


GPU 可以同时处理多项计算。 因此,可以分布式训练程序,从而大大加快机器学习活动。 使用 GPU,您可以添加多个资源需求较低的内核,而不会影响性能或功率。 市场上有各种类型的 GPU,通常分为以下几类,例如数据中心 GPU、消费级 GPU 和企业级 GPU。


使用 GPU 的优势


内存带宽


GPU 具有良好的内存带宽,因此在深度学习应用程序中它们往往可以快速执行计算。 在大型数据集上训练模型时,GPU 消耗的内存更少。 凭借高达 750GB 的内存带宽,它们可以真正加速 AI 算法的快速处理。


多核


通常,GPU 由许多可以组合在一起的处理器集群组成。 这使得可以极大地提高系统的处理能力,特别是对于具有并行数据输入、卷积神经网络 (CNN) 和 ML 算法训练的 AI 应用程序。


灵活性


由于 GPU 的并行能力,您可以将 GPU 分组到集群中并在这些集群之间分配作业。 另一种选择是使用具有专用集群的单个 GPU 来训练特定算法。 具有高数据吞吐量的 GPU 可以并行地对许多数据点执行相同的操作,从而使它们能够以无与伦比的速度处理大量数据。


数据集大小


对于模型训练,AI 算法需要大量数据集,这会导致内存密集型计算。 GPU 是高效处理具有许多大于 100GB 的数据点的数据集的最佳选择之一。 自并行处理开始以来,它们提供了有效处理基本相同或非结构化数据所需的原始计算能力。


运行 AI 应用程序的两个主要硬件选择是 FPGA 和 GPU。 尽管 GPU 可以处理 AI 和深度学习所需的海量数据,但它们在能效、热问题、耐用性以及使用新 AI 算法更新应用程序的能力方面存在局限性。 FPGA 为神经网络和 ML 应用程序提供了显着优势。 这些包括易于 AI 算法更新、可用性、耐用性和能源效率。


此外,在为 FPGA 创建软件方面取得了重大进展,这使得编译和编程变得更加简单。 为了让您的 AI 应用程序取得成功,您必须调查您的硬件可能性。 正如所说,在确定行动方案之前,请仔细权衡您的选择。

关键字:FPGA  GPU 引用地址:FPGA还是GPU?你的AI主芯片将如何选择

上一篇:莱迪思FPGA助力屡获殊荣的超级高铁及电机设计
下一篇:莱迪思在Automotive 2023上展示多款FPGA车载解决方案

推荐阅读最新更新时间:2024-11-11 22:54

NVIDIA为AI研究人员开放GPU云端服务
NGC进一步导入NVIDIA TensorRT推论加速器、ONNX相容模式并支援MXNet 1.0 辉达(NVIDIA)宣布,采用桌上型GPU的AI研究人员即日起可透过NVIDIA TITAN获取 NVIDIA GPU云端(NGC)的强大运算效能,并宣布扩充NGC功能,将新软体与其他重要功能导入容器中,为研究人员提供范围更广、功能更强的工具组合,协助推展AI与高效能运算的研究与发展。 NVIDIA Pascal架构TITAN GPU的使用者可免费注册NGC帐号并获得完整涵盖针对深度学习和HPC所进行GPU最佳化的软体与工具。其他支援的运算平台也包括NVIDIA DGX-1与DGX Station以及在Amazon EC2上以N
[半导体设计/制造]
英特尔推出史上最大SOC/FPGA:Stratix 10 SX系列芯片
英特尔(Intel)日前宣布Stratix 10 SX系列芯片将开始出货。Stratix 10 SX系列由10个装置组成,逻辑单元(logic element;LE)数介于40万~550万个。每个装置都有1个双核或4核ARM Cortex-A53处理子系统。而其最接近的竞争产品,赛灵思(Xilinx) Zynq UltraScale + MPSOC EG系列约有110万个逻辑单元。   根据EEJournal报导,Stratix 10 SX Cortex-A53的运作时脉高达1.5GHz,嵌入式存储器高达229Mb,还有高达5K的DSP模块(block),11K 18×19乘法器,以及多达144个以最高30Gbps运行的SerDe
[半导体设计/制造]
AM335x平台在全彩LED显示墙异步控制卡的应用
1 全彩LED显示墙控制卡简介 全彩LED显示显控制卡根据控制方式,可以分显两大显:同步控制卡和异步控制卡。 1.1 同步控制卡 全彩LED同步显示墙主要由PC,同步控制卡和LED显示模块组三部分组成,其连接方式如下: 图1 同步控制模块图 同步控制卡将DVI信号转成LED显示模组所需要的视频信号格式,而且用以太网的方式传输给LED显示模组。同步控制卡本身不做视频解码等处理,仅做格式转换。因此,一般采用FPGA实现该功能。 1.2 异步控制卡 全彩LED异步显示墙由异步控制卡和LED显示模组组成,其连接方式如下: 图2 异步控制卡模块图 由上图,异步控制卡主要由两个大的部分组成: 视频
[单片机]
AM335x平台在全彩LED显示墙异步控制卡的应用
未来的汽车需要什么样的GPU
  无论是新动力系统,车载信息娱乐系统,还是自动驾驶汽车,汽车技术都在以前所未有的速度迅猛发展。 新的颠覆性技术和行业参与者正在向传统的汽车概念发起挑战。明天的驾驶体验将与今天大不相同。下面就随汽车电子小编一起来了解一下相关内容吧。   目前在某些地区已经出现了自动驾驶汽车,预计到2030年,路面上四分之一的汽车将在一定程度上实现自动驾驶。未来的驾驶舱会有什么样的变化?汽车和驾驶员是怎么沟通的? 驾驶员从驾驶责任中解脱出来,会给驾驶舱和信息娱乐系统的设计带来怎样的影响?    潜在的挑战   在2025年左右,汽车将实现完全的自动化,与今天的汽车相比会有很大的不同。它将在旅途中为乘客提供各种各样的功能:它可以成为办公室、起居室
[汽车电子]
摩尔线程重磅发布全新多功能GPU及软硬件产品,构建以MUSA为核心的全栈能力
2022年11月3日,北京——摩尔线程2022秋季发布会今日在北京中关村国家自主创新示范区成功举办。发布会上,摩尔线程推出全新多功能GPU芯片“春晓”、基于MUSA架构打造的业内首款国潮显卡MTT S80和面向服务器应用的MTT S3000,以及元计算一体机MCCX。这是时隔7个月后,摩尔线程多功能GPU产品迭代创新实现的又一次跨越。 不只是硬件,摩尔线程还围绕MUSA发布了系列GPU软件栈与应用工具,包括MUSA开发者套件、云原生sGPU技术及元宇宙平台MTVERSE等,旨在构建从底层芯片到上层开发和应用的整体解决方案,实现摩尔线程多功能GPU软硬件一体化创新模式的全面升维。 发布会现场,摩尔线程还演示了40多个基于其多
[嵌入式]
摩尔线程重磅发布全新多功能<font color='red'>GPU</font>及软硬件产品,构建以MUSA为核心的全栈能力
基于DSP+FPGA协处理架构的无线子系统设计
您可以显著提高无线系统中信号处理功能的性能。怎样提高呢?有效方法是利用FPGA结构的灵活性和目前受益于并行处理的FPGA架构中的嵌入式DSP模块。 常见于无线应用中这类处理包括有限冲激响应(FIR)滤波、快速傅里叶变换(FFT)、数字上下变频和前向误差校正(FEC)。Xilinx? Virtex-4和Virtex-5架构提供多达512个并行嵌入式DSP乘法器,这些乘法器的工作频率高于500MHz,最高可提供256 GMAC的DSP性能。 将需要高速并行处理的工作卸载给FPGA,而将需要高速串行处理的工作留给处理器,这样即可在降低系统要求的同时优化整体系统的性价比。 子系统划分选择方案 FPGA可与DSP处理器一起使用,作为独立的预
[嵌入式]
基于DSP+<font color='red'>FPGA</font>协处理架构的无线子系统设计
洗衣机洗涤程序控制器内部控制模块方案
设计一个 洗衣机 洗涤程序 控制器,控制洗衣机的电机作如下规律运转: 用两位数码管预置洗涤时间(分钟数),洗涤过程在送入预置时间后开始运转,洗涤中按倒计时方式对洗涤过程作计时显示,用LED表示电机的正、反转,如果定时时间到,则停机并发出音响信号。 设计提示 洗涤预置时间编码模块 减法计数显示 时序电路 译码驱动模块
[嵌入式]
PS5 Pro偷跑拆解:GPU规模飙升!内存增加2GB DDR5
史上最贵游戏机PS5 Pro即将发售,有海外博主提前搞到一台,二话不说就给拆了,发现了一些意想不到的变化。 处理器果然还是基于古老的Zen2架构,别说是最新的Zen5,甚至都没升级到Zen4,依然8核心16线程。 GPU变化非常大,不但升级了架构,融合了RDNA3基础渲染、RDNA4光线追踪,还扩大了规模,CU单元猛增到60个,号称渲染速度提升45%。 算力性能16.7TFlops(16.7万亿次浮点运算每秒),按照AMD双发射的计算方式等同于33.5TFlops,算下来频率提高到了2.17GHz。 内存和传闻不同,不但有16GB GDDR6,还增加了2GB DDR5,专用于系统,相信可以大大提升流畅度。 SSD最大容量
[嵌入式]
PS5 Pro偷跑拆解:<font color='red'>GPU</font>规模飙升!内存增加2GB DDR5
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved