CRAFT计划迈出重要一步，496个核心的RISC-V芯片诞生-电子工程世界

对于那些不熟悉Celerity的人,我可以告诉你，这是在多家大学共同努力下，而创造的一个开源多核RISC-V分层（tiered）加速器芯片。该项目是DARPA快速电路实现（Circuit Realization At Faster Timescales：CRAFT）计划的一部分，该计划希望将定制集成电路的设计周期从几年缩短到几个月甚至几周。Celerity团队首先在Hot Chips 29上展示了该芯片。

去年，在VLSI 2019上，Celerity又回来谈论其第二代芯片的PLL和NoC。演示文稿由密歇根大学的Austin Rovinski进行。

下面我们先对整个Celerity SoC进行快速概述：它是一个多核多层（many-core multi-tier）AI加速器。总体而言，该芯片包括三个主要层：通用层，大规模并行层和专用层。为什么要使用分层SoC？这是为了在典型的CPU设计上实现高灵活性和更高的电源效率（尽管效率不及ASIC NPU）。

通用层几乎可以执行任何操作，例如通用计算，内存管理以及控制芯片的其余部分。为此，他们集成了Free Chip Project的五个高性能乱序RISC-V Rocket内核。

下一层是大规模并行层，它将496个低功耗定制设计的RISC-V内核集成到一个网格中。这些称为Vanilla-5的自定义内核是有序标量内核，其占用的空间比Rocket内核少40倍。最后一层是集成二值神经网络（BNN）加速器的专业化层。这三层都是紧密链接的，并通过400 MHz运行的DDR存储器接口连接。

Celerity上的Manycore Mesh时钟由自定义数字PLL提供。这是一个相当简单的一阶ΔΣ频率数字转换器（FDC）PLL。该实现使用了一组16个DCO ，每个实现为环形振荡器，其反相元件装有NAND门FCE，如以下幻灯片中的电路图所示。这样做是为了仅使用标准单元来实现整个设计。为此，整个数字PPL是完全合成的并自动放置和布线的设计。该PLL在其16纳米芯片上的频率范围为10 MHz至3.3 GHz。

与许多学术项目一样，硅面积也非常重要的。我们看到，整个芯片为25平方毫米（5×5）。而对于Celerity而言，许多关键的架构设计决策都以限制硅面积的需求为主导，这意味着降低了复杂性。Manycore本身是16乘31的Vanilla-5 RISC-V小型内核阵列。该阵列的第32行应该是用于外部主机，用于与芯片上的其余组件进行连接（例如，将消息/数据发送到大型Rocket内核以进行最终处理）。整个网格为3.38毫米乘4.51毫米（15.24毫米²），约占整个芯片的61％。Vanilla-5核心是5级有序流水线RV32IM核心，因此它们支持整数和乘法扩展。在硅芯片中，这些内核能够达到1.4 GHz，比他们在Hot Chips 29上展示的第一个硅芯片高350 MHz。

为了降低多核阵列的复杂性，Celerity利用分区的全局地址空间进行单芯片数据包（single-flit packets）和远程存储编程模型。

该阵列利用了全局分区地址空间（global partitioning address space：GPAS）。换句话说，这个芯片不是使用高速缓存，而是使用32位地址方案将整个内存地址空间映射到网络中的所有节点上。这种方法也意味着无需虚拟化或翻译，从而大大简化了设计。他们声称，与等效的一致性缓存系统相比，该设计可将区域开销降低20倍。

值得指出的是，由于该多核阵列的目标工作负载是AI加速（相对于更通用的计算），因此它们可以采用显式分区（explicitly partitione）的暂存器存储方案，因为这些工作负载表现出高度并行的定义明确的独立流模式。而且，对于这种类型的代码，控制存储器局部性的能力可能证明是非常有利的。阵列中的每个核都可以自由执行加载并存储到任何本地地址，但是，它只能执行存储到远程地址。没有远程负载意味着它们将路由面积（ router area）减少了10％，并且由于可以对远程存储进行流水线处理，因此可以防止流水线停顿。这种远程存储编程模型方案允许他们使用两个网络来实现此目的：数据网络和用于管理优秀存储的可心计数器网络(credit counter network )。

如前所述，第32行用于外部主机。实际上，这意味着内存映射扩展到阵列底部的十六个路由停靠点，这使消息可以从多核阵列传入和传出多核阵列，到达芯片上的大核和其他外设。

Celerity并没有使用这种类型应用程序非常常见的wormhole routing（也由Kilocore，Piton，Tile64等使用），而是将地址和数据合并到单个flit数据包中。该设计摆脱了发送数据都需要的标题/尾部信息。另外，由于没有保留的路由，它摆脱了HOL阻塞。每个flit均为80b宽，其中控制位16位，数据位32位，节点地址位10位，存储器地址位22位。flit节点地址保留了将数据发送到任何目的地的能力。该设计的主要好处是，由于仅将单个flit注入网络，因此可以使用有序管道在每个周期执行一个存储。

在多核阵列中的496个节点中，每个几点都有一个路由。路由本身在每个基本方向（N，S，E，W）的输入处都包含两个元素的FIFO，以及在网络拥塞情况下用作临时存储的控制处理器。他们使用循环仲裁（round-robin arbitration）来确定数据包的优先级，从而可以在每个周期对每个方向进行仲裁（arbitrate ）。他们使用尺寸顺序的布线（在一个方向上减小偏移，然后再移动到另一方向）。通过简单的设计，他们可以将整个路由实现为单级设计，而节点之间没有管道寄存器。换句话说，每跳只需要一个周期。例如，任何相邻的核心存储区的延迟只有3个周期-转到本地路由，跳到相邻路由，最后去邻居的记忆空间，路由器与内核位于相同的时钟域，这意味着它们还可以在高达1.4 GHz的频率下运行。

有两个网络-数据网络和信用计数器网络。路由器使用源控制的credit counter，每次将远程存储包注入网络时，该计数器都会递减。credit 通过credit counter网络返回，该计数器使用与上述数据相同的体系结构，但只有9位，因为它只包含节点地址。

那么，将这些加起来又是什么呢？Celerity团队报告了在500 mH到1.4 GHz的频率范围内在600 mV至980 mV的正确操作（在CoreMark上）。我们相信Celerity现在是时钟频率第二高的大学芯片，仅次于Kilocore（值得指出的是，由于封装方面的限制，Kiloecore只能支持其1000个内核中的160个）。在1.4 GHz时，整个网格的最大计算能力为694.4 INT32 GOPS。他们以每秒Giga-RISC-V指令（GRVIS）而不是GOPS报告其数字，以便强调一个事实，即这些指令是完整的RISC-V指令，而不仅仅是整数运算。请注意，由于Vanilla-5内核是RV32IM，它们支持RISC-V整数和乘法扩展，但不支持浮点运算，因此所有AI工作负载都必须进行量化。由于将节点互连的路由与核心位于相同的时钟域，每个路由每个周期支持5个flit，因此每个节点的总聚合带宽为748 Gbps，总聚合网络带宽为371 Tb / s。

令人遗憾的是，Celerity团队没有报告任何与AI相关的常见基准测试结果。相反，他们选择使用CoreMark，它们达到580.25 CoreMarks / MHz，总得分为812,350。在过去的几年中，CoreMark一直是RISC-V社区的首选比较基准。但CoreMark的问题在于，它通常会为简单的有序设计产生令人难以置信的乐观分数，这些分数似乎可以与经过良好调整的现代无序设计很好地竞争，而实际工作负载却表现出截然不同的结果。鉴于此芯片的前提是生产高度灵活的AI加速器，我们希望鼓励Celerity团队提供更有意义的结果，例如正式提交MLPerf。

我们现在可在Celerity网站上访问Celerity的开源RTL 。

关键字：RISC-V Celerity 引用地址：CRAFT计划迈出重要一步，496个核心的RISC-V芯片诞生

上一篇：终于等来了10nm，Intel十代酷睿i7-1068G7本季度投产
下一篇：联发科G70处理器亮相，但不支持5G

推荐阅读最新更新时间：2024-11-08 10:26

西门子推出新版 Nucleus ReadyStart 简化和保护嵌入式 RISC-V 开发

西门子推出新版 Nucleus ReadyStart 解决方案帮助简化和保护嵌入式 RISC-V 开发西门子数字化工业软件近日推出适用于嵌入式开发的 Nucleus™ ReadyStart™ 解决方案，以应对 RISC-V 架构应用的迅速增长。该新版 Nucleus ReadyStart 嵌入式开发解决方案以去年发布的 RISC-V 设备商用实时操作系统 (RTOS) 为基础，更新了一系列新功能，可帮助客户增强基于 RISC-V 架构的下一代嵌入式产品的安全性、灵活性以及云连接能力。面向 RISC-V 的 Nucleus ReadyStart 将软件、IP、工具、服务集成在统一的“即用型”解决方案中，对于具有占

[工业控制]

西门子推出新版 Nucleus ReadyStart 简化和保护嵌入式 <font color='red'>RISC-V</font> 开发

拥抱开发者——双轮驱动下英特尔中国研究院的变化

自CEO帕特·基辛格上任后，加速创新，拥抱开发者就成为了英特尔的主流声音。无论是IDM 2.0战略，还是摩尔定律的延续，都是其加速创新的重要体现。而作为“既着眼于未来革命性的科技研究，又承载着将研究成果转化为中国乃至全球创新产品的使命。”的英特尔中国研究院而言，于近日公布了创新的策略——以“双轮驱动，融合创新”为核心，穿越技术周期。双轮驱动的内涵英特尔研究院副总裁、英特尔中国研究院院长宋继强博士介绍了双轮驱动的内涵，他表示：“一方面，我们坚持‘创新领域探索’与‘规模化商业化导向’的‘双轮驱动’策略，在不断探索全球领先的前沿技术时，也持续推进技术产品化，加速商业化落地进程。另一方面，针对中国庞大的市场数据以及复杂的

[半导体设计/制造]

All in RISC-V，晶心科技北京站RISC-V CON圆满落幕

近日，晶心科技在北京举办RISC-V研讨会，向业界介绍了晶心科技在RISC-V上所取得的收获，这也是晶心科技时隔一年多以来在北京开展的又一次大型技术研讨会。与以往相同的是，此次研讨会，主角依然不是晶心科技，而是晶心科技的全产业链合作伙伴，但与以往不同的是，此次研讨会的主题并不是以往对于应用的谈论，而是稍微偏向了学术和前瞻性探索，全部讨论的都是RISC-V技术。晶心科技：与合作伙伴探索创新在开场白时，晶心科技CEO林志明说道：“随着人与人之间互动越来越密切，交通来往变得频繁，科技的作用愈发明显，这一切都和嵌入式应用息息相关。晶心科技将以创新为目标，和客户伙伴紧密合作，进行探索与创新。未来，我们希望以更小的资源能耗产

[嵌入式]

All in <font color='red'>RISC-V</font>，晶心科技北京站<font color='red'>RISC-V</font> CON圆满落幕

IAR为兆易创新RISC-V提供Embedded Workbench开发工具

IAR Systems和兆易创新宣布了一项新的合作，IAR将为兆易创新的RISC-V的微控制器（MCU）提供开发工具。 IAR产品经理Thomas Andersson在一份新闻稿中说：“我们对与兆易创新的合作感到非常兴奋，我们将为他们屡获殊荣的RISC-V 32位处理器提供领先的开发工具支持。兆易创新处理器和IAR Embedded Workbench的结合为RISC-V社区增加了强大的设备和开发工具。” 随着RISC-V技术的扩展，对开发工具的需求也在增加。IAR和兆易创新通过将IAR的编译器和调试器技术与兆易创新基于RISC-V的MCU相结合来满足这一需求，可解决希望从事RISC-V开发却缺少相关开发工具支持的局面。

[嵌入式]

第三大CPU架构RISC-V冲向5nm 192核国产版也要来了

作为仅次于x86、ARM的第三大CPU架构，RISC=V凭借开源、免费的优势迅速发展，之前主要用于低功耗市场，但是现在也开始冲击高性能领域，Ventana公司日前已经做出了5nm 192核的芯片。 Ventana公司日前发布了第一款产品Veyron V1，该公司研发了一种高性能RISC-V架构，每个CPU模块中有16个RISC-V内核，频率3.6GHz，整合48MB缓存，整个处理器可以集成12个CPU模块，做到192核，台积电5nm工艺生产制造，还有自己开发的高性能IO核心，延迟低至7ns，接近原生核心性能。 Veyron V1是RISC-V领域的一次重要突破，证明可以在高性能计算市场大有作为。与此同时，RISC-V

[嵌入式]

第三大CPU架构<font color='red'>RISC-V</font>冲向5nm 192核国产版也要来了

兆易创新联手IAR Systems发布全新RISC-V解决方案

日前，IAR Systems®，面向未来的嵌入式开发软件工具与服务供应商，宣布与兆易创新，业界领先的Flash和MCU供应商达成合作伙伴关系，并为兆易创新基于RISC-V内核的MCU产品提供性能强大的开发工具。 IAR Systems推出的C/C ++编译器和调试器工具链IAR Embedded Workbench®，具备了领先的代码性能（包括容量和速度），以及完全集成的调试器（包括模拟器和硬件调试支持）等广泛调试功能。自1983年以来，IAR Systems的解决方案为超过一百万套嵌入式应用提供了开发质量、可靠性和效率的保障。IAR Systems久负盛名的支持和服务体系也提

[嵌入式]

兆易创新联手IAR Systems发布全新<font color='red'>RISC-V</font>解决方案

Codasip CEO: 已经有20亿芯片搭载Codasip RISC-V IP

Codasip CEO Ron Black近期接受了eeNews Europe的采访，阐述了他对公司未来发展及业内关注的热点话题的看法。对于行业的未来竞争，Black表示，“这是一场达到临界值的竞赛。这不仅仅是关于将RISC-V作为替代方案。”Black表示，Codasip的强大之处在于拥有高效的软硬件协同设计技术。 “Codasip 吸引我的是设计工具‘Studio’和处理器描述语言CodAL。这提供了根据软件自动进行处理器描述的能力。”Black说。 Black随后描述了摩尔定律和MOSFET比例缩放的终结所带来的机会。由于晶体管功耗与电容、频率和电压的平方成正比，因此Robert Dennard在1974年提出，通过

[手机便携]

RISC-V「野蛮生长」：我国汽车芯片迎来“开源”潮

在电子电气架构走向中央计算时代的今天，电子电气架构对新汽车的重要性不言而喻，是汽车正常运行不可或缺的生命线，也决定了一款车型电动化和智能化的上限。智能汽车的下半场，正让“轮子上的计算机”向“轮子上的高性能计算平台”迈进，它需要囊括的已不只是被动安全，而是更广阔的智能化场景。软件定义汽车的新方向下，衍生的一个新趋势是，RISC-V正在大举进军汽车。中国工程院院士倪光南在6月18日重庆举行的第三届中国汽车芯片高峰论坛上表示： “RISC-V是我们信息领域芯片的关键核心技术，采用开源模式的一种新的技术。所以它能够有力的推动新的技术产业和新模式、新动能的创新发展。这样就可以对于新质生产力发展起很大的推动作用。”

[汽车电子]

<font color='red'>RISC-V</font>「野蛮生长」：我国汽车芯片迎来“开源”潮

热门资源推荐
热门放大器推荐

小广播