博鱼(boyu·中国)官方网站_性能大跃进，干翻x86！ArmNeoverseN1服务器处理器抢先解析

博鱼(boyu·中国)官方网站_性能大跃进，干翻x86！ArmNeoverseN1服务器处理器抢先解析添加时间：2024-12-08

本文摘要：因素，可以使系统具备十分大的内核计数，Arm回应16核以上的系统都必需不具备这一特性。

因素，可以使系统具备十分大的内核计数，Arm回应16核以上的系统都必需不具备这一特性。L2内存可选择512KB或1MB的配备，用于512KB配备时与Cortex A76基本相同，而1MB内存则可以应付内存闲置更大的应用程序。不过，将L2内存加倍到1MB并不是没代价的，这不会让内存的延后减少2个周期，超过11个周期的阻抗用于延后。Neoverse N1与Cortex A76的一个相当大的区别在于，在展开大尺度内存操作者时，Neoverse N1会去找寻集群，而是不会用于mash网络的方式。

如图所示，该相连首先通过一个CAL或组件单体层。每个CAL最少反对两个模块，这就是为什么我们在每个“集群”中不能看见两个CPU（它本身并不是确实的集群）。然后CAL相连到网格的XP（交叉点），它本质上是网络的交换机/路由器组件。

每个XP都有两个能用端口；在Arm参照设计示例中，第二个端口相连一个系统级内存。在64核系统配上2MB系统级内存的示例系统中，整个64MB内存的平均值阻抗用于延后为22ns。Arm得出的延后数据是纳秒数而不是周期数的原因是系统级内存和mesh运营在与CPU异步的频率上，一般来说是内核频率的2/3左右。

必要相连是Neoverse N1和CMN-600的一个整体特征。这个特性只不存在于这个平台上，而在Cortex架构上是不有可能构建的。本质上，它移除了DSU的所有L3和打探过滤器逻辑，而是必要将CPU内核相连到CMN的CHI模块。

因此，内存控制器和CPU核心之间的通信本质上只必须通过一个中间层，即mash网络本身。必要从内存控制器向CPU数据传输有可能有点无法说明，当CPU向内存控制器收到数据催促时，它需要立刻同时首先向其发送到“预取”类型催促，同时通过mesh网络中XP主节点的打探过滤器长时间传输命令，然后将催促路由到内存控制器。

因此，内存控制器将提早告诉催促的来临，并且早已开始获取数据，从而隐蔽部分有效地的内存延后，而不是整个传输按串行顺序展开。预取对整个系统的性能十分最重要，智能管理数据预取可以有效地优化系统级比特率。

据传在具备64核心和8个DDR4 3200内存地下通道的Neoverse N1参照系统中，可以构建高达175GB/s的内存比特率。Arm还发布了延后数据，但Arm的数据表示LMBench数据，同时配备了256MB测试深度的2MB大页面。自由选择大页面可以增加TLB的遗漏，并更加相似实际的内存延后，这就是Arm在这种情况下公布度量的基本原理。

我们还没机会测试落成了大页面的竞品系统，但是AMD的EPYC 7601（LRDIMM DDR4 2666 19-19-19）可在芯片的高速缓存层次结构的末端通过类似于LMBench的测试来构建大约73ns的延后，而自定义研发的延后测试将TLB告终最小化后延后大约为57ns。Intel W-3175X（RDIMM DDR 2666 24-19-19）在完全相同测试下延后分别为94ns和64ns。用于台积电7nm工艺生产的Neoverse N1芯片面积十分小，在用于512KB二级缓存时核心面积大约为1.2mm²，与麒麟980所用Cortex A76的1.26mm²完全完全相同。将L2内存加倍到1MB后，核心面积也只有1.4mm²。

在频率范围方面，Arm的设想是在0.75V电压下超过2.6GHz，在1V电压下可实现3.1GHz。在这条频率曲线末端，提高44％的功耗不能获得19％频率和性能提升，因此大多数供应商都期望更加相似功率曲线中更加有效地的部分。不过从意味著数字来看，Neoverse N1的功耗只有1~1.8W，这为64核SoC获取了充裕的空间，Arm对于64核Neoverse N1参照设计的总功率支出大约为105W。NeoverseN1超大规模参照设计Arm获取NeoverseN1的原始参照设计，其中包括一组几乎由Arm自己检验的IP。

这套参照设计的目标是为供应商获取“甜点”配备选项，这样他们就可以用比较最多的希望来构建拟合的性能。Neoverse N1的参照设计中可使用64或128核心配备，构建在具备64 MB或128MB 系统级内存的CMN-600 mash网络中。I/O模块方面，128条PCI-E 4.0地下通道分别用作I/O和CCIX模块，可获取充足的I/O比特率。在内存方面，Arm为其配备了8地下通道DDR4控制器，最低反对3200MHz。

不过实质上，Arm早已退出了自行研发内存控制器，因为大多数情况下客户不会用于各自的内部设计，或者自由选择从其他第三方供应商（如Cadence或Synopsys）处自由选择方案。对于目前的参照设计来说，Arm自己的DMC-520内存控制器依然是近期的，且对于公司来说是一个很好解读的模块。不过在未来，像DDR5这样的较新的内存控制器也将被迫依赖第三方IP。

SoC的物理构建将用于便于设计的可适配分层建构块。每个CPU模块由两个Neoverse N1内核、一组系统级内存，以及CMN的交叉点和本地节点的一部分构成。通过旋转和镜像来拷贝CPU模块，才可分解最后的SoC顶层网格。

在7nm工艺节点上，Arm的64核Neoverse N1参照设计配上64MB高速缓存，芯片尺寸相似400mm²，有可能略高于供应商想的可生产性目标。为了减轻这种忧虑，Arm同时明确提出了小芯片设计的点子，让多个小芯片通过CCIX链路展开通信，确保了适当的灵活性，供应商可自行决定如何设计解决方案。智能网卡的构建能力也是其设计和灵活性的一个最重要方面，为了在大型系统中最大限度地提升计算能力，加快网络连接实质上是在尽量密集且有效地的形式因素下构建低吞吐量的关键。

CMN-600容许在其交叉点上设置从端口，通过高达128GB/s的高带宽总线与内存管理单元相连，可精彩外挂其他相同功能的硬件模块。CCIX对Arm十分最重要，因为它使其产品组合需要与第三方IP产品构建。

为外部IP模块落成高速缓存一致性是一个十分有吸引力的功能，因为它大大简化了供应商的软件设计。基本上这意味著软件只是看见一个极大的内存块，而非相干性系统必须驱动程序和软件告诉并追踪内存的哪个部分是有效地的，哪些不是。在IP构建方面，Arm获取与CMN-600构建的CCIX完全一致网关，而另一方面，它是第三方IP提供商获取CCIX切换层的责任。

对Arm来说，CCIX十分最重要，它可让其产品组合需要与第三方IP产品构建。为外部IP块落成内存一致性是一个十分有吸引力的特性，可大大简化供应商的软件设计，仍然必须系统、驱动和软件追踪哪些是有效地内存。在IP构建方面，Arm获取了与CMN-600构建的CCIX相干性网关，而第三方IP提供商则获取CCIX翻译成层。

在芯片的逻辑设计中，供应商还必需设计一套强壮的配电网络，以承托实际用于情况中各种脑溢血且苛刻的电能市场需求。这对许多供应商而言都是一个十分困惑的问题，因为设计必须简单的模型，且在大多数情况下，配电网络必须过度设计以获取稳定性确保，这反过来又减少了实行的复杂性和成本。

Arm目的通过以专用微控制器的形式获取近于细粒度的DVFS（动态电压频率调整）机制来减轻这些问题。控制器采访CPU核心内部的详尽活动监控单元，查阅实际有多少晶体管正在大力工作，并将此信息反馈给系统控制器以变更DVFS状态。这使供应商需要将其配电网络设计为更加激进的容差，从而节省实行成本。性能预测关于性能和效率的辩论，必定必须用明确的数字来取决于。

在Arm发布Neoverse N1时，大多数性能数据都是相对于Cortex A72的改良，这并没将Neoverse N1确实置放竞争格局中最涉及的数据点。Cortex A72是一款2015年发售的架构，两款产品之间具有3~4年的时间跨度。与完全相同频率且某种程度备有系统级内存的Cortex A72平台比起，全新的Neoverse N1平台必要以碾压的姿态取得战胜。

在SPEC的单线程测试中，Neoverse N1的整数运算PPC（每时钟性能）和意味著性能比起Cortex A72快速增长了60％~70％，浮点运算性能则更加令人印象深刻印象，增幅高达100％~120％。且鉴于Neoverse N1还有许多其他SoC级别的改良及软件优化，实际的性能展现出将不会更高。与现有解决方案比起，Arm再度递归了十分大幅度的性能演变，在向量工作阻抗中构建了多达2倍的性能提高。

大自然，Neoverse N1反对ARMv8.2指令集也意味著它反对8位点乘积和FP16半精度指令，这些指令尤其合适机器学习工作阻抗，构建了比前一个平台近5倍的性能提高。对于运营速度大约为2.6GHz的64核Neoverse N1超大规模参照设计，在105瓦TDP下，其SPECint2006单线程分数大约为37，而多线程分数预计大约为1310。不过这一性能不是在实际运营的产品上测得的，而是在Arm的服务器群上用于RTL仿真环境中估计出来的。

Neoverse N1的单线程分数，显著低于在同源的Cortex A76上测量的26分，并不认为软件和编译器的考虑到不托，导致42%性能差异的原因之一有可能是Neoverse N1享有更佳的内存和内存系统，整个系统比特率比Cortex A76这种移动SoC低6倍，在单线程工作阻抗中，线程可以几乎采访64MB系统级内存，这比Cortex A76设计的L3内存大16倍。Arm特别强调，在提高生态系统性能的众多希望中，除了获取更佳的硬件之外，还必须获取更佳的软件。在过去的几年里，Arm投放了大量精力来改良开源工具和编译器，比如将最新版GCC9与旧版的GCC5展开较为，其整数和浮点工作阻抗的性能提升了13~15%，且这些优化是面向实际用例的改良，而不是目的提高SPEC跑完分的针对性的转变。

就单线程性能而言，Neoverse N1看上去十分出众，它以相当大的优势打败了目前性能最佳的Arm服务器CPU，即Cavium的ThunderX2。既然是面向服务器领域的产品，才对要与老牌供应商Intel和AMD展开对比，在Intel和AMD近期的、也是最差的Xeon W-3172X以及EPYC 7601上，某种程度用于GCC8编译器一组二进制文件展开。Intel的Xeon W-3172X很难说是最不具代表性的超大规模CPU，但它4.5GHz的单核睿屡屡亲率可获取多核CPU中最弱的单线程性能。

AMD的EPYC 7601则是一个更加有代表性的数据点，其3.2GHz的频率和Neoverse N1很有的比，实际成绩来看也显然如此。再行来看SPECrate2006的多线程测试，这是所有平台的最佳拓展场景，没序列化或线程间通信，测试套件只是分段运营多个进程。

从Arm得出的仿真测试结果来看，64核的Neoverse N1以105瓦的TPD构建了极高的性能和效率，x86解决方案甚至很难需要竞争。虽然测试较为的是64核Arm平台与32/28核x86平台，奇特用于AMD将要发售的64核Rome处理器才更加公平，但从数据来看，即使AMD的64核处理器能构建目前双倍的性能，其TDP也不太可能减少到Neoverse N1这样105 瓦的水平（EPYC 7601的TDP 是180瓦）。总结Neoverse N1看上去是一款杰出的架构，它维持了Arm一贯领先的电源效率，构建了峰值计算出来性能和总体吞吐量之间的最佳均衡。

Arm对Neoverse N1及其最后的继任者抱着有很高的希望，期望从Intel等供应商中偷走x86处理器根深蒂固的市场份额。Arm正在尽最大努力，虽然Neoverse N1会沦为旗舰x86的核心竞争对手，但在可以精彩扩展到更加多核心的工作阻抗中，它不会包含根本性威胁。当然，在实际硬件产品经常出现之前，我们还无法下任何定论，但Arm此前对Cortex A76的性能预测十分符合实际设备上的测量结果，因此我们有理由给与Neoverse N1的性能预测以信任，构建预测中的性能认同是有期望的。

尽管新的硬件IP令人印象深刻印象，但某种程度最重要的是Arm在强化Arm软件生态系统方面的希望。与有所不同行业的硬件和软件合作伙伴合作，企图增进软件堆栈和与Arm的互操作性，这不仅不利于用于Arm自己的硬件IP的供应商，而且不利于自由选择用于自己的自定义CPU和SoC设计的供应商。

某种程度，那些企图改良和强化自己产品的供应商，也将反过来强化Arm的生态系统。本质上，这是许多公司之间的集体希望，未来将之后取得动力。

可以显现出，Arm于是以十分严肃地对待基础设施建设，过去的一年对于Arm生态系统来说是革命性的，我们第一次看见了Arm厂商平台与Intel和AMD等主流厂商竞争。虽然Arm没透漏谁将首先用于Neoverse N1平台的信息，但Arm于是以无可辩驳地沦为行业主流。据说Neoverse N1将在未来12~18个月内展开商业部署，这将是Arm的关键时刻。

如果一切进展成功，Arm和合作伙伴构建了允诺的改良，未来1~2年里，服务器行业终将步入一次根本性改变。版权文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：博鱼(boyu·中国)官方网站,博鱼(boyu·中国)官方网站-BOYU SPORTS

本文来源：博鱼(boyu·中国)官方网站-www.rubituci.com

上一篇 : 博鱼(boyu·中国)官方网站-BOYU SPORTS|微软沈向洋谈GitHub、数据信仰和计算未来

下一篇 : 微信成最频繁网络诈骗犯罪工具；滴滴将推自动驾驶打车服务；京东高管吐槽其他平台价格虚高|雷锋早报-博鱼(boyu·中国)官方网站-BOYU SPORTS

【返回列表】