ARM CortexA

科技

 0  125

jczsz173 2021-11-30 06:11

閱讀需：0

ARM雖然是個(gè)小公司，但是他們是整個(gè)ARM處理器陣營(yíng)的核心。除了蘋果、高通等少數(shù)能夠自行開發(fā)ARM兼容架構(gòu)的公司外，聯(lián)發(fā)科、海思立信等大部分公司都會(huì)直接使用ARM官方的Cortex-A架構(gòu)進(jìn)行授權(quán)。從64位時(shí)代開始，ARM就發(fā)布了Cortex-A57/A53架構(gòu)，但只有A53遍地開花，高性能的A57核心在手機(jī)市場(chǎng)只有三星和高通在用，面臨難產(chǎn)的尷尬。因此，在今年2月，ARM推出了A57的繼任者，——Cortex-A72架構(gòu)，聲稱其性能是A15的3.5倍，功耗降低了75%。

當(dāng)時(shí)我們對(duì)ARM的Cortex-A72內(nèi)核了解不多。我們只知道A72核心將采用新一代FinFET工藝生產(chǎn)，包括來(lái)自三星/Globalfoundries的14納米和來(lái)自TSMC的16納米。得益于先進(jìn)的頻率，A72 core擁有更高的頻率，可以達(dá)到2.5GHz，更高的頻率將有助于A72增強(qiáng)服務(wù)器市場(chǎng)的存在感，這也是其目標(biāo)市場(chǎng)之一。

最近ARM公布了Coretx-A72核心的詳細(xì)架構(gòu)，Anandtech官網(wǎng)也做了一些分析。讓我們看看A72架構(gòu)的改進(jìn)。畢竟A72核心很有可能成為明年旗艦手機(jī)/平板的標(biāo)配。

值得一提的是，首先解釋了A72核心的命名由來(lái)，那么為什么不選擇Cortex-A59呢？ARM解釋說(shuō)，這純粹是為了方便市場(chǎng)推廣。如果類似A57的命名，那么大家就不容易看出這兩個(gè)核心的區(qū)別了(大家是不是只通過(guò)數(shù)字來(lái)判斷好壞？)。

A72核心的性能是A15的3.5倍。

功耗降低75%。

之前ARM宣傳A72的核心性能是上一代的3.5倍，功耗降低了75%。不過(guò)很明顯這只是宣傳，ARM并沒(méi)有直接對(duì)比A57和A72的區(qū)別。如果只看兩者，在同樣的14/16nm工藝下(2.6x到3.5x，必須考慮頻差)，A72芯只比A57高34%，而在同樣的28nm工藝下，A72芯只比A57高34%。

還需要注意的是，A72內(nèi)核可以在更高的頻率下工作，而不是簡(jiǎn)單的最高頻率。之前因?yàn)锳57太強(qiáng)，只能短時(shí)間維持在最高頻率，頻率降低。但ARM提供的數(shù)據(jù)顯示，在16nm FinFET工藝下，A72內(nèi)核在2.5GHz工作時(shí)功耗僅為750mW。

除了功耗，ARM在A72架構(gòu)上也做了很多優(yōu)化。如上圖所示，整數(shù)、浮點(diǎn)和內(nèi)存的性能都有不同程度的提升。雖然仍然缺少一些細(xì)節(jié)，但I(xiàn)PC性能仍有16-30%的提升。

由A57升級(jí)而來(lái)的A72架構(gòu)

看來(lái)ARM在性能、功耗、核心面積三個(gè)方面做了全面的提升，這也是半導(dǎo)體設(shè)計(jì)的三個(gè)重要指標(biāo)。這一成果是在ARM重新優(yōu)化了幾乎所有A57邏輯塊后實(shí)現(xiàn)的，其中CPU架構(gòu)做了相當(dāng)大的改進(jìn)，包括新的分支預(yù)測(cè)單元和改進(jìn)的解碼器流水線設(shè)計(jì)。

在指令預(yù)取方面，我們可以看到ARM重新設(shè)計(jì)了分支預(yù)測(cè)單元，可以支持更復(fù)雜的算法，提高性能，降低功耗、誤預(yù)測(cè)率和推測(cè)，具體來(lái)說(shuō)，與A57相比，其誤預(yù)測(cè)率降低了50%，推測(cè)率降低了25%。禁止冗余分支預(yù)測(cè)單元。實(shí)際上，如果分支預(yù)測(cè)單元不能有效工作，它將被繞過(guò)。

此外，通過(guò)更好地耦合不同的IP模塊，ARM還優(yōu)化了RAM組織。

再看A72的流水線設(shè)計(jì)，解碼/重命名性能也有所提升。解碼器本身是一個(gè)3指令傳輸?shù)慕獯a器，但ARM正在提升性能。已經(jīng)做出了很大努力來(lái)降低功耗。為了提高性能，增加了有效解碼帶寬，解碼器也獲得了一些AArch64指令融合增強(qiáng)。此外，通過(guò)各種方法降低功耗，包括直接解碼。

在為提高性能所做的改進(jìn)中，調(diào)度/退役單元似乎是最大的變化。解碼器可以融合指令，ARM的指令調(diào)度單元可以將ops操作加擾成更小的微操作并傳遞給執(zhí)行單元，這樣在指令調(diào)度單元中3-launch就可以變成等價(jià)的5-launch。這將提高解碼器的吞吐量，同時(shí)增加指令調(diào)度單元在每個(gè)周期中創(chuàng)建的微操作的數(shù)量。

在A72架構(gòu)中，ARM意味著平均每條指令有1.08個(gè)微操作，這將緩解實(shí)際上被限制在57架構(gòu)中的指令調(diào)度單元的性能。

另一方面，執(zhí)行單元也有新的設(shè)計(jì)，包括新一代浮點(diǎn)/高級(jí)SIMD單元。因?yàn)镕P浮點(diǎn)流水線從9減少到6，所以延遲更低。FMUL(浮點(diǎn)乘法)的延遲也從5個(gè)周期減少到3個(gè)周期，F(xiàn)ADD(浮點(diǎn)加法)從4個(gè)減少到3個(gè)，F(xiàn)MAC(浮點(diǎn)累積乘法)從9個(gè)減少到6個(gè)，CVT單元從4個(gè)減少到2個(gè)。FP浮點(diǎn)單元的渲染流水線長(zhǎng)度從19減少到16。

整數(shù)單元也進(jìn)行了改進(jìn)，Radix-16分頻器的帶寬增加了一倍，CRC單元的延遲降低到1個(gè)周期，是A57架構(gòu)帶寬的3倍。

另一個(gè)顯著的性能改進(jìn)是裝載/存儲(chǔ)單元。ARM表示L/S單元的帶寬增加了30%，這是由于引入了新的預(yù)取器。

A72架構(gòu)的紙面改進(jìn)令人印象深刻。是對(duì)A57架構(gòu)的創(chuàng)新和升級(jí)。A72在性能、功耗和核心面積方面都有所提升。A57架構(gòu)是去年Q3進(jìn)入市場(chǎng)的，但是現(xiàn)在三星和高通的A57架構(gòu)處理器已經(jīng)量產(chǎn)上市，所以A72核心真正進(jìn)入市場(chǎng)至少需要一年的時(shí)間。

相關(guān)標(biāo)簽:

評(píng)論

消滅零回復(fù)

ARM CortexA

站長(zhǎng)推薦