ARM雖然是個(gè)小公司,但是他們是整個(gè)ARM處理器陣營(yíng)的核心。除了蘋果、高通等少數(shù)能夠自行開發(fā)ARM兼容架構(gòu)的公司外,聯(lián)發(fā)科、海思立信等大部分公司都會(huì)直接使用ARM官方的Cortex-A架構(gòu)進(jìn)行授權(quán)。從64位時(shí)代開始,ARM就發(fā)布了Cortex-A57/A53架構(gòu),但只有A53遍地開花,高性能的A57核心在手機(jī)市場(chǎng)只有三星和高通在用,面臨難產(chǎn)的尷尬。因此,在今年2月,ARM推出了A57的繼任者,——Cortex-A72架構(gòu),聲稱其性能是A15的3.5倍,功耗降低了75%。
當(dāng)時(shí)我們對(duì)ARM的Cortex-A72內(nèi)核了解不多。我們只知道A72核心將采用新一代FinFET工藝生產(chǎn),包括來(lái)自三星/Globalfoundries的14納米和來(lái)自TSMC的16納米。得益于先進(jìn)的頻率,A72 core擁有更高的頻率,可以達(dá)到2.5GHz,更高的頻率將有助于A72增強(qiáng)服務(wù)器市場(chǎng)的存在感,這也是其目標(biāo)市場(chǎng)之一。
最近ARM公布了Coretx-A72核心的詳細(xì)架構(gòu),Anandtech官網(wǎng)也做了一些分析。讓我們看看A72架構(gòu)的改進(jìn)。畢竟A72核心很有可能成為明年旗艦手機(jī)/平板的標(biāo)配。
值得一提的是,首先解釋了A72核心的命名由來(lái),那么為什么不選擇Cortex-A59呢?ARM解釋說(shuō),這純粹是為了方便市場(chǎng)推廣。如果類似A57的命名,那么大家就不容易看出這兩個(gè)核心的區(qū)別了(大家是不是只通過(guò)數(shù)字來(lái)判斷好壞?)。
A72核心的性能是A15的3.5倍。
功耗降低75%。
之前ARM宣傳A72的核心性能是上一代的3.5倍,功耗降低了75%。不過(guò)很明顯這只是宣傳,ARM并沒(méi)有直接對(duì)比A57和A72的區(qū)別。如果只看兩者,在同樣的14/16nm工藝下(2.6x到3.5x,必須考慮頻差),A72芯只比A57高34%,而在同樣的28nm工藝下,A72芯只比A57高34%。
還需要注意的是,A72內(nèi)核可以在更高的頻率下工作,而不是簡(jiǎn)單的最高頻率。之前因?yàn)锳57太強(qiáng),只能短時(shí)間維持在最高頻率,頻率降低。但ARM提供的數(shù)據(jù)顯示,在16nm FinFET工藝下,A72內(nèi)核在2.5GHz工作時(shí)功耗僅為750mW。
除了功耗,ARM在A72架構(gòu)上也做了很多優(yōu)化。如上圖所示,整數(shù)、浮點(diǎn)和內(nèi)存的性能都有不同程度的提升。雖然仍然缺少一些細(xì)節(jié),但I(xiàn)PC性能仍有16-30%的提升。
由A57升級(jí)而來(lái)的A72架構(gòu)
看來(lái)ARM在性能、功耗、核心面積三個(gè)方面做了全面的提升,這也是半導(dǎo)體設(shè)計(jì)的三個(gè)重要指標(biāo)。這一成果是在ARM重新優(yōu)化了幾乎所有A57邏輯塊后實(shí)現(xiàn)的,其中CPU架構(gòu)做了相當(dāng)大的改進(jìn),包括新的分支預(yù)測(cè)單元和改進(jìn)的解碼器流水線設(shè)計(jì)。
在指令預(yù)取方面,我們可以看到ARM重新設(shè)計(jì)了分支預(yù)測(cè)單元,可以支持更復(fù)雜的算法,提高性能,降低功耗、誤預(yù)測(cè)率和推測(cè),具體來(lái)說(shuō),與A57相比,其誤預(yù)測(cè)率降低了50%,推測(cè)率降低了25%。禁止冗余分支預(yù)測(cè)單元。實(shí)際上,如果分支預(yù)測(cè)單元不能有效工作,它將被繞過(guò)。
此外,通過(guò)更好地耦合不同的IP模塊,ARM還優(yōu)化了RAM組織。
再看A72的流水線設(shè)計(jì),解碼/重命名性能也有所提升。解碼器本身是一個(gè)3指令傳輸?shù)慕獯a器,但ARM正在提升性能。已經(jīng)做出了很大努力來(lái)降低功耗。為了提高性能,增加了有效解碼帶寬,解碼器也獲得了一些AArch64指令融合增強(qiáng)。此外,通過(guò)各種方法降低功耗,包括直接解碼。
在為提高性能所做的改進(jìn)中,調(diào)度/退役單元似乎是最大的變化。解碼器可以融合指令,ARM的指令調(diào)度單元可以將ops操作加擾成更小的微操作并傳遞給執(zhí)行單元,這樣在指令調(diào)度單元中3-launch就可以變成等價(jià)的5-launch。這將提高解碼器的吞吐量,同時(shí)增加指令調(diào)度單元在每個(gè)周期中創(chuàng)建的微操作的數(shù)量。
在A72架構(gòu)中,ARM意味著平均每條指令有1.08個(gè)微操作,這將緩解實(shí)際上被限制在57架構(gòu)中的指令調(diào)度單元的性能。
另一方面,執(zhí)行單元也有新的設(shè)計(jì),包括新一代浮點(diǎn)/高級(jí)SIMD單元。因?yàn)镕P浮點(diǎn)流水線從9減少到6,所以延遲更低。FMUL(浮點(diǎn)乘法)的延遲也從5個(gè)周期減少到3個(gè)周期,F(xiàn)ADD(浮點(diǎn)加法)從4個(gè)減少到3個(gè),F(xiàn)MAC(浮點(diǎn)累積乘法)從9個(gè)減少到6個(gè),CVT單元從4個(gè)減少到2個(gè)。FP浮點(diǎn)單元的渲染流水線長(zhǎng)度從19減少到16。
整數(shù)單元也進(jìn)行了改進(jìn),Radix-16分頻器的帶寬增加了一倍,CRC單元的延遲降低到1個(gè)周期,是A57架構(gòu)帶寬的3倍。
另一個(gè)顯著的性能改進(jìn)是裝載/存儲(chǔ)單元。ARM表示L/S單元的帶寬增加了30%,這是由于引入了新的預(yù)取器。
A72架構(gòu)的紙面改進(jìn)令人印象深刻。是對(duì)A57架構(gòu)的創(chuàng)新和升級(jí)。A72在性能、功耗和核心面積方面都有所提升。A57架構(gòu)是去年Q3進(jìn)入市場(chǎng)的,但是現(xiàn)在三星和高通的A57架構(gòu)處理器已經(jīng)量產(chǎn)上市,所以A72核心真正進(jìn)入市場(chǎng)至少需要一年的時(shí)間。