邁入新里程:Tegra K1 Denver 成為 Android 平台首款64 位元 ARM 處理器

作者 Nick Stam

NVIDIA (輝達) 的 32 位元 Tegra K1 行動處理器為行動裝置帶來驚人的效能表現和媲美遊戲主機等級的繪圖效果,因而在行動領域獲得好評。

根據 Anandtech 指出,在 GPU 效能測試中這款 32 位元處理器 「輕鬆擊敗其他的 ARM 架構的系統單晶片」。同時,PC Perspective 也指出「Tegra K1 的GPU 效能卓越出眾,在現今市場中沒有可以匹敵的產品。」

NVIDIA (輝達) 推出 Tegra K1 的 32 位元版本已有 8 個月,並在高效能晶片技術會議 HOT CHIPS 中帶來更多關於 Tegra K1 64 位元版本的架構細節。

你可以透過網站獲得更多技術細節,或可參考以下我們在大會中簡報的概要:

全新版本的 Tegra K1 採用 NVIDIA 192 核心 Kepler 架構 GPU ,內含我們的客製化設計、 64 位元雙核心 「 Project Denver」 CPU,並相容於 ARMv8 架構。此外, Denver 與 32 位元 Tegra K1 針腳腳位完全相容,因而可以輕鬆更新配置升級,加速產品上市時程。

擁有優異效能和出色節能效率,64 位元 Tegra K1 是全球首款 Android 專用 64 位元 ARM 處理器,領先業界其他 ARM 架構行動處理器。

最高單核心 CPU 處理量
Denver 是專為最高單核心 CPU 處理量設計的行動處理器,同時也提供領先業界的雙核心效能。兩顆 Denver 核心都配置了一個 7-way 超純量微型架構,每時脈可同時執行 7 個微指令,並包括 128KB 4-way L1 指令快取記憶體、 64KB 4-way L2 資料快取記憶體,以及同時供兩個核心使用的 2MB 16-way L2 快取記憶體

Denver 採用創新的動態程式碼最佳化程序技術,可以針對在執行時常用的軟體運作指令進行最佳化,轉換為密集型、高度調校的微指令同級程序。這些程序會暫時儲存於專屬的 128MB 主記憶體最佳化快取記憶體。最佳化微指令在指令快取記憶體中被讀取後就會執行,只要指令快取記憶體擁有足夠的容量時,即可從快取記憶體重取 (re-fetch) 和執行該指令,進而提升執行效率。

這項技術可以有效減少重新最佳化軟體指令的需求。有別於使用硬體擷取程式碼中指令平行運算 (ILP) 的做法, Denver 僅需透過軟體技術擷取 ILP 一次 ,即可重複執行這些軟體指令,因此可透過多次執行指令分攤擷取 ILP 的成本。

在動態程式碼優化過程中, Denver 可涵蓋數百項指令和開啟執行循環、重新命名緩衝器、移除未用的指令,以及用不同的方法將程式碼重新定序以取得最佳的速度。這種做法可藉由將 ARM 程式碼轉換成高度優化的微指令常式,進而有效地將基準層的硬體效能加倍,並可節省執行所需的電力。

動態優化程序中隨時可執行的優化程式碼帶來可觀的效能,並可足以抵銷其中的缺點。當程式碼不會常被重用時, Denver 不用經過動態最佳化程序即可以直接處理那些 ARM 指令,一舉兩得!

動態程式碼最佳化過程可用於全部標準的 ARM 應用,而且應用開發者也不需作任何客製化設計,其中所需的功耗也不會比其他 ARM 行動處理器多。這是因為 7-wide 超純量設計可以相同的時脈速度提供不可能更快的處理效率。

Denver 傑出的設計可同時為單執行緒和多執行緒應用及多工作業提供優異的效能。它的兩個 CPU 核心可釋出比目前四核心和八核心行動處理器更強的運算效能,有效處理大部分行動負載。

除了全面性的功耗閘極和動態電壓,以及依工作負載調整的時脈擴增功能外, Denver 也具備全新的低延遲率電源狀態轉換功能。加上動態程式碼優化、 7-way 超純量設計和有效率的電力使用功能, Denver 的效能可匹敵一些主流的 PC 級 CPU ,而且可以大幅降低功耗。

這表示未來採用 64 位元 Tegra K1 的行動裝置可以針對一般的應用程式提供 PC級的效能、更長的電池續航力和最佳的網路瀏覽體驗。這些都為遊戲、內容創作和企業級應用開啟了全新的可能性。

NVIDIA 的合作夥伴將在今年稍後時間推出令人驚艷的行動裝置,而可以期待的是這些將上市的行動裝置將採用 64 位元的 Tegra K1。對於 Android 的終極粉絲而言,我們已正在 64 位元 Tegra K1 中開發下一個版本的 Android “L”。