老石按:片上網絡技術(Network-on-Chip)并不是一個全新的“黑科技”,從發明至今已有二十余年的歷史。隨著 2018 年英特爾收購 NoC IP 供應商 Netspeed,以及 2019 年 Facebook 收購另一家 NoC 公司 Sonics,片上網絡技術漸漸再次回歸人們的視野。同時,就像之前文章里介紹的,主流 FPGA 公司也開始采用片上網絡技術構建新一代 FPGA 芯片。

 

老石很榮幸得到電子科大副教授黃樂天博士(知乎 ID:其實我是老莫)的授權,轉載他有關片上網絡技術的一系列干貨文章,以饗老石談芯的讀者。本文是第一篇,系統介紹了片上多核系統與片上網絡技術的發展脈絡。接下來是正文。

 

片上多核系統與片上網絡的發展概述

系統級芯片也被稱為片上系統,是指在單個芯片內部實現大部分甚至完整的電子系統功能的一種芯片。這種芯片是高端電子系統的核心,隨著集成電路工藝技術的發展也逐步向中低端電子系統發展。如今,很多諸如腕表、手環之類的可穿戴設備以及智能玩具等低端嵌入式設備也都以系統級芯片為核心來開展設計??梢哉f片上系統已經成為集成電路,尤其是數字集成電路的主要實現形式。

 

由于集成電路工藝在摩爾定律的驅使下飛速發展,單位面積上的晶體管數量不斷增加。根據登納德縮放比例(晶體管面積的縮小使得其所消耗的電壓以及電流會以差不多相同的比例縮小。也就是說,如果晶體管的大小減半而時鐘頻率不變,該晶體管的功耗將會降至四分之一)。使用新的集成電路工藝可以讓設計者可以大大地提高芯片的時鐘頻率,因為提高頻率所帶來的更多的功耗會與晶體管縮放減少的功耗抵消,芯片的性能可以依靠不斷的提升時鐘頻率來獲得提高(當然,也要配合架構設計的改進,例如利用增加的晶體管設計更多而且更為合理的高速緩存)。這樣在芯片內部集成更多的晶體管的時候,提高芯片時鐘頻率成為了一個“免費的午餐”。

 

而 2005 年前后,晶體管微縮到一定程度以后量子隧穿效應(指像電子等微觀粒子能夠穿入或穿越位勢壘的量子行為)開始慢慢介入,使得晶體管漏電現象開始嚴重。漏電現象的出現打破了原先登納德所提出的定律。單純提高時鐘頻率將造成芯片功耗難以控制。功耗增大除了更費電不環保之外,帶來的最大問題是增加的功耗會轉化為熱量。在微小的芯片面積上大量功耗密集堆積會導致溫度急劇增加。如果散熱做的不好,芯片的壽命將大大減少甚至變得不穩定。在這種情況下,提高芯片的時鐘頻率不再是免費的午餐。在沒有解決晶體管漏電的問題之前,單純的增加芯片的時鐘頻率因為隨之而來的散熱問題而變得不再現實。于是芯片研究商們開始紛紛停止高頻芯片的研發,轉而向低頻多核的架構開始研究,用更多但頻率更低的核心來替代一個高頻率的核心。這種具備多個運算核心的片上系統就是片上多核系統。

 

近 10 年來片上多核系統一直是數字集成電路領域的熱點,經過眾多研究者的不斷努力誕生了大量很有意義的研究成果。片上網絡,本質上是為了解決片上多核系統中不同的核心之間,核心與非核心(Un-Core)硬件單元之間數據傳輸問題的一種“片上通信”方案。因此要理解清楚片上系統的發展脈絡,必須要先從片上多核系統的發展入手。否則就會出現“無的放矢”和“盲人摸象”的問題。但由于片上多核系統的研究者背景和應用領域不同導致發展演進過程較為復雜而難以理解。2012 年本人及所在研究小組開始切入片上網絡相關時,由于對于片上多核系統的理解不深,導致研究出現了諸多波折與困擾,導致在一年多的時間中整體研究徘徊不前。

 

為減少這一問題對于大家理解片上網絡的影響,作為我們系列文章的開頭,本文將首先總結片上多核系統的演進歷史與現狀。從而讓大家理解出現片上網絡這一技術背后的推動力,也可以看出片上網絡多年來一直徘徊不前的原因。

 

片上多核系統發展的兩條演進路線

第一款被大眾所熟知的商用化片上多核系統是著名處理器芯片提供商之一的 AMD 公司面向個人電腦推出的 ATHLON X2 雙核中央處理器 Central Processing Unit (CPU),該款 CPU 在商業上大獲成功。此后商用化片上多核系統的研制開始進入高潮。2005 年 Intel 發布了 64 位雙核處理器 Montecito[1],而 IBM 公司則發布了具有 9 個核心的 Cell 處理器[2]。此后的 10 年間,片上多核系統開始大量的被應用于各種信息基礎設備,成為高性能電子設備的核心器件。

 

但實際上片上多核系統的研究開始于上個世紀 90 年代中期,在過去的 20 多年中片上多核系統架構一直處于不斷發展和演進中。由于應用領域和研究人員的學術背景不同,片上多核系統的研究從一開始就有著明顯的“流派”之分。隨著研究的持續深入,片上多核系統出現了越來越多的技術分支。這不但讓廣大吃瓜群眾難以辨識,對于很多剛接觸片上多核系統研究的碩士生和低年級博士生而言,搞清楚這些技術分支的區別與聯系也并不是一件輕松的工作。

 

簡單來說,片上多核系統由于起源不同、應用領域不同以及研究者的學術背景不同等原因,發展出了不同的技術路線。上文提到的 Intel 公司發布的 Montecito 處理器[1]和 IBM 公司發布的 Cell 處理器[2]就代表了兩種最主要的技術路線。

 

Montecito 處理器這一類片上多核系統源于 Symmetric Multi-Processing System (SMP)系統,被稱之為 Chip Multiprocessors (CMP)(國內一般翻譯為單芯片多處理器),主要用于高性能通用計算領域。Cell 處理器這一類片上多核系統則由片上系統 Systemon-Chip (SoC)演進而來,被稱為 Multi-Processors System-on-Chip (MPSoC)。這類片上多核系統主要作為一種高端的嵌入式處理器被應用于通信、信號處理、多媒體處理等領域。為方便行文,后文中直接使用 CMP 和 MPSoC 來指代這兩類處理器。

 

采用 CMP 架構的片上多核系統通常被應用于工作站、服務器、云計算平臺等通用計算設備,所運行的主要應用通常是以科學計算、仿真模擬為代表的大數據量通用計算。這類片上多核系統大多采用數據并行的并行程序開發模式,以共享存儲器的方式來交換數據。這樣的好處在于開發難度較低、程序的通用性較好,可以借用類似于 OpenMP[3] 這樣已經較為成熟的并行編程模型加以開發。又由于科學計算、仿真模擬這類應用的特點通常是數據量超大,但不同處理器上所運行的核心程序往往是相同的。因此采用共享存儲的方式可以使得多個處理器核心可以很容易共享同一塊虛擬地址空間,這使得同一程序可以很方便的同時運行在不同的核心上,也可以很方便的共享同一個操作系統或管理程序。

 

Hydra 處理器是 1996 年美國斯坦福大學研制集成了 4 個核心的處理器[4],它被認為是首款具備 CMP 性質的片上多核系統。

 


圖 1 Hydra 處理器架構圖,它被認為是首款具備 CMP 性質的片上多核系統

 

Hydra 處理器采用了四個 MIPS 處理核心,每個核心擁有私有的指令緩存(I-Cache)和數據緩存(D-Cache)。二級緩存為四個核心共享,通過核心自身的存儲控制器(Memory Controller, MC)及一組總線與二級緩存(L2 Cache)、主存儲器接口(Main Memory Interface)和輸入輸出總線接口(I/O Bus Interface)互連。由于片上的二級緩存為四個核心所共享,因此四個核心實質上在邏輯上具備單一的內存地址空間。這也使得共享同一個操作系統或管理程序成為可能。Hydra 處理器為后續 CMP 架構片上多核系統的發展奠定了基礎,這一架構的片上多核系統在后續的演進過程中始終被 Hydra 處理器的初始設計所影響。

 

而 MPSoC 誕生初期的主要代表是一些集成了多個數字信號處理器(Digital Signal Processor DSP)和微處理器(Microprocessor Unit MPU)的專用芯片。這些芯片主要被應用于數字電視、多媒體播放器等信號處理設備。與追求高性能的通用計算不同,MPSoC 主要應用領域所面臨的主要問題是計算的實時性。由于計算任務的確定性更強,使得 MPSoC 的設計者和使用者能夠也必須要精確的劃分任務并合理的分配任務以應對各種挑戰。

 

圖 2 所示的 Viper 處理器[5],即為最早的一批 MPSoC 之一。

 


圖 2 Viper 處理器架構示意圖,它是早期 MPSoC 的代表之一

 

從圖 2 中可以看出,整個芯片可以被劃分為兩個相對獨立的子系統。分別以 MIPS(PR3940)CPU 和 TriMedia(TM32)CPU 為核心。圖左側為以 MIPS(PR3940)CPU 為核心的子系統,這部分子系統的架構類似于一個通用的嵌入式 SoC 芯片,集成了如 UART、IEEE 1394 協議控制器之類的接口模塊。圖右側為以 TriMedia(TM32)CPU 為核心,在這一子系統中集成了如 MPEG-2 視頻解碼器、視頻輸入處理器等多媒體處理單元,實質上構成了一個專用的多媒體處理器。因此可以很清楚的判斷 Viper 處理器中以 MIPS(PR3940)CPU 為核心的子系統主要負責通用處理器控制和數據傳輸方面的功能,而以 MIPS(PR3940)CPU 為核心的子系統則主要負責多媒體信號處理。兩個子系統相對獨立,通過 Fast C-Bridge、MIPS C-Bridge 以及 C-Bridge 三個總線橋相互連接。

 

Viper 處理器的架構很清晰的體現了 MPSoC 的一些典型特點:按任務需求劃分為若干獨立的子系統,每個子系統完成一個專門的功能,子系統之間相對獨立等。這種架構設計方法充分體現了嵌入式系統的特性,因而被后來的研究者所繼承和發揚。

 

RAW[6]是一代具有劃時代意義的片上多核系統。雖然它被發表于 1997 年,但它卻奠定了今后 20 年采用片上網絡互聯的 CMP 的基本架構。

 


圖 3 首次采用 Tile 結構和網絡化互聯的 CMP 架構芯片:RAW

 

RAW 是由美國麻省理工學院于 1997 年提出并流片驗證(從這里也可以看出美國在于高端系統芯片領域的積累深厚,回想我們 1997 年的芯片設計水平也才剛剛進入到能把 EDA 工具流程用起來,開始做 ASIC 的水平。龍芯等一大批處理器芯片設計都要等到 2000 以后)。

 

RAW 微處理器架構采用了一種被稱為 Tile(國內有國內文獻有直譯為瓦片,為避免歧義本文中均使用英文原文指代)的模塊劃分方式。這種劃分方法把 CPU、私有 Cache(L1 Cache)、共享 Cache(L2 Cache)的一個 Bank(一直不知道這個該怎么翻譯……)、網絡接口(Network Interface NI)等硬件資源構建為一個獨立的 Tile。在不同的 Tile 在芯片規劃的平面內按一定的規律整齊排列,Tile 和 Tile 之間通過 NoC 加以互聯。這種采用 Tile 來劃分和組織片上多核系統的方式優勢在于每個核心比較規整,有利于芯片后端設計并具備較好的可擴展性。此后雖然有一些其它形式的核心劃分與組織方式的論文發表,但基于 Tile 的劃分與組織方式始終被絕對部分研究者(灌水者)所繼承。

接下來看一看比較近的一點的 CMP 架構的片上多核系統,32 核心 SPARC M7 處理器[7]。發布于 2015 年的 ISSCC 上。

 


圖 4 32 核心 SPARC M7 處理器邏輯結構圖

 

該款處理器共有 32 個核心,每 4 個核心構成一個組(文章中稱其為 SCC),總共 8 個組。每個組內部共享 L2 Cache,但其它組不能訪問。L3 Cache 為全局共享 Cache,可以被所有的所有核心訪問。L3 Cache 同樣被劃分為 8 個獨立的 bank,和對應的每個組一起組成了一個完整的 Tile。

 

為了更有效的互聯各個不同的 Tile,研究者為 SPARC M7 處理器設計了三套不同的片上網絡。分別是采用環網(Ring)結構的請求網絡(Request Network),采用廣播(Broadcasting)結構的響應網絡(Responses Network)以及采用網格(Mesh)結構的數據網絡(Data Network)。不同的片上網絡分別傳送不同的控制信息和數據,從而使得訪問 Cache 的效率能最大限度的提高。

 

片上網絡成為 CMP 架構的片上多核系統內部互聯的主流方式之后,片上緩存的組織方式也相應的發生了改變。在使用總線或交換結構的時代,CPU 訪問不同 Cache Bank 的時間是基本保持一致的。但在使用片上網絡作為內部互聯以后,CPU 訪問不同的 Cache Bank 的時間已經不可能保持一致了。因此一種被稱為非均勻高速緩存體系結構(Non-uniform Cache Architecture, NUCA)的概念被提出。NUCA 是基于片上網絡的 CMP 片上多核系統所必然要面臨的問題,但對 NUMA 的研究也推動了基于片上網絡的 CMP 片上多核系統向前持續演進。改進 NUMA 條件下 CMP 架構片上多核系統的訪存效率,也成為提升 CMP 架構片上多核系統性能的主要途徑。由于這部分內容涉及到較多存儲體系結構方面的研究,在計算機系統結構的研究中屬于另外一個領域。超出了本文甚至本系列文章所討論的范圍,因而在此不再進一步展開討論。

 

當然,也不是所有的 CMP 架構的片上多核系統從此就走上了依靠 NoC 互聯的道路。當核心數量不多的時候確實沒有必要考慮使用 NoC。例如 AMD 的 Zen 就是沒有依靠 NoC 而采用了一種叫 Core Complex (CCX)的方式互聯[8]。

 


圖 5 采用 CCX 互聯的 Zen,依然具備 CMP 架構的基本特征

 

從圖 5 可以看出,Zen 雖然核心比較少,但仍然是典型的 CMP 架構。

 

談了很久的 CMP,我們回頭再來看一看 MPSoC。相比于 CMP 的規整、對稱的架構,MPSoC 是由若干個獨立的子系統構成的。圖 6 是 Intel 在今年 ISSCC 上發布的面向機器人的 Robot SoC[9]。

 


圖 6 面向機器人的 Robot SoC,典型的 MPSoC 架構

 

圖 6 中有若干個子系統。左邊第一個是以 X86 處理器為核心的實時子系統,主要負責對外接口通信與控制,所以和 SPI、I2C 等外設接口劃分到一起了。Tensilica DSP 則是負責信號處理運算的一個子系統。有一個 Always on 子系統是常開的,主要負責音頻方面的處理,應該是用于芯片的喚醒。還有路徑規劃硬件加速器、運動控制硬件加速器等一系列加速器以及由 X86 處理器配合 CNN 加速的應用子系統,用于實現人工智能算法。

 

圖 7 是 Robot SoC[9]所實現的算法,可以看出是由多個獨立任務構成的。這種形式的應用比較容易被劃分為若干個獨立子系統來實現。這也是 MPSoC 主要應用領域里的各種算法的基本特征。

 


圖 7 Robot SoC 所需要實現的算法

 

如果芯片內部的子系統較多,關系復雜,當然也可以依靠 NoC 來互聯。比如剛剛被收購的 sonics 公司就給了這么一個例子[10]。

 


圖 8 Sonics 公司給出的高性能片上網絡在 SoC 中的應用

 

可以看出,在 MPSoC 中有多個獨立的子系統時,使用片上網絡是一種必要的片上通信方式。

 

結語

最后,我們稍作總結:

片上多核系統是現在系統級集成電路的主要實現形式;

片上多核系統分為 CMP 和 MPSoC 兩種架構;

CMP 主要用于通用計算,大多采用數據并行的并行程序開發模式,以共享存儲器的方式來交換數據,通常以對稱的 Tile 形式來組織芯片硬件結構;

MPSoC 主要用于嵌入式設備,大多是由多個相對獨立的子系統構成,一般“按需設計”,結構極不對稱。

 

本次先談到這里,下一篇會談一下不同片上多核系統的互聯需求。也講一下片上多核系統的發展如何引導片上網絡的發展的。