ETA Zürich ist bekannt für seine vielfältigen RISC-V-Designs, aber der Manticore zeichnet sich aus: Der nach dem persischen Fabelwesen benannte Prozessor verfügt über 4.096 Kerne und ist für Gleitkommaberechnungen mit besonders hoher Effizienz ausgelegt. Die Forscher präsentierten den Manticore auf der jährlichen Hot Chips-Technologiekonferenz und zeigten die ersten Leistungswerte basierend auf einem Prototyp.
Stellenmarkt
Manticore wird später aus vier miteinander verbundenen Chips bestehen, von denen jeder Zugriff auf seinen eigenen 8-GB-HBM2-Stack hat. Für die Herstellung der Briefmarken will ETA Zürich das 22FDX-Verfahren von Globalfoundries verwenden, die geplante Oberfläche pro Chip beträgt kleine 222 mm². Intern besteht jeder Chip aus einer HBM2- und einer PCIe Gen3 x16-Schnittstelle, vier Ariane RV64G-Kernen für ein Linux-Betriebssystem, einem vollständigen 27 MB L2-Cache und vier Quadranten.
Diese Quadranten enthalten die tatsächliche Rechenleistung, da jeder aus 32 Clustern mit jeweils 8 Kernen besteht. ETA Zürich verwendet die selbst entworfenen Schnatzkerne (PDF): Dies sind kleine RV32G-Kerne mit wenig Steuerlogik und einer zusätzlichen Gleitkommaeinheit, mit denen das Stream Semantic Register (SSR) und ein Floating Point Repetition Instruction (FREP) die Effizienz steigern können. Jeder Schnatzkern erzeugt 32 FP- und 16 DP-Flops pro Zyklus. FP8, Bfloat und F16 werden ebenfalls unterstützt. Insgesamt sollte der Manticore mehr als 27 Teraflops mit doppelter Präzision (FP64) produzieren.
Präsentation des Manticore-Designs (Bild: ETH Zürich)
Für die ersten Tests ließ ETA Zürich einen 9 mm² großen Manticore-Prototyp mit 22FDX-Produktion bauen. Es enthält 24 Snitch-Kerne und zwei Ariane-Kerne sowie einen 1,25 MByte L2-Cache. Das reicht für gute 54 Gflops mit FP64 bei über 1 GHz und 188 Gflops pro Watt bei etwa 500 MHz.
So verwaltet sich der Manticore in Bezug auf Effizienz Nvidias Tesla A100 leicht zu ziehen. Es ist zu beachten, dass der Manticore ein 22FDX-Design ist und Nvidia den GA100-Chip des Tesla A100 mit dem N7 von TSMC herstellte. In FP32-Berechnungen für tiefes neuronales Netzwerktraining wie Alexnet, Googlenet oder Resnet zieht der Manticore mit dem Älteren Tesla V100 Gleich.
Der nächste Schritt ist eine Leiterplatte mit vier Prototyp-Chipsätzen. Das Design soll unter Verwendung eines modernen und teureren Finfet-Herstellungsverfahrens hergestellt werden. ETA Zürich möchte auch Partner suchen, die bei der Integration einer physischen Schnittstelle für DDR- oder HBM-Speicher helfen können. In der Frage-und-Antwort-Sitzung stellten die Forscher jedoch fest, dass es für die Universität schwierig war, auf SoC-Komponenten wie Interconnects zuzugreifen.
Umfangreiche Informationen zum offene Befehlssatzarchitektur RISC-V Wir haben in einem separaten Artikel zusammengefasst.