Nella progettazione di Pascal, NVIDIA ha cercato di avere uno sguardo verso il futuro assicurandosi però che i propri ingegneri tenessero conto delle tecnologie finora raggiunte. Il nuovo chip GP10x (qui adottato nella versione GP104) presenta qualcosa di nuovo, qualcosa di vecchio e qualcosa in prestito. Chiamare Pascal un’architettura totalmente rinnovata sarebbe un errore, visto che tantissimi elementi sono trasportati in essa da Maxwell. Il risultato finale è un chip GP104 che eccede l’obiettivo iniziale di performance e mantiene al contempo ottime rese nonostante si tratti di un processo produttivo totalmente nuovo. In molti modi, ciò crea un esempio dell’approccio al design delle GPU orientate al gaming: usare i chip più grandi sulle schede professionali Tesla come campo di prova per il percorso evolutivo delle GeForce.
Così come Maxwell, il GP104 è composto da singoli Streaming Multiprocessors (SM), ognuno contenente 128 CUDA cores, due blocchi da 8 texture units, 256 KB di registri file, un’unità di memoria condivisa da 96 KB e una cache L1 da 48 KB. Sulla carta, nessuno di questi valori differisce da Maxwell, ma molte ottimizzazioni incluse in queste unità hanno permessi un incremento dell’efficienza e una migliore esecuzione di workload in parallelo.
Un altro cambiamento interessante è che il PolyMorph Engine, che contiene svariati stage geometrici come le Tessellation Unit e i Vertex Fetch, è stato migliorato con l’inclusione di un’unità Simultaneous Multi Projection adattabile. Esso è responsabile di generare proiezioni multiple di un singolo flusso geometrico, mentre viene elaborato dall’SMP engine proveniente da stadi di shader superiori. Ne parleremo più nel dettaglio nelle prossime pagine, ma per ora limitiamoci a dire che quest’aggiunta riesce a portare Pascal nella prossima generazione di standard per display e contribuisce enormemente a creare un gap di performance rispetto a Maxwell.
Questi Streaming Multiprocessors sono poi abbinati e combinati col suddetto PolyMorph Engine a formare un Texture Processing Cluster. All’interno di questa architettura ognuno di questi TPC con 256 core e 16 Texture Units è considerata un’unità indipendente di calcolo e può essere richiamata a processare workload che spaziano dal calcolo alla grafica. Visto che ci sono 20 di questi SM in un GP104 (contro i 16 del GM104 della GTX 980) l’architettura Pascal ha un enorme ammontare di granularità nell’indirizzamento dei processi così una sezione del chip può gestire diversi workloads senza impattare negativamente le performance in gioco. Ciò è particolarmente importante in ambito di Async Comput, calcolo della fisica e altri workload che nativamente sono paralleli.
Anche a voler cercare nei dettagli nel design del core, non ci sono stati cambiamenti sostanziali ai blocchi operativi quando si paragona Pascal a Maxwell. Laddove il GP100 essenzialmente condivide le gerarchie degli SM di Maxwell nel tentativo di includere più stadi di calcolo come memoria condivisa, unità aggiuntive di load/store, HBM2, NVLink e registri file dalle dimensioni aumentate, il GP104 è essenzialmente un chip GM110 ridotto ad un processo produttivo da 16 nm. Certo, non è che NVIDIA ha semplicemente preso Maxwell, aumentato i clock e dichiarato la partita vinta. Al contrario, ci sono tantissimi miglioramenti integrati nel design collaudato che ritroviamo qui, impattando sostanzialmente le performance in qualsiasi campo, dalle DX12 alla Virtual Reality.
Nonostante tutte le similitudini, vediamo alcuni elementi cambiare rispetto a GM104. Invece di 4 streaming multiprocessor per ogni compute cluster, ora ce ne sono 4, aumentando quindi la conta dei CUDA core di 512 e delle TMU di 32. Inoltre, visto che tutti gli stadi di calcolo di Pascal operano a frequenze superiori a Maxwell, riescono a elaborare più informazioni.
Questo ci porta al secondo stadio di calcolo composto da cache L2 e ROP. Nonostante l’aumento di unità che accedono a questa sezione del 25%, nessuna di esse ha ricevuto un aumento parallelo nelle capacità. Esse sono probabilmente ottimizzazioni minori che avrebbero aiutato a rimuovere colli di bottiglia nella cache o nei ROP, ma probabilmente grazie alle frequenze maggiori probabilmente essi sono assenti del tutto.
Anche se NVIDIA ha effettivamente aggiungo parecchi elementi al core GP104, il processo a 16nm FinFET ha permesso loro di ottimizzare le dimensioni del die mantenendo però il TDP relativamente identico. Laddove il GM104 aveva 5.2 miliardi di transistors su una superficie di 398mm², il GP104 adesso conta 7.2 miliardi di transistors in soli 314mm².
Naturalmente, con tanto parlare delle HBM, molti si aspettavano che NVIDIA le utilizzasse come standard per le proprie GPU Pascal. Il problema con tale approccio è che le HBM1 sono ancora limitate in quantità, i moduli sono complicati da implementare, la capacità è limitata e i vantaggi nei confronti degli altri standard sono rarefatti a voler essere positivi. Le HBM2 non sono ancora disponibili e non lo saranno probabilmente fino al 2017. Con le GDDR5 che hanno raggiunto le frequenze massime di bandwidth, NVIDIA ha scelto di percorrere la strada meno battuta: hanno scelto le nuove GDDR5X di Micron per le GTX1080.
Con la possibilità di raggiungere 10 Gbps (e oltre) senza consumare più corrente dei moduli GDDR5 da 7 Gbps, le GDDR5X sono la soluzione perfetta tra le tradizionali GDDR5 e gli standard di prossima generazione. Inoltre, visto che è vagamente basata su una tecnologia già esistente, Micron ha rapidamente riempito gli inventari preparandosi al preannunciato successo della GTX1080.
Il layout del memory controller in Pascal, inoltre, ha visto una fondamentale modifica: mentre il GM204 è dotato di un partizionamento di tipo 4×64 Bit, il GP104 utilizza un design 8×32 Bit, permettendo un miglior bilanciamento degli algoritmi e assicurando ad NVIDIA maggiore scalabilità per adattare il chip ad altre fasce di prezzo.
Le similitudini tra G5 e G5X abbondano ma far sì che GPU e memorie collaborassero non è stata una passeggiata. Le alte frequenze dei moduli hanno necessitato una nuova architettura tra i moduli e GPU, utilizzando metodi di fabbricazione più raffinati. Tali progressi provvedono benefici anche per le GDDR5 “standard”, il che è ottimo considerando che al momento solo Titan X “P” e GTX 1080 adottano le nuove memorie.
Discussione su post