Panoramica dell’architettura Blackwell
L’architettura Blackwell, cuore della nuova generazione di GPU NVIDIA della serie RTX 50, rappresenta un’evoluzione tecnica della precedente Ada Lovelace. Il focus di questa iterazione è posto sull’efficienza e sull’elaborazione accelerata dei carichi AI e neurali, grazie a una serie di ottimizzazioni architetturali mirate.
Il processore grafico GB202, realizzato con nodo litografico TSMC a 5 nm nella variante 4NP, deriva direttamente dalla tecnologia adottata nelle architetture Ada Lovelace e Hopper, presentando affinamenti specifici per scenari computazionali moderni.
La RTX 5090
La RTX 5090 si configura come il modello di punta dell’architettura Blackwell, pur basandosi su una versione parzialmente ridotta del GB202. Nonostante ciò, le sue prestazioni la collocano nettamente al vertice del segmento consumer, stabilendo un nuovo riferimento in termini di potenza elaborativa per NVIDIA.
Il die da 744 mm² integra 92,2 miliardi di transistor, rappresentando un sostanziale incremento rispetto alle generazioni precedenti. Blackwell è progettata per ottimizzare i carichi neurali, ridurre l’utilizzo di memoria video (VRAM) e incrementare l’efficienza energetica globale.
Tra le innovazioni principali troviamo gli RT Core di quarta generazione e i Tensor Core di quinta generazione, con supporto congiunto per FP32 e INT32. Questa convergenza semplifica e accelera la gestione dei carichi AI complessi. A complemento, il GigaThread Engine regola dinamicamente l’allocazione delle risorse per il rendering, mentre l’AI Management Processor (AMP) supervisiona i workload AI, garantendo un’elevata efficienza operativa.
Sul fronte multimediale, il motore di codifica e decodifica video (NVENC/NVDEC) raggiunge la nona generazione, introducendo il supporto a codec moderni come AV1 e HEVC (x265), con qualità visiva migliorata grazie al passaggio da Chroma Subsampling 4:2:0 a 4:2:2.
Struttura del chip e architettura dei GPC
Il chip GB202 si distingue per una configurazione interna altamente modulare, che consente di scalare le prestazioni mantenendo un elevato livello di parallelismo. A livello architetturale, il motore raster è suddiviso in 11 Graphics Processing Cluster (GPC), di cui 3 parzialmente disabilitati nella configurazione della RTX 5090.
Ogni GPC completo è composto da 16 Streaming Multiprocessors (SM), organizzati in 8 Texture Processing Cluster (TPC) e integrati con un Raster Engine dotato di 16 ROP (Render Output Units).
Questa struttura a blocchi permette una distribuzione efficiente del carico di rendering, facilitando al contempo l’implementazione di politiche di power gating e clock gating per migliorare l’efficienza energetica.
Neural rendering
Uno dei cambiamenti più rilevanti introdotti con l’architettura Blackwell è il nuovo paradigma computazionale adottato all’interno degli Streaming Multiprocessor (SM). Vengono introdotti i neural shaders, una tipologia di shader che sfrutta l’intelligenza artificiale per eseguire elaborazioni grafiche complesse in modo simile agli shader tradizionali.
Questa innovazione è supportata dalle nuove API Cooperative Vectors di Microsoft, progettate per ottimizzare i flussi di lavoro attraverso i Tensor Core, rendendo i carichi AI più efficienti nel contesto del rendering in tempo reale.
Tensor Cores
I Tensor Core di quinta generazione rappresentano un’evoluzione significativa in termini di throughput e versatilità. Tra le novità principali figura il supporto per il formato FP4 (floating point a 4 bit), pensato per applicazioni ad altissima velocità che tollerano una precisione ridotta. Questo consente un incremento fino a 32x delle prestazioni rispetto ai Tensor Core originari introdotti con l’architettura Volta.
Con il progredire dei modelli di intelligenza artificiale, l’industria ha adottato formati a bassa precisione e tecniche di sparsità per ottimizzare le prestazioni. In tale contesto, il nuovo AI Management Processor (AMP) svolge un ruolo fondamentale: permette di gestire simultaneamente carichi AI e grafici senza compromissioni prestazionali, ad esempio abilitando la generazione di grafica in tempo reale mentre un LLM è in esecuzione sulla stessa GPU.
AMP funge da orchestratore hardware specializzato per tutte le unità di accelerazione AI integrate nel chip, risultando cruciale per abilitare funzionalità come la generazione multi-frame della tecnologia DLSS 4.
RT Cores
I Ray Tracing Core di quarta generazione introducono miglioramenti prestazionali sostanziali nelle operazioni di ray tracing e path tracing. Oltre a ridurre il costo computazionale dell’attivazione degli effetti ray traced, questi core supportano la nuova tecnologia Mega Geometry, pensata per gestire geometrie estremamente complesse con una densità poligonale molto elevata.
Per affrontare il costo computazionale crescente con l’aumentare dei poligoni, i nuovi RT Core introducono il Triangle Cluster Intersection Engine, un modulo dedicato a gestire la geometria complessa trattando gruppi di triangoli come primitive di primo livello. Questo approccio si affida a strutture di accelerazione a livello di cluster e introduce un sistema di compressione/decompressione lossless per i dati geometrici, ottimizzando ulteriormente le performance in ambienti con geometrie complesse.
Power-1 e Power-2
L’aumento di densità e superficie del chip GB202 ha reso necessaria l’implementazione di un sistema di gestione energetica avanzato, articolato su due livelli: Power-1 e Power-2.
Questi sistemi gestiscono dinamicamente frequenza e tensione per ogni singolo GPC, tramite meccanismi di power gating e clock gating. L’obiettivo è minimizzare il consumo energetico complessivo senza compromettere le prestazioni, mantenendo al contempo un controllo termico più efficiente.
GDDR7
L’introduzione delle nuove memorie GDDR7 segna un ulteriore passo avanti in termini di efficienza e banda passante. Le GDDR7 offrono il doppio della velocità rispetto alle GDDR6, a fronte di un consumo energetico per bit dimezzato, grazie all’adozione del nuovo schema di modulazione PAM3 (Pulse Amplitude Modulation a 3 livelli).
A differenza della PAM4, che trasporta 4 bit per ciclo ma con maggior rumore e consumo, la PAM3 consente una maggiore integrità del segnale e una riduzione dell’assorbimento energetico, mantenendo elevate frequenze operative. Nella RTX 5090, ad esempio, le GDDR7 raggiungono 1750 MHz (28 Gbps).
Media Engine
Il nuovo Display Engine introduce finalmente il supporto allo standard DisplayPort 2.1 con UHBR20, permettendo la trasmissione video fino a 4K a 240 Hz o 8K a 60 Hz, il tutto senza compressione DSC e utilizzando un singolo cavo.
Discussione su post