In occasione della ISC High Performance Conference, Intel ha messo in mostra la propria leadership nelle tecnologie a supporto dei carichi di lavoro di supercomputer (HPC) e intelligenza artificiale (AI); ha annunciato il proprio portfolio di futuri prodotti HPC ed AI, unificati dal modello di programmazione aperta oneAPI, e ha annunciato un ambizioso impegno internazionale per utilizzare il supercomputer Aurora nello sviluppo di modelli di intelligenza artificiale generativa in ambito scientifico e a favore della società.
“Intel si impegna a sostenere la comunità HPC e IA con prodotti che possono aiutare gli utenti a fare scoperte rivoluzionarie in tempi più rapidi”, ha dichiarato Jeff McVeigh, Corporate Vice President e General Manager del Super Compute Group di Intel. “Il nostro portfolio di prodotti che comprende Intel Xeon CPU Max Series, Intel® Data Center GPU Max Series, processori scalabili Intel Xeon di quarta generazione e Habana Gaudi sta superando la concorrenza su numerosi carichi di lavoro, offrendo vantaggi in termini di consumi energetici e costi di esercizio, rendendo l’AI più accessibile e offrendo maggiore scelta, apertura e flessibilità”.
Prestazioni e scalabilità
Nella presentazione di Intel, McVeigh ha mostrato i più recenti risultati in termini di prestazioni di tutta la gamma di hardware e ha parlato dei progressi dei clienti.
- La GPU Intel® Data Center serie Max supera le prestazioni della scheda PCIe Nvidia H100 del 30% in media su carichi di lavoro diversificati1, mentre il fornitore di software indipendente Ansys mostra un aumento della velocità del 50% per la GPU serie Max rispetto a H100 su applicazioni HPC con accelerazione AI.
- La CPU Xeon Max Series, l’unico processore x86 con memoria a grande ampiezza di banda, mostra un miglioramento del 65% rispetto al processore Genoa di AMD nel benchmark HPCG (High Performance Conjugate Gradients), consumando meno energia. L’elevata ampiezza di banda della memoria è stata indicata come una delle funzionalità più desiderate dai clienti HPC.
- I processori Intel Xeon Scalable di quarta generazione, i più utilizzati nell’HPC, presentano una velocità superiore del 50% in media rispetto a Milan4 di AMD; il nuovo cluster HPC Xeon di quarta generazione dell’azienda energetica BP fornisce prestazioni otto volte superiori rispetto ai processori della generazione precedente con una maggiore efficienza energetica.
- L’acceleratore di deep learning Gaudi2 offre prestazioni concorrenziali su addestramento e inferenza del deep learning, con velocità fino a 2,4 volte superiori rispetto a Nvidia A100.
Alcuni clienti hanno annunciato nuove installazioni basate sui processor Intel Xeon di quarta generazione e Max Series:
- L’Università di Kyoto sta installando i processori Xeon di quarta generazione per i supercomputer Laurel 3 e Cinnamon 3, e i processori Xeon Max Series per Camphor 3.
- Cineca ha installato i processori Intel Xeon di quarta generazione nel supercomputer Leonardo.
- Il Laboratory for Laser Energetics dell’Università di Rochester sta installando un cluster con i processori Xeon di quarta generazione.
- Il Servicio Meteorológico Nacional de Argentina installerà un Sistema basasto su CPUe GPU Max Series.
Inoltre, l’Open Zettascale Lab dell’Università di Cambridge ha implementato il primo banco di prova per le GPU Max nel Regno Unito e sta raccogliendo i primi risultati positivi sulla dinamica molecolare e sulle applicazioni di imaging biologico. RIKEN ha annunciato un memorandum d’intesa (MoU) con Intel volto ad accelerare la ricerca e lo sviluppo congiunti nel campo delle tecnologie informatiche avanzate quali AI, HPC e calcolo quantistico. Come parte del protocollo d’intesa, RIKEN collaborerà anche con Intel Foundry Services per creare prototipi di queste nuove soluzioni.
Processori competitivi per ogni carico di lavoro
I carichi di lavoro dinamici di HPC ed AI richiedono un portfolio completo di soluzioni hardware e software. McVeigh ha fornito una panoramica dell’offerta di Intel in ambito data center, con numerose possibilità di scelta e soluzioni per la comunità HPC, contribuendo a rendere più accessibile l’AI.
Nella sua presentazione, McVeigh ha presentato le CPU Intel di nuova generazione per soddisfare l’elevata richiesta di ampiezza di banda della memoria. Intel ha guidato l’ecosistema nello sviluppo di un nuovo tipo di DIMM, Multiplexer Combined Ranks (MCR), per Granite Rapids. MCR raggiunge velocità di 8.800 megatransfer al secondo basati su DDR5 e una capacità di ampiezza di banda di memoria superiore a 1,5 terabyte/secondo (TB/s) in un sistema a due socket. Questo aumento dell’ampiezza di banda della memoria è fondamentale per alimentare il sempre crescente numero di core delle CPU moderne e consentire efficienza e flessibilità.
Intel ha anche presentato un nuovo sottosistema di Supermicro basato su GPU della serie x8 Max ottimizzato per l’intelligenza artificiale, progettato per accelerare la formazione sul deep learning. Oltre all’accesso tramite Intel® Developer Cloud beta5 entro la fine dell’anno, diversi OEM offriranno soluzioni con sottosistemi OAM x4 e x8 GPU Max Series e schede PCIe, che saranno disponibili questa estate.
La GPU Intel Max Series di nuova generazione, Falcon Shores, offrirà ai clienti la flessibilità di implementare combinazioni di CPU a livello di sistema e GPU discrete per i nuovi e futuri carichi di lavoro. Falcon Shores si basa su un’architettura modulare a tile e:
- Supporta tipi di dati per HPC ed AI, da FP64 a BF16 e FP8.
- Abilita fino a 288GB di memoria HBM3 con un massimo di 9.8TB/s di ampiezza di banda totale e I/O ad alta velocità notevolmente migliorato.
- Suppota il modello di programmazione CXL.
- Presenta un’interfaccia di programmazione della GPU unificata attraverso oneAPI.
Generative AI per la scienza
Argonne National Laboratory, in collaborazione con Intel e HPE, ha annunciato l’intenzione di creare una serie di modelli di AI generativa per il mondo della ricerca scientifica.
“Il progetto mira a sfruttare tutto il potenziale del supercomputer Aurora per produrre una risorsa che possa essere utilizzata per la scienza presso i laboratori del Dipartimento dell’Energia e in collaborazione con altri”, ha affermato Rick Stevens, direttore associato del laboratorio Argonne.
Questi modelli di AI generativa per la scienza saranno addestrati su testi generali, codice, testi scientifici e dati scientifici strutturati di biologia, chimica, scienza dei materiali, fisica, medicina e altre fonti.
I modelli risultanti (con fino a 1.000 miliardi di parametri) saranno utilizzati in numerose applicazioni scientifiche, dalla progettazione di molecole e materiali alla sintesi della conoscenza attraverso milioni di fonti per suggerire nuovi e interessanti esperimenti di biologia dei sistemi, chimica dei polimeri e materiali energetici, scienza del clima e cosmologia. Il modello sarà utilizzato anche per accelerare l’identificazione di processi biologici correlati al cancro e ad altre malattie, e per suggerire obiettivi per la progettazione di farmaci.
Argonne è alla testa di una collaborazione internazionale per portare avanti il progetto che vede coinvolti Intel, HPE, Laboratori del Dipartimento di Energia, Università statunitensi e internazionali, organizzazioni non profit e partner internazionali quali RIKEN.
Inoltre, Intel e l’Argonne National Laboratory hanno illustrato i progressi dell’installazione, le specifiche di sistema e i primi risultati prestazionali per Aurora:
- Intel ha completato la consegna fisica di oltre 10.000 blade per il supercomputer Aurora.
- Il sistema completo di Aurora, realizzato utilizzando i supercomputer HPE Cray EX, avrà 63.744 GPU e 21.248 CPU e 1.024 nodi di storage DAOS. E utilizzerà la rete Ethernet ad alte prestazioni HPE Slingshot.
- I primi risultati mostrano prestazioni eccezionali su carichi di lavoro scientifici e ingegneristici reali, con prestazioni fino a 2 volte superiori rispetto alle GPU AMD MI250, miglioramento del 20% rispetto a H100 sull’applicazione di meccanica quantistica QMPACK e scalabilità quasi lineare fino a centinaia di nodi2.
Aurora dovrebbe offrire più di 2 exaflops di prestazioni di picco nel calcolo a doppia precision quando sarà lanciato quest’anno.
Calcolo accelerato produttivo e aperto grazie a oneAPI
A livello globale, circa il 90% di tutti gli sviluppatori beneficia o utilizza software sviluppato o ottimizzato da Intel. Da quando è stato lanciato il modello di programmazione oneAPI nel 2020, gli sviluppatori hanno utilizzato oneAPI su diverse CPU, GPU, FPGA e silicio AI di molteplici fornitori hardware, affrontando le sfide poste dai modelli di programmazione accelerata single-vendor. Gli ultimi strumenti Intel oneAPI offrono accelerazioni per le applicazioni HPC con l’offload della GPU OpenMP, estendono il supporto per OpenMP e Fortran e accelerano l’intelligenza artificiale e il deep learning attraverso framework ottimizzati, tra cui TensorFlow e PyTorch, e strumenti di intelligenza artificiale, consentendo miglioramenti delle prestazioni di diversi ordini di grandezza.
oneAPI semplifica la programmazione multiarchitettura per i programmatori tramite l’implementazione SYCL di oneAPI, plug-in oneAPI per processori Nvidia e AMD sviluppati da Codeplay e lo strumento di compatibilità Intel DPC++ (basato su SYCLomatic open source) che migra il codice da CUDA a SYCL e C++ dove 90- Il 95% del codice in genere viene migrato automaticamente. Il codice SYCL risultante mostra prestazioni comparabili con lo stesso codice in esecuzione su linguaggi di sistema nativi di Nvidia e AMD. I dati mostrano che il codice SYCL per l’applicazione di astrofisica DPEcho in esecuzione sulla GPU Max Series supera del 48% lo stesso codice CUDA su Nvidia H100.
Discussione su post