Le GPU Hopper sono la più recente generazione di GPU ad alte prestazioni di NVIDIA, sviluppate appositamente per l’IA e l’HPC, e offrono scalabilità per una vasta gamma di carichi di lavoro. Basate su un’architettura innovativa con potenti core tensoriali, riuniscono diverse tecnologie avanzate per ottenere la massima efficienza. Le GPU Hopper di NVIDIA sono indicate, tra le altre cose, per l’inferenza IA, per l’addestramento nel deep learning e per l’IA generativa.

L’architettura delle GPU Hopper di NVIDIA

Il termine “GPU Hopper” deriva dall’architettura Hopper che, in quanto microarchitettura GPU, costituisce la base dei processori grafici ad alte prestazioni ed è ottimizzata per i carichi di lavoro di IA e per le applicazioni di HPC. Le GPU Hopper sono prodotte da TSMC con il processo a 4 nanometri e contengono 80 miliardi di transistor, il che le rende tra le schede grafiche più avanzate disponibili sul mercato.

Con l’architettura Hopper, NVIDIA combina la più recente generazione di core tensoriali con cinque innovazioni rivoluzionarie: motore trasformatore, sistemi NVLink/NVSwitch/NVLink-Switch, confidential computing, GPU multi-istanza (MIG) di seconda generazione e istruzioni DPX. Grazie a queste tecnologie, le GPU Hopper offrono un’accelerazione fino a 30 volte superiore nell’inferenza IA rispetto alla generazione precedente (basata sul chatbot Megatron 530B di NVIDIA, il modello linguistico generativo più completo al mondo).

Le innovative funzioni delle GPU Hopper

Le GPU Hopper presentano diverse nuove funzionalità che contribuiscono a migliorare le prestazioni, l’efficienza e la scalabilità. Di seguito elenchiamo le principali novità:

  • Motore trasformatore: utilizzando il cosiddetto “transformer engine”, le GPU Hopper sono in grado di addestrare i modelli di IA fino a nove volte più velocemente. Per le operazioni di inferenza nell’ambito dei modelli linguistici, le GPU ottengono un’accelerazione fino a 30 volte superiore rispetto alla generazione precedente.
  • Sistema NVLink-Switch: la quarta generazione di NVLink fornisce una larghezza di banda bidirezionale per la GPU pari a 900 GB/s, mentre NVSwitch garantisce una migliore scalabilità per i cluster H200. In questo modo è possibile elaborare modelli di IA con migliaia di miliardi di parametri in modo efficiente.
  • Confidential computing: l’architettura Hopper garantisce la protezione dei dati, dei modelli di IA e degli algoritmi anche durante l’elaborazione.
  • GPU multi-istanza (MIG) 2.0: la seconda generazione della tecnologia MIG permette di suddividere una singola GPU Hopper in un massimo di sette istanze isolate. In questo modo, più persone hanno la possibilità di elaborare carichi di lavoro diversi contemporaneamente, senza che ciò influisca negativamente sulle altre operazioni.
  • Istruzioni DPX: le istruzioni DPX consentono di calcolare algoritmi programmati dinamicamente fino a sette volte più velocemente rispetto alle GPU con architettura Ampere.
N.B.

Nella guida “GPU per server a confronto” trovi una presentazione dei migliori processori grafici per il tuo server. La Digital Guide contiene inoltre tutto ciò che devi sapere sui server GPU.

Le applicazioni più adatte alle GPU Hopper

Le GPU NVIDIA basate sull’architettura Hopper sono progettate per eseguire i più svariati carichi di lavoro ad alte prestazioni. I principali campi di applicazione delle GPU Hopper sono:

  • Attività di inferenza: i processori grafici sono tra le soluzioni leader del settore per l’utilizzo produttivo dell’inferenza di IA. I sistemi di raccomandazione per l’e-commerce, la diagnostica medica o le previsioni in tempo reale per la guida autonoma sono tutte applicazioni in cui le GPU Hopper possono elaborare enormi quantità di dati in modo rapido ed efficiente.
  • IA generativa: le GPU di fascia alta forniscono la potenza di calcolo necessaria per addestrare ed eseguire gli strumenti dotati di IA generativa. L’elaborazione parallela aumenta l’efficienza dei calcoli in attività creative come la generazione di testi, immagini e video.
  • Addestramento per il deep learning: grazie alla loro elevata potenza di calcolo, le GPU Hopper sono l’ideale per addestrare reti neurali di grande estensione. L’architettura Hopper riduce sensibilmente i tempi di addestramento dei modelli di IA.
  • IA conversazionale: grazie all’ottimizzazione per l’elaborazione del linguaggio naturale (NLP, Natural Language Processing), le GPU Hopper si adattano bene ai sistemi vocali basati sull’IA, come gli assistenti virtuali e i chatbot IA. Essi consentono di accelerare l’elaborazione di grandi modelli di IA e garantiscono un’interazione reattiva che può essere integrata facilmente nei processi aziendali, ad esempio nell’assistenza.
  • Analisi dei dati e Big Data: le GPU Hopper gestiscono enormi quantità di dati ad alta velocità e velocizzano calcoli complessi grazie alla potenza di elaborazione parallela. Le aziende hanno quindi la possibilità di analizzare più rapidamente i Big Data e ricavarne previsioni per intervenire in modo corretto.
  • Scienza e ricerca: le GPU sono progettate per applicazioni di HPC e sono quindi particolarmente utili per eseguire simulazioni e calcoli ad alta complessità. Le GPU Hopper sono utilizzate, ad esempio, in astrofisica, nella modellistica climatica e nella chimica computazionale.

Gli attuali modelli di NVIDIA

L’azienda statunitense ha già lanciato due GPU Hopper: NVIDIA H100 e NVIDIA H200. NVIDIA A30 si basa invece ancora sull’architettura Ampere. In senso stretto, la H200 non è propriamente un modello a sé stante, ma un’ulteriore evoluzione della H100. La seguente panoramica mostra le differenze tra le due GPU:

  • Memoria e larghezza di banda: mentre NVIDIA H100 è dotata di 80 GB di memoria HBM3, la GPU H200 dispone di memoria HBM3e con una capacità di 141 GB. Inoltre, la H200 è notevolmente in vantaggio anche dal punto di vista della larghezza di banda della memoria, con 4,8 TB/s contro i 2 TB/s della H100.
  • Prestazioni di inferenza IA: nel confronto, NVIDIA H200 offre prestazioni di inferenza doppie rispetto a modelli come LLaMA 2-70 B. Tali prestazioni consentono non soltanto un’elaborazione più rapida, ma si traducono anche in un ridimensionamento efficiente.
  • Applicazioni di HPC e calcoli scientifici: la H100 offre già un livello di prestazioni di prima classe per i calcoli complessi, che la H200 riesce addirittura a surclassare. La velocità di inferenza è fino a due volte superiore e le prestazioni di HPC sono circa il 20 percento più elevate.
Hai trovato questo articolo utile?
Vai al menu principale