banner
Casa / Blog / Dettagli Google TPUv4 e la sua folle rete AI riconfigurabile otticamente
Blog

Dettagli Google TPUv4 e la sua folle rete AI riconfigurabile otticamente

Aug 17, 2023Aug 17, 2023

All'Hot Chips 2023, Google ha mostrato la sua folle rete AI otticamente riconfigurabile. L'azienda sta effettuando la commutazione del circuito ottico per ottenere prestazioni migliori, minore consumo e maggiore flessibilità per il suo cluster di formazione AI. La parte più sorprendente è che lo hanno in produzione da anni.

Questo è stato fatto dal vivo, quindi scusate gli errori di battitura.

Il grande obiettivo di questo è collegare insieme i chip TPU di Google.

Ecco il Google TPUv4 da 7 nm. Ci aspettiamo che questa settimana inizieremo a sentire di più su TPUv5. Google di solito può realizzare documenti e presentazioni sull'hardware vecchio di una generazione. Il TPU v4i era la versione di inferenza, ma questo è più un discorso focalizzato sul TPUv4.

Google afferma di effettuare un provisioning eccessivo della potenza rispetto alla potenza tipica in modo da poter soddisfare uno SLA con tempo di servizio di 5 ms. Quindi il TDP sui chip è molto più alto, ma questo serve a consentire il bursting per soddisfare i burst SLA.

Ecco il diagramma dell'architettura TPUv4. Google costruisce questi chip TPU non solo per essere un singolo acceleratore, ma per essere scalabili e funzionare come parte di un'infrastruttura su larga scala.

Ecco le statistiche di Google TPUv4 e TPUv3 in una delle tabelle più chiare che abbiamo mai visto al riguardo.

Google ha più che raddoppiato i FLOPS di picco, ma ha ridotto la potenza tra TPUv3 e TPUv4.

Google ha un acceleratore SparseCore integrato nel TPUv4.

Ecco le prestazioni del TPUv4 SparseCore di Google.

La scheda stessa ha quattro chip TPUv4 ed è raffreddata a liquido. Google ha affermato che ha dovuto rielaborare i data center e le operazioni per passare al raffreddamento a liquido, ma ne è valsa la pena il risparmio energetico. La valvola a destra controlla il flusso attraverso i tubi di raffreddamento del liquido. Google dice che è come un regolatore di velocità della ventola, ma per liquidi.

Google afferma inoltre che utilizzerà PCIe Gen3 x16 per l'host poiché si trattava di un progetto del 2020.

Google ha l'alimentazione che entra dalla parte superiore del rack come molti data center, ma ha una serie di interconnessioni. All'interno di un rack, Google può utilizzare DAC elettrici, ma al di fuori di un rack, Google deve utilizzare cavi ottici.

Ogni sistema dispone di 64 rack con 4096 chip interconnessi. In un certo senso, i cluster AI di NVIDIA a 256 nodi hanno la metà delle GPU.

Sempre alla fine dei rack vediamo un rack CDU. Se vuoi saperne di più sul raffreddamento a liquido, puoi vedere il nostro articolo Come funzionano i server con raffreddamento a liquido con Gigabyte e CoolIT. Presto avremo più contenuti sul raffreddamento a liquido. Google afferma che la portata del liquido è superiore a quella dell'acqua nel tubo dei pompieri di un camion dei pompieri con gancio e scala.

Ogni rack è un cubo 4x4x4 (64 nodi) con commutazione di circuito ottico (OCS) tra i TPU. All'interno del rack, le connessioni sono DAC. Le facce del cubo sono tutte ottiche.

Ecco uno sguardo all'OCS. Invece di utilizzare un interruttore elettrico, l'OCS fornisce una connessione diretta tra i chip. Google dispone di array MEMS 2D interni, obiettivi, fotocamere e altro ancora. Evitare tutto il sovraccarico della rete consente la condivisione dei dati in modo più efficiente. Per inciso, questo in qualche modo sembra simile ai televisori DLP.

Google ha affermato di avere oltre 16.000 connessioni e una distanza di fibra sufficiente nel super pod da poter circondare lo stato del Rhode Island.

Poiché la comunicazione punto a punto è così intensa, sono necessari molti filamenti di fibra.

Oltre a ciò ogni piscina può essere collegata a piscine più grandi.

L'OCS, poiché è riconfigurabile, può garantire un maggiore utilizzo dei nodi.

Google può quindi modificare le topologie regolando il routing ottico.

Qui Google mostra i vantaggi di diverse topologie.

Questo è importante poiché Google afferma che i cambiamenti nelle esigenze dei modelli possono portare a cambiamenti del sistema.

Ecco il ridimensionamento di Google su scala logaritmica con accelerazioni lineari su un massimo di 3072 chip.

Google ha inoltre aumentato la memoria su chip a 128 MB per mantenere l'accesso ai dati locale.

Ecco il confronto di Google con NVIDIA A100 in base alle prestazioni per watt.

Ecco l'addestramento del modello PaLM su 6144 TPU in due pod.

Questo è un numero enorme!