IA generativa e il futuro dei data center: parte VI

Jul 18, 2023

Il CEO di DE-CIX su come i data center devono adattarsi

Nel numero 48 di DCD>Magazine abbiamo pubblicato un articolo di approfondimento sull'intelligenza artificiale generativa e il suo impatto sull'infrastruttura digitale. Se hai trovato la strada direttamente qui, potresti iniziare dall'inizio: AI generativa: pubblicità, opportunità e futuro dei data center // Parte I - I modelli

Proprio mentre il silicio viene spinto ai suoi limiti per gestire enormi modelli di intelligenza artificiale, il networking e l’architettura dei data center si trovano ad affrontare sfide.

"Con questi sistemi di grandi dimensioni, qualunque cosa accada, non è possibile inserirli in un singolo chip, anche se si è Cerebras", ha affermato Dylan Patel di SemiAnalysis. “Bene, come collego insieme tutti questi chip divisi? Se sono 100 è gestibile, ma se sono migliaia o decine di migliaia, allora inizi ad avere reali difficoltà e Nvidia sta implementando proprio questo. Probabilmente sono loro o Broadcom ad avere la migliore rete al mondo.

Ma anche le aziende cloud sono sempre più coinvolte. Hanno le risorse per costruire le proprie apparecchiature di rete e topologie per supportare la crescita dei cluster di elaborazione.

Amazon Web Services ha distribuito cluster fino a 20.000 GPU, con le schede di rete Nitro appositamente realizzate da AWS. "E implementeremo più cluster", ha affermato Chetan Kapoor dell'azienda. “Questa è una delle cose che credo differenzia AWS in questo particolare spazio. Sfruttiamo la nostra tecnologia Nitro per avere i nostri adattatori di rete, che chiamiamo Elastic Fabric Adapters."

L’azienda è in procinto di lanciare la sua seconda generazione di EFA. "E stiamo anche aumentando la larghezza di banda per nodo, circa 8 volte tra A100 e H100", ha affermato. "Arriveremo a 3.200 Gbps, per nodo."

In Google, un ambizioso sforzo pluriennale per rinnovare le reti della sua enorme flotta di data center sta iniziando a dare i suoi frutti.

L'azienda ha iniziato a implementare la tecnologia di commutazione ottica personalizzata Mission Apollo su una scala mai vista prima in un data center.

Le reti tradizionali dei data center utilizzano una configurazione spine e foglie, in cui i computer sono collegati a switch (foglie) nella parte superiore del rack, che vengono poi collegati alla spina, costituita da interruttori di pacchetto elettronici. Il progetto Apollo sostituisce la spina dorsale con interconnessioni interamente ottiche che reindirizzano i raggi di luce con specchi.

"Le esigenze di larghezza di banda per la formazione, e su una certa scala per l'inferenza, sono semplicemente enormi", ha affermato Amin Vahdat di Google.

La nostra più grande funzionalità di sempre guarda alla prossima ondata di elaborazione

Apollo ha consentito all’azienda di costruire “topologie di rete che si adattano meglio ai modelli di comunicazione di questi algoritmi di addestramento”, ha affermato. "Abbiamo creato reti specializzate e dedicate per distribuire i parametri tra i chip, dove enormi quantità di larghezza di banda si verificano in modo sincrono e in tempo reale."

Ciò ha molteplici vantaggi, ha detto. Su questa scala, singoli chip o rack si guastano regolarmente e "un interruttore del circuito ottico è abbastanza comodo per riconfigurarsi in risposta, perché ora i miei schemi di comunicazione corrispondono alla topologia logica della mia rete", ha affermato.

"Posso dire al mio interruttore del circuito ottico: 'vai a prendere altri chip da qualche altra parte, riconfigura l'interruttore del circuito ottico per collegare quei chip nel foro mancante e poi vai avanti.' Non è necessario riavviare l'intero calcolo o, nel peggiore dei casi, ricominciare da capo."

Apollo aiuta anche a distribuire la capacità in modo flessibile. Il TPUv4 dell'azienda è scalabile fino a blocchi di 4.096 chip. "Se ne pianifico 256 qui, 64 là, 128 qui, altri 512 là, all'improvviso creerò dei buchi, dove ho a disposizione un mucchio di 64 blocchi di chip."

In un'architettura di rete tradizionale, se un cliente volesse 512 di questi chip non sarebbe in grado di utilizzarli. "Se non avessi un interruttore del circuito ottico, sarei affondato, dovrei aspettare che alcuni lavori finiscano", ha detto Vahdat. "Stanno già occupando parti della mia mesh e non ho 512 contigui anche se potrei avere 1.024 chip disponibili."

Precedente: Studi teorici del magnete Prossimo: Le dimensioni del mercato della fotonica cresceranno di 287,13 miliardi di dollari dal 2022 al 2027

Invia richiesta

Inviare