banner
Centro notizie
Non troverai questo livello di qualità ad un prezzo migliore.

Grafici Google Keynote Driver ML su Hot Chips 23

Sep 21, 2023

Di John Russel

31 agosto 2023

Gli scienziati di Google Jeff Dean e Amin Vahdat hanno tenuto un affascinante tour delle principali tendenze di progettazione di hardware e software ML nel loro keynote di apertura congiunto di Hot Chips 23 questa settimana. I due hanno affrontato, tra gli altri argomenti, l’aumento della scarsità rispetto alla densità, gli sforzi per le comunicazioni adattive, lo sviluppo di migliori parametri di consumo energetico e prestazioni del sistema e la progettazione accelerata di chip basata sull’intelligenza artificiale.

Dean e Vahdat hanno lasciato poche pietre di intentato, anche se non è stata rivelata alcuna notizia di Google gelosamente custodita. Alcuni di questi ultimi sembrano emergere all’evento Google Cloud Next 23, che inizia oggi a San Francisco. Tuttavia, le ampie pennellate di Dean e Vahdat hanno sottolineato la necessità di accelerare i progressi poiché la domanda di elaborazione ML guidata da molti fattori, tra cui, ovviamente, l’aumento vertiginoso delle dimensioni (numero di parametri) dei modelli supera la capacità dell’infrastruttura.

“Ovviamente, negli ultimi anni, l’apprendimento automatico ha cambiato le nostre aspettative su ciò che pensiamo sia possibile fare con i computer”, ha affermato Dean. “I computer ora possono comprendere le immagini, comprendere il parlato e il linguaggio molto meglio di quanto non fossero mai stati in grado di fare in passato, e questo apre una serie entusiasmante di nuove possibilità. Un’altra osservazione è che l’aumento della scala, l’utilizzo di più calcoli, più dati e la creazione di modelli più grandi, offre risultati migliori. E il tipo di calcoli che vogliamo eseguire, l’hardware su cui vogliamo eseguirli, stanno cambiando radicalmente.

"Penso che sia una lezione importante per i progettisti di hardware per computer: dobbiamo essere in grado di seguire il panorama della ricerca ML in miglioramento. Nel resto del discorso, voglio parlare di alcune tendenze importanti e del modello di machine learning, di alcune implicazioni per gli architetti informatici e di come progettiamo l'hardware ML e lo distribuiamo rapidamente per tenere il passo con un settore in rapida evoluzione."

A volte è meglio iniziare prima con le conclusioni.

Dean, Chief Scientist di Google, ha presentato la prima metà del discorso, approfondendo (principalmente) le tendenze della progettazione hardware. Vahdat, un Google Fellow e leader tecnico nel networking, ha affrontato lo sforzo di Google per ridurre le emissioni di carbonio e ha trascorso una discreta quantità di tempo a discutere la metrica Goodput di Google. Vahdat ha osservato: “Google si è impegnata pubblicamente a operare 24 ore su 24, 7 giorni su 7, senza emissioni di carbonio entro il 2030. Un obiettivo davvero ambizioso”.

Era un discorso ambizioso. Di seguito sono presentate alcune delle loro diapositive e le osservazioni di Dean sulle tendenze dei modelli ML, tra cui la scarsità, il calcolo adattivo e le reti neurali che cambiano dinamicamente. HPCwire avrà una copertura successiva dei commenti di Vahdat.

"I modelli densi, che sono probabilmente le reti neurali con cui hai più familiarità, sono quelli in cui l'intero modello viene attivato per ogni esempio di input o per ogni token generato, e sono al centro dell'attenzione della stragrande maggioranza della comunità del machine learning . Sebbene siano eccellenti e siano stati in grado di realizzare moltissime cose straordinarie, il calcolo sparso costituirà una tendenza importante in futuro", ha affermato Dean.

“I modelli sparsi hanno percorsi diversi che vengono richiamati in modo adattivo secondo necessità. Invece di avere questo modello gigante, questi modelli sparsi possono essere molto più efficienti. In un certo senso fanno semplicemente appello ai pezzi giusti del modello complessivo. E anche l'aspetto giusto dei pezzi è qualcosa che si apprende durante il processo di formazione. Parti diverse del modello possono quindi essere specializzate per diversi tipi di input. Il risultato finale è che ti ritrovi con qualcosa in cui tocchi solo il giusto 1% o il giusto 10% di un modello molto grande e questo ti dà sia una migliore reattività che una maggiore precisione.

Come hanno notato Dean e colleghi in un articolo del 2022 (A Review of Sparse Expert Models in Deep Learning), la scarsità non è certo una novità.

In quell’articolo scrivono: “I modelli esperti sparsi sono un concetto vecchio di trent’anni che riemerge come architettura popolare nel deep learning. Questa classe di architettura comprende Mixture-of-Experts, Switch Transformers, Routing Networks, BASE layer e altri, tutti con l'idea unificante che ogni esempio è influenzato da un sottoinsieme di parametri. In questo modo, il grado di scarsità disaccoppia il conteggio dei parametri dal calcolo per esempio, consentendo modelli estremamente grandi ma efficienti. I modelli risultanti hanno dimostrato miglioramenti significativi in ​​diversi ambiti come l’elaborazione del linguaggio naturale, la visione artificiale e il riconoscimento vocale”.