Intel annuncia ottimizzazioni per Llama 3.1 per aumentare le prestazioni di tutti i prodotti

Llama 3.1 di Meta è ora disponibile e Intel ha annunciato il pieno supporto dei modelli AI di Llama 3.1 su tutta la sua gamma di prodotti, come Gaudi, Xeon, Arc e Core. Meta ha lanciato oggi il suo nuovo modello di linguaggio di grandi dimensioni Llama 3.1, che subentra alla versione 3 di Llama rilasciata ad aprile. Intel ha rilasciato i dati relativi alle prestazioni di Llama 3.1 sui suoi ultimi prodotti, tra cui i PC Intel Gaudi, Xeon e AI basati su processori Core Ultra e grafica Arc. Intel lavora continuamente al suo ecosistema di software AI e i nuovi modelli Llama 3.1 sono abilitati sui suoi prodotti AI disponibili con vari framework come PyTorch e Intel Extension for PyTorch, DeepSpeed, Hugging Face Optimum Libraries e vLLM, assicurando agli utenti prestazioni migliorate sui suoi prodotti AI per data center, edge e client per gli ultimi Meta LLM.ù

Llama 3.1 consiste in una collezione di LLM multilingue, che fornisce modelli generativi pre-addestrati e tarati sulle istruzioni in diverse dimensioni. Il modello di base più grande introdotto in Llama 3.1 è il formato 405B, che offre capacità all’avanguardia in termini di conoscenza generale, governabilità, matematica, uso di strumenti e traduzione multilingue. I modelli più piccoli includono le dimensioni 70B e 8B, dove il primo è un modello altamente performante ma economico e il secondo è un modello leggero per una risposta ultraveloce. Intel ha testato Llama 3.1 405B sui suoi acceleratori Intel Gaudi, processori appositamente progettati per l’addestramento e l’inferenza a costi contenuti e ad alte prestazioni. I risultati mostrano una risposta rapida e un elevato throughput con diverse lunghezze di token, mostrando le capacità degli acceleratori Gaudi 2 e del software Gaudi. Allo stesso modo, gli acceleratori Gaudi 2 mostrano prestazioni ancora più veloci sul modello 70B con lunghezze di token di 32k e 128k.

Poi abbiamo i processori Intel Xeon Scalable di quinta generazione sul banco di prova, che mostrano le prestazioni con diverse lunghezze di token. Con input di token da 1K, 2K e 8K, la latenza dei token è vicina (per lo più inferiore a 40ms e 30ms) sia nei test BF16 che WOQ INT8. Ciò dimostra la rapidità di risposta dei processori Intel Xeon, che possiedono le estensioni Intel AMX (Advanced Matrix Extensions) per prestazioni AI superiori. Anche con 128K token in ingresso, la latenza rimane sotto i 100 ms in entrambi i test.

Intel