Ιστορική συμμαχία Nvidia και Intel για την πρόοδο της AI

Σύνοψη

Η NVIDIA επιλέγει τους επεξεργαστές Intel Xeon 6 ως host CPUs για τα νέα συστήματα τεχνητής νοημοσύνης DGX Rubin NVL8.
Ο συνδυασμός στοχεύει στη δραστική μείωση του latency και την αύξηση της ταχύτητας στο AI inferencing (συμπερασματολογία) για μεγάλα γλωσσικά μοντέλα (LLMs).
Το σύστημα ενσωματώνει 8 Rubin GPUs ανά node, συνδεδεμένα με την τελευταία γενιά NVLink, ενώ οι Xeon 6 αναλαμβάνουν τον συντονισμό των I/O λειτουργιών και την τροφοδοσία δεδομένων.
Η εξέλιξη αφορά άμεσα τις υποδομές cloud (όπως της Microsoft, της Google και της Digital Realty/Lamda Hellix) που αναπτύσσονται στην Ελλάδα, καθορίζοντας τις μελλοντικές τους αναβαθμίσεις.
Οι συγκεκριμένες συστοιχίες απαιτούν προηγμένα συστήματα υγρόψυξης, ανεβάζοντας τον πήχη για τις προδιαγραφές των τοπικών data centers.

Η διαρκής ανάγκη για μεγαλύτερη υπολογιστική ισχύ στον τομέα της τεχνητής νοημοσύνης επιβάλλει νέες συνεργασίες μεταξύ των κορυφαίων κατασκευαστών ημιαγωγών. Σύμφωνα με τις επίσημες ανακοινώσεις, η Intel και η NVIDIA προχωρούν σε κοινή πορεία για τον εξοπλισμό της επόμενης γενιάς υπερυπολογιστών AI. Ειδικότερα, οι επεξεργαστές Intel Xeon 6 επιλέχθηκαν ως οι κεντρικές μονάδες ελέγχου (host CPUs) για τα επερχόμενα συστήματα NVIDIA DGX Rubin NVL8, δημιουργώντας ένα hardware οικοσύστημα βελτιστοποιημένο για τον χειρισμό παραμέτρων της κλίμακας των τρισεκατομμυρίων.

Η συγκεκριμένη σύμπραξη καταδεικνύει ότι κανένας κατασκευαστής δεν μπορεί να προσφέρει μια απολύτως καθετοποιημένη λύση χωρίς συμβιβασμούς σε επίπεδο enterprise data centers. Η NVIDIA, παρότι διαθέτει τους δικούς της ARM-based Grace επεξεργαστές, αναγνωρίζει την υπεροχή της αρχιτεκτονικής x86 της Intel στο κομμάτι του single-thread performance, του PCIe lane management και της διαχείρισης μνήμης σε παραδοσιακά workloads, τα οποία είναι απαραίτητα για να τροφοδοτούνται οι GPUs με δεδομένα χωρίς καθυστερήσεις.

Ποιος είναι ο ρόλος των Intel Xeon 6 στα συστήματα NVIDIA DGX Rubin;

Οι επεξεργαστές Intel Xeon 6 λειτουργούν ως ο κεντρικός ενορχηστρωτής (host) στα συστήματα NVIDIA DGX Rubin NVL8, αναλαμβάνοντας τη διαχείριση του PCIe bandwidth, των λειτουργιών I/O και την προετοιμασία των δεδομένων πριν αυτά μεταφερθούν στις 8 Rubin GPUs. Ο συνδυασμός μειώνει το bottleneck της μνήμης και επιταχύνει το AI inferencing κατά 40% σε σχέση με την προηγούμενη γενιά, αξιοποιώντας τα ενσωματωμένα AI accelerators της Intel.

Η αρχιτεκτονική του DGX Rubin NVL8 και το I/O Bottleneck

Για να γίνει κατανοητή η κρισιμότητα αυτής της συνεργασίας, πρέπει να εξεταστεί ο τρόπος με τον οποίο εκπαιδεύονται και λειτουργούν τα σύγχρονα μοντέλα τεχνητής νοημοσύνης. Οι κάρτες γραφικών της γενιάς Rubin διαθέτουν ασύλληπτη επεξεργαστική ισχύ (TFLOPS) και εξαιρετικά γρήγορη μνήμη HBM4. Ωστόσο, οι GPUs δεν μπορούν να αντλήσουν δεδομένα μόνες τους από τα αποθηκευτικά μέσα. Απαιτούν έναν ενδιάμεσο ελεγκτή.

Όταν 8 Rubin GPUs λειτουργούν παράλληλα (NVL8 configuration) μέσα στο ίδιο σασί, το δίκτυο ανταλλαγής δεδομένων μεταξύ τους (NVLink) φτάνει σε ταχύτητες terabytes per second. Το πρόβλημα δημιουργείται στο πώς τα δεδομένα φτάνουν αρχικά σε αυτό το δίκτυο. Εδώ αναλαμβάνουν δράση οι Xeon 6 (πιθανότατα η σειρά P-core "Granite Rapids"). Εξοπλισμένοι με αυξημένο αριθμό PCIe 5.0/6.0 lanes και υποστήριξη CXL 2.0 (Compute Express Link), οι επεξεργαστές της Intel εξασφαλίζουν ότι οι αποθηκευτικές συστοιχίες NVMe και οι κάρτες δικτύου InfiniBand/Ethernet επικοινωνούν με τις GPUs στον ελάχιστο δυνατό χρόνο.

Οι Xeon 6 ενσωματώνουν επίσης τα AMX (Advanced Matrix Extensions) της Intel, τα οποία επιτρέπουν στην ίδια τη CPU να εκτελεί ελαφρύτερες εργασίες AI ή data preprocessing (όπως tokenization και data filtering), απελευθερώνοντας τις ακριβές Rubin GPUs ώστε να ασχοληθούν αποκλειστικά με το βαρύ μαθηματικό φορτίο της εκπαίδευσης ή της παραγωγής απαντήσεων.

Τεχνικές προδιαγραφές και ενεργειακό αποτύπωμα

Τα νέα nodes αποτελούν τεχνολογικά θηρία. Ένα πλήρες σύστημα DGX Rubin NVL8 υπολογίζεται ότι απαιτεί δεκάδες kilowatt ρεύματος, κάτι που σημαίνει ότι ο παραδοσιακός κλιματισμός καθίσταται πλέον εντελώς ανεπαρκής. Το σύστημα βασίζεται ολοκληρωτικά σε υγρόψυξη για να μπορέσει να λειτουργήσει χωρίς thermal throttling.

Host CPUs: Dual Intel Xeon 6 επεξεργαστές.
AI Accelerators: 8x NVIDIA Rubin GPUs ανά node.
Interconnect: Next-gen NVIDIA NVLink και NVSwitch.
Συνδεσιμότητα Δικτύου: Υποστήριξη για NVIDIA ConnectX-8 SuperNICs και BlueField-4 DPUs.
Ψύξη: Αποκλειστικά υγρόψυξη κλειστού βρόχου (closed-loop liquid cooling).

Η Intel έχει βελτιστοποιήσει την πλατφόρμα της σειράς 6 ώστε να προσφέρει πολύ καλύτερο performance-per-watt σε σχέση με την 5η γενιά (Emerald Rapids). Το power management της CPU επικοινωνεί δυναμικά με το firmware της NVIDIA, ρίχνοντας τα ρολόγια της CPU όταν το σύστημα περιμένει να ολοκληρωθεί ένας κύκλος GPU compute, εξοικονομώντας πολύτιμη ενέργεια.

Η εφαρμογή στην ελληνική αγορά

Τι σημαίνει αυτό το τεχνολογικό άλμα για την Ελλάδα; Οι εγχώριες επιχειρήσεις σπάνια αγοράζουν απευθείας συστήματα NVIDIA DGX τέτοιου κόστους (το οποίο αναμένεται να ξεπερνά τις 500.000 ευρώ ανά node). Η επιρροή είναι κυρίως έμμεση, μέσω των παρόχων cloud.

Οι νέες υποδομές της Microsoft στην Αττική, οι επενδύσεις της Google και η συνεχής επέκταση των Data Centers από πληθώρα εταιρειών, αναγκάζονται να αναπροσαρμόσουν τον σχεδιασμό των εγκαταστάσεών τους. Τα ελληνικά data centers περνούν πλέον στη φάση της προετοιμασίας για High-Density Racks (πάνω από 50kW-100kW ανά rack), εγκαθιστώντας ισχυρές σωληνώσεις για υγρόψυξη.

Για τις ελληνικές τράπεζες, τις εταιρείες τηλεπικοινωνιών και τα ερευνητικά κέντρα (όπως το ΙΤΕ ή το ΕΔΥΤΕ), η διαθεσιμότητα αυτών των συστημάτων μεταφράζεται σε δυνατότητα εκπαίδευσης εξειδικευμένων, τοπικών LLMs που θα κατανοούν απόλυτα την ελληνική γλώσσα, τη νομοθεσία και τους ιδιωματισμούς, κάτι που μέχρι πρότινος απαιτούσε εβδομάδες επεξεργασίας σε παλαιότερα συστήματα Hopper.

Η άποψη του Techgear

Όποιος έχει βρεθεί στον ίδιο χώρο με ένα δοκιμαστικό rack συστημάτων κλάσης DGX, γνωρίζει τον εκκωφαντικό θόρυβο των αντλιών και τη ζέστη που εκλύεται από το πίσω μέρος των servers. Η ενσωμάτωση των Xeon 6 μαζί με τις Rubin NVL8 ανεβάζει την πολυπλοκότητα της εγκατάστασης σε νέα επίπεδα. Μιλάμε για σασί στα οποία το παραμικρό λάθος στην πίεση του υγρού ψύξης μπορεί να καταστρέψει ημιαγωγούς αξίας εκατοντάδων χιλιάδων ευρώ σε δευτερόλεπτα.

Παράλληλα, η επιλογή της NVIDIA να εμπιστευτεί την Intel (και όχι π.χ. τη δική της πλατφόρμα Grace ή τους EPYC της AMD) για αυτό το συγκεκριμένο reference design δείχνει ένα έντονο ρεαλισμό. Η Intel διαθέτει τεράστια εγκατεστημένη βάση και ένα ώριμο οικοσύστημα software drivers (το oneAPI σε συνδυασμό με το CUDA).

Η κίνηση αυτή είναι καθαρά πραγματιστική: οι τεράστιες απαιτήσεις του AI δεν συγχωρούν πειραματισμούς στην αρχιτεκτονική του host. Το αποτέλεσμα είναι εντυπωσιακό στα χαρτιά, αλλά η πραγματική πρόκληση θα είναι η ικανότητα των data centers, ειδικά στην Ευρώπη και την Ελλάδα, να αντέξουν τις αδιανόητες απαιτήσεις αυτών των rack σε ηλεκτρικό ρεύμα.