Υπερυπολογιστής LineShine: Η Κίνα αγγίζει τα 1.54 Exaflops αποκλειστικά με 2.4 εκατ. πυρήνες CPU της Huawei

Add as preferred source on Google

Σύνοψη

  • Το Εθνικό Κέντρο Υπερυπολογιστών της Κίνας έθεσε σε λειτουργία τον LineShine, ένα σύστημα μεγάλης κλίμακας σχεδιασμένο για φόρτους εργασίας AI, το οποίο λειτουργεί χωρίς τη χρήση μονάδων επεξεργασίας γραφικών (GPU).
  • Το σύστημα αξιοποιεί 40.960 επεξεργαστές αρχιτεκτονικής ARMv9, σχεδιασμένους από τη Huawei, γνωστούς ως LX2.
  • Ο συνολικός αριθμός των πυρήνων ανέρχεται σε 2.451.840, προσφέροντας απόδοση 1.54 Exaflops (BF16) για την εκπαίδευση μοντέλων παραγωγικής τεχνητής νοημοσύνης.
  • Κάθε επεξεργαστής ενσωματώνει 304 πυρήνες, υποστηριζόμενους από 32 GB μνήμης HBM on-package, επιτυγχάνοντας εύρος ζώνης 4 TB/s.
  • Το LineShine αποτελεί την τεχνική απάντηση στους εμπορικούς περιορισμούς των ΗΠΑ, αποδεικνύοντας ότι τα μοντέλα AI μπορούν να εκπαιδευτούν σε CPU-centric αρχιτεκτονικές, αν και με σημαντικό ενεργειακό κόστος έναντι των λύσεων της Nvidia.

Οι περιορισμοί στις εξαγωγές ημιαγωγών υψηλής τεχνολογίας, τους οποίους έχουν επιβάλει οι Ηνωμένες Πολιτείες στην κινεζική αγορά, επιτάχυναν την ανάπτυξη εναλλακτικών υπολογιστικών αρχιτεκτονικών. Χωρίς πρόσβαση στους κορυφαίους επιταχυντές τεχνητής νοημοσύνης της Nvidia (όπως οι σειρές H100 και H200) ή της AMD, η Κίνα υποχρεώθηκε να βρει νέους τρόπους για τη συντήρηση και την εξέλιξη των εγχώριων υποδομών της. Το αποτέλεσμα αυτής της βίαιης προσαρμογής είναι ο LineShine, ένας νέος υπερυπολογιστής που εγκαταλείπει πλήρως την ετερογενή προσέγγιση (CPU + GPU) υπέρ μιας τεράστιας κλίμακας διάταξης αποκλειστικά βασισμένης σε κεντρικούς επεξεργαστές. Το τεχνικό επίτευγμα είναι σαφές: η οριζόντια κλιμάκωση απλών υπολογιστικών μονάδων σε ακραίο βαθμό, προκειμένου να εκτελεστούν οι εξαιρετικά πολύπλοκοι υπολογισμοί μητρών που απαιτούνται για τα μεγάλα γλωσσικά μοντέλα (LLMs).

Τι είναι ο υπερυπολογιστής LineShine και πώς λειτουργεί χωρίς GPUs;

Ο LineShine είναι ένας κινεζικός υπερυπολογιστής κατηγορίας Exascale που αγγίζει τα 1.54 Exaflops επιδόσεων αποκλειστικά μέσω 2.45 εκατομμυρίων πυρήνων CPU ARMv9. Σχεδιασμένος για εκπαίδευση μοντέλων AI, παρακάμπτει την ανάγκη για GPUs χρησιμοποιώντας 40.960 προσαρμοσμένους επεξεργαστές LX2 (σχεδίασης Huawei), οι οποίοι διαθέτουν ενσωματωμένες μονάδες επιτάχυνσης διανυσμάτων και μητρών σε επίπεδο πυρήνα.

Αυτή η προσέγγιση διαφοροποιείται ριζικά από τα δυτικά πρότυπα σχεδιασμού κέντρων δεδομένων. Ενώ η βιομηχανία βασίζεται στον διαχωρισμό των φόρτων εργασίας (οι επεξεργαστές αναλαμβάνουν τη λογική και την τροφοδοσία δεδομένων, ενώ οι κάρτες γραφικών τα βαριά μαθηματικά της τεχνητής νοημοσύνης), ο LineShine ενσωματώνει τα πάντα στον ίδιο πυρήτη. Η εξάλειψη της ανάγκης μεταφοράς δεδομένων μεταξύ CPU και επιταχυντών μέσω διαύλων όπως το PCIe λύνει το πρόβλημα της καθυστέρησης (latency), αλλά μεταφέρει το βάρος της επεξεργασίας αποκλειστικά στην εσωτερική μνήμη και την ωμή πυκνότητα των πυρήνων.

Αρχιτεκτονική και οι επεξεργαστές Huawei LX2

Στην καρδιά του LineShine βρίσκεται ο επεξεργαστής LX2, ένα προσαρμοσμένο (custom) chip αρχιτεκτονικής ARMv9, σχεδιασμένο από τη Huawei. Το σύστημα αποτελείται από 20.480 υπολογιστικούς κόμβους (compute nodes). Κάθε κόμβος φιλοξενεί δύο επεξεργαστές LX2. Ο πολλαπλασιασμός αποκαλύπτει τα μεγέθη: 40.960 συνολικοί επεξεργαστές στο σύστημα.

Κάθε επεξεργαστής LX2 είναι ένα μηχανικό επίτευγμα από μόνος του. Αποτελείται από δύο chiplets, όπου οι πυρήνες οργανώνονται σε οκτώ συστάδες των 38 πυρήνων έκαστη. Αυτό αποδίδει συνολικά 304 πυρήνες ανά chip. Σε επίπεδο μνήμης cache, κάθε πυρήνας διαθέτει 32 KB L1 μνήμης για εντολές και 32 KB L1 μνήμης για δεδομένα. Παράλληλα, κάθε cluster μοιράζεται 28.5 MB μνήμης L2.

Για να διαχειριστεί τον τεράστιο όγκο δεδομένων που απαιτούν τα μοντέλα AI, η Huawei εξόπλισε τον επεξεργαστή με ένα εξαιρετικά πυκνό υποσύστημα μνήμης. Κάθε chip περιλαμβάνει 32 GB μνήμης HBM (High Bandwidth Memory) ενσωματωμένης στο ίδιο το πακέτο (on-package), η οποία αποδίδει εύρος ζώνης έως και 4 TB/s. Αυτό υποστηρίζεται επιπλέον από δυνατότητα σύνδεσης με εξωτερική μνήμη DDR5 έως και 256 GB.

Η διαχείριση των φόρτων AI από τη CPU

Για να μπορέσει ένας επεξεργαστής ARMv9 να εκτελέσει αποδοτικά εργασίες τεχνητής νοημοσύνης, ο σχεδιασμός του πρέπει να προσαρμοστεί. Η Huawei ενσωμάτωσε σε κάθε πυρήνα υποστήριξη για τα Scalable Vector Extension (SVE) και Scalable Matrix Extension (SME) της ARM. Αυτές οι μονάδες επιταχύνουν άμεσα τις λειτουργίες μητρών, οι οποίες αποτελούν τον θεμέλιο λίθο της εκπαίδευσης νευρωνικών δικτύων. Συνεπώς, αντί ο επεξεργαστής να προσπαθεί να λύσει τα μαθηματικά με τις παραδοσιακές μονάδες κινητής υποδιαστολής, αναθέτει τους υπολογισμούς σε αυτά τα εξειδικευμένα τμήματα του πυρήνα, προσομοιώνοντας τη λειτουργία των Tensor Cores μιας GPU.

Επιδόσεις: Μπορεί ένας CPU-only υπερυπολογιστής να ανταγωνιστεί τα συστήματα της Nvidia;

Ο LineShine αποδίδει 1.54 Exaflops σταθερής ισχύος για εκπαίδευση μοντέλων AI σε μορφή BF16, φτάνοντας τα 2.16 Exaflops σε περιβάλλοντα δοκιμών. Παρότι η θεωρητική του ισχύς σε παραδοσιακούς υπολογισμούς (FP64) αγγίζει τα 2.47 Exaflops, υπολείπεται αισθητά σε ενεργειακή αποδοτικότητα και πυκνότητα απόδοσης συγκριτικά με τα υπερσύγχρονα GPU-based κέντρα δεδομένων.

Τα νούμερα, εξεταζόμενα απομονωμένα, είναι απολύτως κορυφαία. Κάθε μεμονωμένος επεξεργαστής LX2 αποδίδει 60.3 Teraflops απόδοσης σε αριθμούς κινητής υποδιαστολής διπλής ακρίβειας (FP64), 240 Teraflops σε υπολογισμούς BF16/FP16 (η βάση για τα μοντέλα τεχνητής νοημοσύνης) και 960 Teraops σε υπολογισμούς ακέραιων τιμών INT8.

Η πρακτική εφαρμογή αυτής της ισχύος καταγράφηκε πρόσφατα κατά την εκπαίδευση ενός παραγωγικού μοντέλου παρατήρησης της Γης με 6.3 δισεκατομμύρια παραμέτρους, όπου το σύστημα κορύφωσε την απόδοσή του στα 2.16 Exaflops.

Το τίμημα της αρχιτεκτονικής CPU-Only

Παρά την τεχνική επιτυχία, υπάρχει ένας θεμελιώδης λόγος που η υπόλοιπη τεχνολογική βιομηχανία δεν ακολουθεί αυτόν τον δρόμο. Ένα σύστημα αποκλειστικά βασισμένο σε CPU απαιτεί υπερβολικά μεγάλο αριθμό εξαρτημάτων για να φτάσει την απόδοση ενός συστήματος με κάρτες γραφικών. Αυτό μεταφράζεται σε πολλαπλάσιες απαιτήσεις χώρου (data center footprint) και, κυρίως, σε τεράστια κατανάλωση ηλεκτρικής ενέργειας.

Οι κάρτες γραφικών διαθέτουν χιλιάδες μικρότερους πυρήνες, βελτιστοποιημένους αυστηρά για παράλληλη επεξεργασία. Οι επεξεργαστές γενικής χρήσης διαθέτουν πολυπλοκότερη αρχιτεκτονική, η οποία είναι άχρηστη στον πολλαπλασιασμό μητρών, αλλά καταναλώνει ρεύμα. Το χάσμα αποδοτικότητας μεταξύ ενός LX2 node και ενός διακομιστή με H100 της Nvidia παραμένει τεράστιο. Η κατασκευή του LineShine δεν είναι ένδειξη τεχνικής ανωτερότητας του σχεδιασμού CPU-only, αλλά μια πράξη μηχανικής αναγκαιότητας.

Η γεωπολιτική διάσταση

Το σύστημα LineShine υπογραμμίζει τη ραγδαία ωρίμανση του εγχώριου κινεζικού οικοσυστήματος ημιαγωγών. Καθώς οι δυτικές κυρώσεις απέκοψαν την Κίνα από τις παραδοσιακές αλυσίδες εφοδιασμού, οδήγησαν ακούσια στη δημιουργία ανεξάρτητων λύσεων, συχνά σχεδιασμένων από εταιρείες που βρίσκονται ήδη στις μαύρες λίστες των ΗΠΑ, όπως η Huawei.

Μέσα από αυτό το πρίσμα, οι κατασκευαστές στην Κίνα προσαρμόζουν τις γραμμές παραγωγής τους για να κατασκευάζουν μεγαλύτερα και πολυπλοκότερα chips. Η αδυναμία πρόσβασης σε λιθογραφικές μηχανές EUV (Extreme Ultraviolet) της ASML σημαίνει ότι η Κίνα δεν μπορεί να παράγει chips στα 3nm, όμως η εξέλιξη στις τεχνικές συσκευασίας (advanced packaging) και ο σχεδιασμός chiplets, όπως φαίνεται στον επεξεργαστή LX2, επιτρέπει τη δημιουργία συστημάτων υψηλών επιδόσεων ακόμα και με παλαιότερους κόμβους κατασκευής.

*Μπορείτε πλέον να προσθέσετε το Techgear.gr ως Προτιμώμενη Πηγή ενημέρωσης για τις αναζητήσεις σας στο Google Search!

Loading