V-JEPA 2: Το νέο AI μοντέλο της Meta στοχεύει στην ανάπτυξη «φυσικής διαίσθησης»

Η Meta παρουσίασε το V-JEPA 2, ένα νέο μοντέλο τεχνητής νοημοσύνης που φιλοδοξεί να φέρει επανάσταση στη ρομποτική και την αυτοματοποίηση στον φυσικό κόσμο. Σε αντίθεση με τα μεγάλα γλωσσικά μοντέλα που κυριαρχούν στην επεξεργασία κειμένου και εικόνας, αλλά δυσκολεύονται να κατανοήσουν τη φυσική πραγματικότητα, το V-JEPA 2 στοχεύει στην ανάπτυξη «φυσικής διαίσθησης», επιτρέποντας στους ρομποτικούς πράκτορες να ενεργούν σε άγνωστα περιβάλλοντα με βάση την πρόβλεψη και τον προγραμματισμό.

Η βασική καινοτομία του V-JEPA 2 είναι ότι λειτουργεί ως ένα «μοντέλο του κόσμου», ένα είδος εσωτερικής προσομοίωσης που επιτρέπει στην τεχνητή νοημοσύνη να κατανοεί τι συμβαίνει σε ένα περιβάλλον, να προβλέπει πώς θα αλλάξει αν εφαρμοστεί μια ενέργεια, και να σχεδιάζει βήμα προς βήμα τη βέλτιστη δράση για την επίτευξη ενός στόχου. Με άλλα λόγια, πρόκειται για μια μορφή ψηφιακής φυσικής σκέψης, εμπνευσμένη από τον τρόπο με τον οποίο οι άνθρωποι μαθαίνουν από την παρατήρηση.

Η αρχιτεκτονική του μοντέλου, η οποία ονομάζεται Video Joint Embedding Predictive Architecture (V-JEPA), αποτελείται από δύο βασικά τμήματα: τον «κωδικοποιητή» και τον «προβλεπτή». Ο πρώτος αναλύει ένα βίντεο και δημιουργεί μια συμπυκνωμένη αναπαράσταση του περιεχομένου του, καταγράφοντας τις σχέσεις μεταξύ αντικειμένων και κινήσεων. Ο δεύτερος χρησιμοποιεί αυτή την αναπαράσταση για να προβλέψει την επόμενη κατάσταση του περιβάλλοντος, δημιουργώντας έτσι μια δυναμική εσωτερική απεικόνιση των εξελίξεων.

Σε αντίθεση με τα παραγωγικά μοντέλα που επιχειρούν να προβλέψουν με ακρίβεια το κάθε εικονοστοιχείο, κάτι που απαιτεί τεράστια υπολογιστική ισχύ, το V-JEPA 2 επικεντρώνεται σε αφηρημένα χαρακτηριστικά, όπως η θέση και η κίνηση ενός αντικειμένου, καθιστώντας το πιο αποδοτικό. Με μόλις 1,2 δισεκατομμύρια παραμέτρους, το μοντέλο μπορεί να λειτουργήσει ακόμα και σε ένα μόνο high-end GPU, γεγονός που το καθιστά πρακτικό για υλοποιήσεις σε πραγματικό χρόνο και σε βιομηχανικές συνθήκες.

Η εκπαίδευση του V-JEPA 2 πραγματοποιήθηκε σε δύο στάδια. Αρχικά, το μοντέλο «παρακολούθησε» πάνω από ένα εκατομμύριο ώρες μη επισημασμένων βίντεο από το διαδίκτυο, αποκτώντας έτσι μια γενική κατανόηση της φυσικής αλληλεπίδρασης αντικειμένων. Στο δεύτερο στάδιο, εκπαιδεύτηκε σε ένα μικρό εξειδικευμένο σύνολο δεδομένων, που περιλάμβανε 62 ώρες ρομποτικής δράσης μαζί με τις αντίστοιχες εντολές. Αυτό του επέτρεψε να συνδέσει συγκεκριμένες ενέργειες με τα αντίστοιχα φυσικά αποτελέσματα.

Το εντυπωσιακότερο ίσως στοιχείο είναι η ικανότητά του να εφαρμόζεται σε νέες καταστάσεις χωρίς περαιτέρω εκπαίδευση, μια δυνατότητα γνωστή ως zero-shot planning. Για παράδειγμα, μπορεί να λάβει μια εικόνα ως στόχο και να «φανταστεί» διάφορες ενέργειες που θα οδηγήσουν σε αυτό το αποτέλεσμα, επιλέγοντας κάθε φορά την πιο αποτελεσματική. Με αυτή τη μέθοδο, κατάφερε να πετύχει ποσοστά επιτυχίας από 65% έως 80% σε αποστολές ανύψωσης και τοποθέτησης άγνωστων αντικειμένων σε άγνωστα περιβάλλοντα.

Η σημασία αυτής της τεχνολογίας για τις επιχειρήσεις είναι μεγάλη. Στον τομέα της βιομηχανίας και της εφοδιαστικής αλυσίδας, οι ρομποτικοί πράκτορες που βασίζονται σε τέτοια μοντέλα θα μπορούν να προσαρμόζονται σε διαφορετικά προϊόντα και περιβάλλοντα χωρίς επαναπρογραμματισμό. Επιπλέον, η ίδια τεχνολογία μπορεί να χρησιμοποιηθεί για την ανάπτυξη ψηφιακών διδύμων, που προσομοιώνουν διαδικασίες με φυσική ακρίβεια, ή για την πρόβλεψη τεχνικών αστοχιών μέσω ανάλυσης βίντεο σε βιομηχανικά περιβάλλοντα.

Η Meta βλέπει το V-JEPA 2 ως ένα σημαντικό βήμα προς αυτό που ονομάζει advanced machine intelligence, την επόμενη φάση της τεχνητής νοημοσύνης, όπου οι μηχανές δεν θα περιορίζονται σε στατικές λειτουργίες, αλλά θα μπορούν να κατανοούν, να σχεδιάζουν και να δρουν στον φυσικό κόσμο με τρόπο παρόμοιο με τον άνθρωπο.

Το μοντέλο και ο κώδικας εκπαίδευσής του έχουν ήδη διατεθεί ανοιχτά, με στόχο τη δημιουργία μιας κοινότητας που θα εξελίξει περαιτέρω την ιδέα των world models. Για τους τεχνικούς υπεύθυνους επιχειρήσεων, το μήνυμα είναι σαφές: η αυτοματοποίηση περνά σε μια νέα εποχή, όπου οι ρομποτικοί πράκτορες θα μπορούν να μαθαίνουν μία φορά και να εφαρμόζονται παντού — από το εργαστήριο, στη γραμμή παραγωγής.

[via]

Loading