Genie 3: Η DeepMind φέρνει τη δημιουργία διαδραστικών κόσμων σε πραγματικό χρόνο

Η Google DeepMind παρουσίασε το Genie 3, τη νέα γενιά του αποκαλούμενου «world model», ενός μοντέλου τεχνητής νοημοσύνης που έχει τη δυνατότητα να δημιουργεί διαδραστικά περιβάλλοντα με βάση μια απλή προτροπή ή εικόνα. Πρόκειται για μια σημαντική εξέλιξη στον τομέα της παραγωγικής τεχνητής νοημοσύνης, η οποία, αν και δεν έχει ακόμα βρει σαφή εμπορική εφαρμογή, προχωρά με γοργά βήματα όσον αφορά τις τεχνικές της δυνατότητες.

Σε αντίθεση με το προηγούμενο μοντέλο Genie 2, το οποίο παρουσιάστηκε μόλις επτά μήνες νωρίτερα, το Genie 3 προσφέρει σαφώς βελτιωμένη απόδοση. Η καινοτομία δεν περιορίζεται μόνο στην ταχύτητα και την ποιότητα, αλλά και στην ευελιξία του. Χρήστες μπορούν να δημιουργήσουν τρισδιάστατους κόσμους που εξελίσσονται δυναμικά, ενώ οι ίδιες οι συνθήκες του περιβάλλοντος μπορούν να τροποποιηθούν άμεσα: από την εισαγωγή χαρακτήρων και αντικειμένων μέχρι την αλλαγή καιρού ή το στήσιμο νέων σκηνών. Η DeepMind αποκαλεί αυτές τις επεμβάσεις "promptable events".

Αν και ο πειρασμός είναι μεγάλος να θεωρηθεί το Genie 3 ως εργαλείο σχεδιασμού βιντεοπαιχνιδιών, ο στόχος της DeepMind είναι σαφώς ευρύτερος. Η δημιουργία και κατανόηση πολύπλοκων κόσμων αποτελεί κρίσιμο πεδίο μελέτης για την τεχνητή νοημοσύνη, καθώς επιτρέπει την προσομοίωση καταστάσεων όπου τα μοντέλα καλούνται να πάρουν αποφάσεις σε περιβάλλοντα υψηλής αλληλεπίδρασης. Γι' αυτόν τον λόγο, η DeepMind είχε στραφεί στο παρελθόν σε παιχνίδια όπως το Go και το StarCraft, για να εκπαιδεύσει τα μοντέλα της σε ανταγωνιστικά και δυναμικά περιβάλλοντα.

Τα world models όπως το Genie 3 πηγαίνουν την προσέγγιση αυτή ένα βήμα παραπέρα, δημιουργώντας ολόκληρους κόσμους καρέ-καρέ. Το πλεονέκτημα αυτής της τεχνικής είναι ότι παρέχει σχεδόν απεριόριστη ποσότητα «συνθετικών δεδομένων», τα οποία είναι εξαιρετικά χρήσιμα για την εκπαίδευση AI μοντέλων, ιδίως όταν οι διαθέσιμες πραγματικές πληροφορίες (όπως κείμενα, εικόνες ή βίντεο) έχουν πλέον εξαντληθεί. Για την επίτευξη τεχνητής γενικής νοημοσύνης (AGI), αυτή η δυνατότητα μπορεί να αποδειχθεί καθοριστική.

Το Genie 3 διακρίνεται για την οπτική του ευκρίνεια, καθώς επιτρέπει πλοήγηση σε ανάλυση 720p και 24 καρέ ανά δευτερόλεπτο, με χρήση απλού πληκτρολογίου. Ένα ακόμη πιο αξιοσημείωτο χαρακτηριστικό είναι η βελτιωμένη του μνήμη. Ενώ το Genie 2 μπορούσε να «θυμάται» ένα περιβάλλον για περίπου 10 δευτερόλεπτα, το Genie 3 προσφέρει συνεκτικότητα στην εικόνα που διαρκεί αρκετά λεπτά. Το αποτέλεσμα είναι πιο ρεαλιστικές και συνεκτικές προσομοιώσεις, που ανοίγουν τον δρόμο για πιο σύνθετες εφαρμογές.

Ωστόσο, το μοντέλο δεν είναι τέλειο. Οι ίδιοι οι ερευνητές αναγνωρίζουν πως η διατήρηση συνέπειας για λίγα λεπτά δεν επαρκεί για πολλές χρήσεις. Η φιλοδοξία είναι να επιτευχθεί σταθερότητα που θα διαρκεί ώρες, κάτι που δεν έχει ακόμα επιτευχθεί. Επίσης, το Genie 3 δεν μπορεί να αναπαράγει πραγματικούς τόπους. Κάθε προσομοίωση είναι μοναδική και μη επαναλήψιμη, με αποτέλεσμα να παραμένει ευάλωτο στις λεγόμενες «παραισθήσεις» της τεχνητής νοημοσύνης, τα γνωστά λάθη ή παραλογισμοί που εμφανίζονται σε γενετικά μοντέλα.

Παρά τις βελτιώσεις στην ακρίβεια, το μοντέλο δυσκολεύεται ακόμα να αποδώσει λεπτές ανθρώπινες κινήσεις, όπως το βάδισμα, με αποτέλεσμα να προκύπτουν αμήχανα ή μη ρεαλιστικά αποτελέσματα. Επίσης, η αναπαραγωγή κειμένου μέσα σε αυτά τα περιβάλλοντα είναι προβληματική, καθώς το κείμενο εμφανίζεται συχνά ασύντακτο ή αλλοιωμένο, εκτός κι αν περιληφθούν συγκεκριμένες εντολές στην προτροπή.

Όσον αφορά τους AI agents – τις «νοημοσύνες» που δρουν μέσα στους δημιουργημένους κόσμους – οι δυνατότητες είναι ακόμη περιορισμένες. Παρότι τα περιβάλλοντα που δημιουργούνται μπορούν να προσομοιώνουν ρεαλιστικές συνθήκες, οι agents περιορίζονται σε παθητικές ενέργειες όπως η απλή πλοήγηση. Δεν διαθέτουν ακόμα την απαιτούμενη λογική και ευφυΐα για να τροποποιήσουν ή να επηρεάσουν τον κόσμο γύρω τους. Η DeepMind, πάντως, εξετάζει τρόπους για να επιτρέψει την αλληλεπίδραση πολλαπλών agents μέσα σε κοινό περιβάλλον – ίσως μια δυνατότητα που θα δούμε στο επόμενο Genie 4.

Αξιοσημείωτο είναι και το τεχνολογικό κόστος της διαδικασίας. Η συνεχής παραγωγή ενός διαδραστικού βίντεο υψηλής ποιότητας απαιτεί τεράστια υπολογιστική ισχύ. Αν και η DeepMind δεν αποκαλύπτει λεπτομέρειες για τις τεχνικές απαιτήσεις, η αδυναμία ευρείας πρόσβασης στο εργαλείο φανερώνει τους περιορισμούς του σήμερα.

Το Genie 3 παραμένει, προς το παρόν, ερευνητικό εργαλείο. Η πρόσβαση θα δοθεί αρχικά σε ομάδα ειδικών και ερευνητών που θα συμβάλουν στη βελτίωσή του. Η πρόθεση της ομάδας είναι, σύμφωνα με δηλώσεις, να ανοίξει σταδιακά η πρόσβαση στο ευρύτερο κοινό, ενδεχομένως φέρνοντας μαζί της μια νέα εποχή δημιουργίας διαδραστικών κόσμων από τη φαντασία – και την υπολογιστική δύναμη – της τεχνητής νοημοσύνης.

[via]

Loading