Voyager: Η νέα AI της Tencent μετατρέπει φωτογραφίες σε 3D εικονικούς κόσμους

Η Tencent παρουσίασε το HunyuanWorld-Voyager, ένα ανοιχτό μοντέλο τεχνητής νοημοσύνης που υπόσχεται να μεταμορφώσει στατικές εικόνες σε βίντεο με ψευδαίσθηση τρισδιάστατου χώρου. Με μία μόνο φωτογραφία ως είσοδο, το σύστημα μπορεί να δημιουργήσει κινούμενες σκηνές όπου η κάμερα «περιηγείται» σε εικονικά περιβάλλοντα. Η τεχνολογία αυτή συνδυάζει χρωματικό βίντεο και πληροφορίες βάθους, καθιστώντας δυνατή την τρισδιάστατη ανακατασκευή χωρίς παραδοσιακές μεθόδους μοντελοποίησης. Παρά τις εντυπωσιακές δυνατότητες, δεν πρόκειται ακόμη για εργαλείο που θα μπορούσε να αντικαταστήσει βιντεοπαιχνίδια ή άλλες διαδραστικές εμπειρίες.

Σε πρακτικό επίπεδο, τα αποτελέσματα δεν είναι αληθινά 3D μοντέλα αλλά βίντεο δύο διαστάσεων που διατηρούν την αίσθηση του χώρου. Κάθε δημιουργία περιλαμβάνει μόλις 49 καρέ, δηλαδή περίπου δύο δευτερόλεπτα βίντεο. Ωστόσο, οι χρήστες μπορούν να ενώσουν πολλά μικρά αποσπάσματα ώστε να δημιουργήσουν σκηνές αρκετών λεπτών. Τα αντικείμενα εμφανίζονται σταθερά στη θέση τους, ενώ οι αλλαγές προοπτικής ακολουθούν την κίνηση της κάμερας όπως θα γινόταν σε ένα πραγματικό τρισδιάστατο περιβάλλον. Η έξοδος μπορεί να αξιοποιηθεί για τη δημιουργία «σύννεφων σημείων» που οδηγούν σε πιο ολοκληρωμένη τρισδιάστατη αναπαράσταση.

Η χρήση του Voyager είναι απλή στη σύλληψη αλλά απαιτητική σε πόρους. Ο χρήστης εισάγει μια εικόνα και ορίζει την πορεία της κάμερας – προς τα εμπρός, πίσω, αριστερά, δεξιά ή με στροφές. Το σύστημα συνδυάζει την εικόνα με δεδομένα βάθους και, χάρη σε μια μνήμη τύπου «world cache», δημιουργεί βίντεο που αντικατοπτρίζει τις κινήσεις αυτές. Ουσιαστικά, πρόκειται για μια διαδικασία που εξισορροπεί την αναπαραγωγή προτύπων με γεωμετρικούς περιορισμούς, προσφέροντας καλύτερη συνέπεια από άλλους γεννήτορες βίντεο, χωρίς όμως να φτάνει σε πραγματική κατανόηση του τρισδιάστατου χώρου.

Η εκπαίδευση του Voyager βασίστηκε σε περισσότερα από 100.000 βιντεοκλίπ, συμπεριλαμβανομένων σκηνών που δημιουργήθηκαν με το Unreal Engine. Έτσι, το μοντέλο «έμαθε» να μιμείται τον τρόπο που μια κάμερα κινείται σε τρισδιάστατα περιβάλλοντα παιχνιδιών. Σε αντίθεση με εργαλεία όπως το Sora, τα οποία παράγουν πειστικά καρέ χωρίς απαραίτητα να τηρούν τη χωρική συνέπεια, το Voyager διαθέτει μηχανισμό ανατροφοδότησης. Καθώς δημιουργεί κάθε καρέ, το μετατρέπει σε τρισδιάστατα σημεία και τα προβάλλει ξανά σε δύο διαστάσεις για τα επόμενα καρέ. Με τον τρόπο αυτό, ελέγχει αν οι νέες εικόνες συμφωνούν με όσα έχουν ήδη παραχθεί.

Η προσέγγιση αυτή περιορίζει τα λάθη και ενισχύει τη σταθερότητα του βίντεο. Ωστόσο, τα μικρά σφάλματα που συσσωρεύονται με την πάροδο των καρέ καθιστούν δύσκολες τις πλήρεις περιστροφές 360 μοιρών ή τις πολύ μεγάλες σκηνές. Σύμφωνα με την τεχνική αναφορά της Tencent, το σύστημα λειτουργεί σε δύο επίπεδα: δημιουργεί ταυτόχρονα βίντεο και δεδομένα βάθους και χρησιμοποιεί το «world cache» για να διασφαλίζει ότι τα νέα καρέ ευθυγραμμίζονται με τα προηγούμενα.

Η κυκλοφορία του Voyager έρχεται σε μια περίοδο όπου πολλές εταιρείες αναπτύσσουν αντίστοιχες τεχνολογίες. Το Genie 3 της Google, που παρουσιάστηκε τον Αύγουστο, δημιουργεί διαδραστικούς κόσμους με ανάλυση 720p και 24 καρέ το δευτερόλεπτο από απλές περιγραφές κειμένου. Το Mirage 2 της Dynamics Lab, διαθέσιμο μέσω browser, επιτρέπει τη μετατροπή εικόνων σε «παίξιμα» περιβάλλοντα. Σε αντίθεση με αυτά τα μοντέλα, που εστιάζουν κυρίως σε παιχνίδια ή πειράματα με πράκτορες τεχνητής νοημοσύνης, το Voyager στοχεύει περισσότερο στη βιντεοπαραγωγή και την τρισδιάστατη ανακατασκευή.

Η ανάπτυξή του Voyager βασίστηκε σε αυτοματοποιημένο σύστημα εκπαίδευσης. Λογισμικό της Tencent ανέλυσε αυτόματα υπάρχοντα βίντεο, υπολογίζοντας την κίνηση της κάμερας και το βάθος για κάθε καρέ, χωρίς ανθρώπινη παρέμβαση. Η διαδικασία αυτή μείωσε δραστικά την ανάγκη για χειροκίνητη σήμανση χιλιάδων ωρών υλικού.

Ωστόσο, η τεχνολογία απαιτεί τεράστια υπολογιστική ισχύ. Για ανάλυση 540p χρειάζονται τουλάχιστον 60GB μνήμης GPU, ενώ για καλύτερα αποτελέσματα η Tencent συνιστά 80GB. Το μοντέλο έχει δημοσιευθεί στο Hugging Face με κώδικα που υποστηρίζει τόσο μονή GPU όσο και πολλαπλές GPUs. Παράλληλα, υπάρχουν περιορισμοί στη χρήση: απαγορεύεται η αξιοποίησή του στην Ευρωπαϊκή Ένωση, το Ηνωμένο Βασίλειο και τη Νότια Κορέα, ενώ για εμπορική χρήση σε υπηρεσίες με πάνω από 100 εκατομμύρια χρήστες απαιτείται ξεχωριστή άδεια.

Στα benchmarks του WorldScore, που ανέπτυξαν ερευνητές του Stanford, το Voyager κατέγραψε κορυφαία επίδοση με συνολικό σκορ 77.62, ξεπερνώντας το WonderWorld (72.69) και το CogVideoX-I2V (62.15). Ξεχώρισε σε σταθερότητα ύφους και υποκειμενική ποιότητα εικόνας, ενώ βρέθηκε δεύτερο στον έλεγχο κάμερας, πίσω από το WonderWorld.

Παρά τις υψηλές επιδόσεις, η εξάπλωση του Voyager θα εξαρτηθεί από το κατά πόσο μπορούν οι δημιουργοί να αντεπεξέλθουν στις τεράστιες απαιτήσεις σε hardware. Η Tencent δίνει λύσεις με υποστήριξη παράλληλης επεξεργασίας μέσω του xDiT framework, όπου οκτώ GPU επιτυγχάνουν ταχύτητα σχεδόν επτά φορές μεγαλύτερη από μια μεμονωμένη κάρτα.

Αν και απέχουμε ακόμα από τη δημιουργία πραγματικά διαδραστικών εμπειριών σε πραγματικό χρόνο, το Voyager δείχνει μια κατεύθυνση για το πώς μπορεί να εξελιχθεί η παραγωγική τεχνητή νοημοσύνη στον χώρο των εικονικών κόσμων. Όπως συνέβη με τα πρώτα πειράματα της Google και άλλων εταιρειών, ίσως να βρισκόμαστε στα πρώτα βήματα μιας νέας μορφής ψηφιακής τέχνης, όπου οι εικόνες αποκτούν ζωή και βάθος με τη βοήθεια της AI.

[via]