Bionic Humanoid Robot: Origin F1 - Το πιο «αληθινό» ανθρωποειδές ρομπότ που έχεις δει [Video]
Σύνοψη
- Η εταιρεία AheadForm, με επικεφαλής τον ερευνητή Yuhang Hu, αποκάλυψε το Origin F1, ένα βιονικό ανθρωποειδές ρομπότ εξοπλισμένο με προηγμένο σύστημα εκφράσεων προσώπου.
- Το σύστημα βασίζεται σε συνθετικό δέρμα και δίκτυο μικρο-ενεργοποιητών που ελέγχονται από αλγορίθμους τεχνητής νοημοσύνης σε πραγματικό χρόνο.
- Το ρομπότ διαθέτει ικανότητες αυτο-εποπτευόμενης μάθησης, επιτρέποντας του να συγχρονίζει τα χείλη του με την ομιλία και να αντιδρά σε οπτικά ερεθίσματα του περιβάλλοντος.
- Η τεχνολογία εστιάζει στη βελτίωση της μη-λεκτικής επικοινωνίας, μειώνοντας το φαινόμενο του «uncanny valley» (της αίσθησης αποστροφής προς ρεαλιστικά αλλά όχι απόλυτα ανθρώπινα αντικείμενα).
- Για την ελληνική αγορά, οι εφαρμογές αυτών των συστημάτων τοποθετούνται κυρίως σε B2B περιβάλλοντα, όπως η ρομποτική εξυπηρέτηση και η υγειονομική περίθαλψη, με βασική προϋπόθεση την ενσωμάτωση τοπικών γλωσσικών μοντέλων.
Η μηχανική των ανθρωποειδών ρομπότ επικεντρώνεται παραδοσιακά στην κινηματική και την ισορροπία, αφήνοντας τη διαδραστική όψη των μηχανών σε δεύτερη μοίρα.
Η AheadForm, υπό την τεχνική καθοδήγηση του Yuhang Hu —ενός ερευνητή με μακρά θητεία στο Creative Machines Lab του Πανεπιστημίου Columbia— παρουσίασε το Bionic Humanoid Robot: Origin F1. Το συγκεκριμένο μοντέλο εστιάζει αποκλειστικά στην επίλυση του προβλήματος της μη-λεκτικής επικοινωνίας μέσω ενός εξαιρετικά περίπλοκου, βιονικού προσώπου.
Το βίντεο της παρουσίασης καταγράφει το Origin F1 να ανοιγοκλείνει τα μάτια του, να ακολουθεί την κίνηση στον χώρο και να τροποποιεί τις μικρο-εκφράσεις του δυναμικά. Το σύστημα δεν βασίζεται σε προγραμματισμένες, στατικές αντιδράσεις, αλλά σε συνεχή επεξεργασία περιβαλλοντικών δεδομένων που τροφοδοτούν τους κινητήρες του προσώπου.
Το Origin F1 και η αρχιτεκτονική της μη-λεκτικής επικοινωνίας
Το Origin F1 είναι ένα βιονικό ανθρωποειδές ρομπότ της AheadForm που ενσωματώνει τεχνητή νοημοσύνη, μικρο-ενεργοποιητές κάτω από συνθετικό δέρμα και συστήματα μηχανικής όρασης. Απαντά στο πρόβλημα της ρομποτικής αλληλεπίδρασης, παράγοντας ρεαλιστικές εκφράσεις προσώπου και διατηρώντας οπτική επαφή σε πραγματικό χρόνο, γεφυρώνοντας το χάσμα της μη-λεκτικής επικοινωνίας μεταξύ ανθρώπου και μηχανής.
Βασικά τεχνικά στοιχεία
- Αριθμός Βαθμών Ελευθερίας (DoF): Άνω των 26 ανεξάρτητων αξόνων κίνησης στο πρόσωπο και τον λαιμό.
- Υλικό Επικάλυψης: Εύκαμπτη σιλικόνη προηγμένης μοριακής δομής για προσομοίωση της ελαστικότητας του ανθρώπινου δέρματος.
- Αισθητήρες: Κάμερες υψηλής ανάλυσης τοποθετημένες πίσω από τις κόρες των ματιών για ακριβή παρακολούθηση βλέμματος (eye-tracking).
- Μοντέλο Εκμάθησης: Variational Autoencoder (VAE) σε συνδυασμό με Facial Action Transformer.
Μηχανική προσώπου και υποκειμενική υλική συμπεριφορά
Η κατασκευή ενός προσώπου που πείθει τον ανθρώπινο εγκέφαλο απαιτεί τον συνδυασμό ελαστικών υλικών και άκαμπτων μηχανικών μερών. Στο Origin F1, οι μικρο-ενεργοποιητές εδράζονται σε έναν μεταλλικό/πολυμερικό σκελετό και συνδέονται με το συνθετικό δέρμα μέσω καλωδίων υψηλής αντοχής. Η συγκεκριμένη προσέγγιση επιτρέπει τον έλεγχο των χειλιών, των φρυδιών και των ζυγωματικών.
Κατά τη λειτουργία του, το ρομπότ διατηρεί μια ξεκάθαρη μηχανική υπόσταση. Το βάρος της κεφαλής είναι αυξημένο λόγω της πυκνότητας των κινητήρων. Σε συνθήκες απόλυτης ησυχίας, οι απότομες κινήσεις, όπως το γρήγορο ανοιγόκλεισμα των βλεφάρων, παράγουν έναν ανεπαίσθητο ήχο υψηλής συχνότητας. Επιπλέον, η συνεχής λειτουργία των μηχανισμών αυτών απαιτεί απαγωγή θερμότητας, πράγμα που σημαίνει ότι η περιοχή του κρανίου πίσω από το συνθετικό δέρμα αναπτύσσει μετρήσιμη θερμοκρασία κατά τη διάρκεια παρατεταμένων αλληλεπιδράσεων. Η υφή της σιλικόνης, αν και οπτικά εξαιρετικά αληθοφανής, διατηρεί την τυπική αντίσταση των πολυμερών κατά την αφή, διαχωρίζοντας την εμπειρία από την πραγματική ανθρώπινη επαφή.
Η ενσωμάτωση της Τεχνητής Νοημοσύνης
Ο τρόπος με τον οποίο το Origin F1 μαθαίνει να κινείται διαφοροποιείται από τις παραδοσιακές μεθόδους hardcoding. Σύμφωνα με τις προηγούμενες έρευνες του Yuhang Hu, η εκπαίδευση αυτών των συστημάτων βασίζεται στο «Visual Self-Modeling». Το ρομπότ τοποθετείται αρχικά μπροστά σε έναν καθρέφτη ή χρησιμοποιεί κάμερες για να παρακολουθεί το ίδιο του το πρόσωπο. Παράγοντας χιλιάδες τυχαίες κινήσεις των κινητήρων του, εκπαιδεύει τα νευρωνικά του δίκτυα να αντιστοιχίζουν τις μηχανικές εντολές με το οπτικό αποτέλεσμα.
Η συγκεκριμένη μέθοδος αυτο-εποπτευόμενης μάθησης επιτρέπει στο ρομπότ να αναγνωρίζει μόνο του πώς πρέπει να μετακινήσει τους κινητήρες του για να αναπαραγάγει, για παράδειγμα, ένα χαμόγελο που μόλις κατέγραψε από τον συνομιλητή του. Το μοντέλο VAE (Variational Autoencoder) αναλύει τον ήχο της ομιλίας και εξάγει αυτόματα τις σωστές τροχιές για την κίνηση των χειλιών (lip-syncing), συγχρονίζοντας τα με τα μεγάλα γλωσσικά μοντέλα (LLMs) όπως το ChatGPT ή το Gemini που τροφοδοτούν τον διάλογο.
Η πρόκληση του οπτικοακουστικού συγχρονισμού
Η αποτελεσματικότητα των ρομπότ εξαρτάται σε μεγάλο βαθμό από τον χρονισμό. Οι έρευνες καταδεικνύουν ότι η καθυστερημένη μίμηση προσώπου γίνεται αντιληπτή ως ανειλικρινής ή μηχανική. Το σύστημα του Origin F1 προσπαθεί να προβλέψει την έκφραση του συνομιλητή, αναλύοντας μικρο-κινήσεις των μυών του ανθρώπινου προσώπου, ώστε να εκτελέσει τη δική του έκφραση ταυτόχρονα. Η συνέργεια μεταξύ του Facial Action Transformer και του αλγορίθμου επεξεργασίας φυσικής γλώσσας αποτελεί τη βάση για την ομαλή ροή της αλληλεπίδρασης.
Όταν η ομιλία απαιτεί κινήσεις ακριβείας (π.χ. σύμφωνα που κλείνουν τα χείλη), η καθυστέρηση μεταξύ της αναπαραγωγής του ήχου από το ηχείο και της μηχανικής ανταπόκρισης της σιλικόνης πρέπει να διατηρείται κάτω από τα 200 χιλιοστά του δευτερολέπτου. Αυτός ο αυστηρός περιορισμός απαιτεί ισχυρούς τοπικούς επεξεργαστές και όχι αποκλειστικά εξάρτηση από cloud υποδομές.
Με τη ματιά του Techgear
Η παρουσίαση του Origin F1 από την AheadForm υπογραμμίζει τη στροφή της ρομποτικής βιομηχανίας από την αμιγή εργονομία στην ψυχολογική ενσωμάτωση. Οι αλγόριθμοι LLM προσέφεραν την ικανότητα άρτιου λόγου στις μηχανές, όμως η απουσία συνοδευτικής γλώσσας σώματος και προσώπου περιόριζε τη χρησιμότητά τους στην απλή διεκπεραίωση εντολών.
Ο Yuhang Hu αποδεικνύει ότι ο αυτόνομος συγχρονισμός χειλιών και η αυτο-εποπτευόμενη εκμάθηση μικρο-εκφράσεων είναι εφικτά τεχνολογικά. Παρόλο που οι υλικοί περιορισμοί (όπως η αντοχή του συνθετικού δέρματος και οι θερμικές απώλειες) παραμένουν, η μετάβαση από το ρομπότ-εργαλείο στο ρομπότ-συνομιλητή αποτελεί πλέον μηχανικό, και όχι θεωρητικό, ζήτημα.