Σε ένα εργαστήριο του Πανεπιστημίου Columbia, μια νέα σελίδα γράφεται στην ιστορία της ρομποτικής, όχι με εντυπωσιακά άλματα ή υπεράνθρωπη δύναμη, αλλά με κάτι πολύ πιο ανθρώπινο και ταυτόχρονα εξαιρετικά δύσκολο για τις μηχανές: ένα φυσικό χαμόγελο και λέξεις που συγχρονίζονται τέλεια με την κίνηση των χειλιών. Ερευνητές παρουσίασαν το EMO, ένα ρομποτικό κεφάλι που δεν προγραμματίστηκε απλώς για να κινεί το στόμα του, αλλά έμαθε πώς να το κάνει, παρατηρώντας τον εαυτό του και τους ανθρώπους, ακριβώς όπως ένα μικρό παιδί.

Η εξέλιξη αυτή έρχεται να αντιμετωπίσει ένα από τα πιο επίμονα προβλήματα στον σχεδιασμό ανθρωποειδών. Πρόκειται για εκείνη την άβολη αίσθηση που νιώθουμε όταν βλέπουμε ένα ρομπότ να μοιάζει σχεδόν ανθρώπινο, αλλά κάτι στις εκφράσεις του –συνήθως το άκαμπτο βλέμμα ή τα ασύγχρονα χείλη– «προδίδει» την τεχνητή του φύση και προκαλεί ρίγος αντί για οικειότητα. Το EMO υπόσχεται να γεφυρώσει αυτό το χάσμα, φέρνοντας την επικοινωνία ανθρώπου-μηχανής σε ένα επίπεδο συναισθηματικής αμεσότητας που έλειπε μέχρι σήμερα.

Η εκπαίδευση στον καθρέφτη

Η καινοτομία της ομάδας του Creative Machines Lab του Columbia, με επικεφαλής τον καθηγητή Hod Lipson και τον διδακτορικό φοιτητή Yuhang Hu, δεν βρίσκεται μόνο στο αποτέλεσμα, αλλά στη μέθοδο. Αντί να γράψουν ατελείωτες γραμμές κώδικα που να υπαγορεύουν στο ρομπότ «κούνησε το χείλος 2 χιλιοστά δεξιά όταν ακούγεται το φωνήεν Α», άφησαν το ρομπότ να ανακαλύψει τη μηχανική του προσώπου του μόνο του.

Η διαδικασία θυμίζει έντονα τον τρόπο που τα βρέφη εξερευνούν τις δυνατότητές τους. Οι ερευνητές τοποθέτησαν το EMO μπροστά σε έναν καθρέφτη. Εκεί, το ρομπότ άρχισε να κάνει χιλιάδες τυχαίες γκριμάτσες, παρατηρώντας πώς η ενεργοποίηση καθενός από τους 26 μικροσκοπικούς κινητήρες που κρύβονται κάτω από το ευλύγιστο δέρμα σιλικόνης του, άλλαζε την έκφρασή του. Μέσα από αυτή τη διαδικασία αυτο-παρατήρησης, ο αλγόριθμος δημιούργησε ένα μοντέλο αντιστοίχισης όρασης και δράσης (Vision-to-Action). Έμαθε, πρακτικά, ποιο «μυϊκό» τράβηγμα δημιουργεί ένα χαμόγελο και ποιο συνοφρύωμα δείχνει λύπη.

Από την παρατήρηση στην ομιλία

Αφού κατέκτησε τον έλεγχο του προσώπου του, το επόμενο βήμα ήταν η εκμάθηση της γλώσσας του σώματος. Ο EMO «παρακολούθησε» ώρες βίντεο στο YouTube με ανθρώπους να μιλούν και να τραγουδούν. Ο στόχος δεν ήταν να καταλάβει το νόημα των λέξεων, αλλά να συνδέσει τους ήχους (φωνήματα) με τα αντίστοιχα σχήματα που παίρνουν τα ανθρώπινα χείλη.

Συνδυάζοντας αυτές τις δύο γνώσεις –πώς κινείται το δικό του πρόσωπο και πώς κινούνται τα πρόσωπα των ανθρώπων όταν παράγουν ήχο– το σύστημα τεχνητής νοημοσύνης του EMO κατάφερε να προβλέψει και να εκτελέσει τις σωστές κινήσεις των χειλιών σε πραγματικό χρόνο. Το αποτέλεσμα είναι ένας εντυπωσιακός συγχρονισμός (lip-sync), όπου το ρομπότ μπορεί να «τραγουδήσει» ή να μιλήσει σε διάφορες γλώσσες, ακόμα και αν ακούει τα συγκεκριμένα ηχητικά αποσπάσματα για πρώτη φορά.

Γιατί η μη λεκτική επικοινωνία μετράει

Μπορεί να ακούγεται ως μια απλή τεχνική βελτίωση, αλλά για τους επιστήμονες της ρομποτικής, η σωστή μίμηση των εκφράσεων είναι το κλειδί για την αποδοχή των ρομπότ στην καθημερινότητα. Όταν συνομιλούμε, το βλέμμα μας εστιάζει στα χείλη και τα μάτια του συνομιλητή μας. Ένα ανθρωποειδές που μιλάει με «παγωμένο» πρόσωπο ή με το στόμα να ανοιγοκλείνει σαν μαριονέτα, δημιουργεί ψυχολογική απόσταση.

Όπως επισημαίνει ο καθηγητής Lipson, παρόλο που η βιομηχανία έχει εστιάσει στη δημιουργία ρομπότ που περπατούν ή σηκώνουν βάρη, η έκφραση του προσώπου είναι εξίσου κρίσιμη, ειδικά για ρόλους που απαιτούν αλληλεπίδραση, όπως στην εκπαίδευση, τη φροντίδα ηλικιωμένων ή την παροχή υπηρεσιών. «Υπάρχει κάτι μαγικό όταν βλέπεις ένα ρομπότ να σου χαμογελάει αυθόρμητα», αναφέρει χαρακτηριστικά, τονίζοντας πως ακόμα και ένας έμπειρος ρομποτιστής σαν τον ίδιο δεν μπορεί παρά να αντιδράσει συναισθηματικά σε μια τέτοια κίνηση.

Το μέλλον της αλληλεπίδρασης και οι περιορισμοί

Φυσικά, η τεχνολογία δεν έχει φτάσει ακόμη στην τελειότητα. Το EMO εξακολουθεί να δυσκολεύεται με ορισμένους φθόγγους που απαιτούν έντονη σύσπαση των χειλιών, όπως το «Μπ» (B) ή το «Γου» (W), κάτι που προδίδει ότι έχουμε ακόμα δρόμο μπροστά μας. Ωστόσο, η ικανότητα του συστήματος να μαθαίνει και να βελτιώνεται συνεχώς αφήνει υποσχέσεις για γρήγορη εξέλιξη.

Το πραγματικό άλμα, όμως, θα έρθει με την ενσωμάτωση αυτής της τεχνολογίας στα μεγάλα γλωσσικά μοντέλα (LLMs), όπως το ChatGPT ή το Gemini. Φανταστείτε έναν ψηφιακό βοηθό που δεν σας δίνει απλώς την πληροφορία με μια μονότονη φωνή, αλλά σας κοιτάζει, χαμογελάει στις αστείες απαντήσεις και παίρνει σοβαρή έκφραση όταν συζητάτε κάτι σημαντικό.

Ο Yuhang Hu, επικεφαλής της μελέτης, εξηγεί πως όσο περισσότερο το ρομπότ αλληλεπιδρά με ανθρώπους, τόσο πιο φυσικές και περίπλοκες θα γίνονται οι εκφράσεις του. Στο μέλλον, τα ρομπότ δεν θα είναι απλώς μηχανές που εκτελούν εντολές, αλλά σύντροφοι ικανοί να χτίσουν μια μορφή συναισθηματικής γέφυρας με τον χρήστη.

Η έρευνα ανοίγει τον δρόμο για μια γενιά ανθρωποειδών που δεν θα προσπαθούν απλώς να μας μοιάσουν εξωτερικά, αλλά θα κατανοούν και θα αναπαράγουν τον θεμελιώδη κώδικα της ανθρώπινης επικοινωνίας: την έκφραση.