Νευρωνικό εμφύτευμα δίνει φωνή σχεδόν σε πραγματικό χρόνο

Η ικανότητα ομιλίας αποτελεί μία από τις πιο θεμελιώδεις εκφράσεις της ανθρώπινης ταυτότητας. Για άτομα που πάσχουν από σοβαρές κινητικές διαταραχές, όπως η αμυοτροφική πλευρική σκλήρυνση (ALS), η απώλεια της φωνής σηματοδοτεί πολύ περισσότερα από μια απλή δυσκολία επικοινωνίας — είναι η αποκοπή από τον κοινωνικό ιστό. Η περίπτωση του Stephen Hawking αποτελεί ίσως το πιο εμβληματικό παράδειγμα. Χρησιμοποιούσε έναν αισθητήρα στα γυαλιά του για να επικοινωνεί μέσω κινήσεων του προσώπου, με τα λόγια του να συντίθενται με χαρακτηριστικό ρομποτικό ήχο.

Ωστόσο, η τεχνολογία έχει προχωρήσει σημαντικά από τον θάνατο του Hawking το 2018. Τα τελευταία χρόνια, συσκευές διεπαφής εγκεφάλου-υπολογιστή (BCI) έχουν καταφέρει να μετατρέπουν εγκεφαλικά σήματα σε κείμενο ή και σε ομιλία. Παρόλα αυτά, τα υπάρχοντα συστήματα παρουσίαζαν προβλήματα καθυστέρησης, περιορισμένο λεξιλόγιο και αδυναμία να αποδώσουν εκφραστικά χαρακτηριστικά, όπως ο τονισμός ή η μελωδία του λόγου.

Επιστήμονες στο Πανεπιστήμιο της Καλιφόρνια, στο Davis, έκαναν ένα καθοριστικό βήμα: ανέπτυξαν ένα νευρωνικό εμφύτευμα που μπορεί να μεταφράζει απευθείας τα εγκεφαλικά σήματα σε ήχους — σε φωνήματα και λέξεις — σχεδόν ακαριαία.

Η Maitreyee Wairagkar, η οποία ηγήθηκε της έρευνας, δήλωσε πως στόχος της ομάδας ήταν η δημιουργία ενός εύκαμπτου νευροπροσθετικού συστήματος ομιλίας που θα επέτρεπε στους ασθενείς να μιλούν με φυσική ροή και να εκφράζουν συναισθήματα μέσω της φωνής τους. Για να το πετύχουν αυτό, έπρεπε να ξεπεράσουν τα περισσότερα τεχνικά εμπόδια που αντιμετώπισαν προηγούμενα BCI.

Ένα από τα βασικά προβλήματα των προηγούμενων προσεγγίσεων ήταν η εξάρτηση από το κείμενο. Αν και στο παρελθόν είχαν επιτευχθεί αξιοσημείωτα ποσοστά ακρίβειας, όπως το 97,5% σε πειράματα εγκεφάλου-προς-κείμενο, η επικοινωνία μέσω γραφής παρέμενε περιοριστική. Η έκφραση μέσα από τη φωνή είναι μοναδική: περιλαμβάνει επιφωνήματα, λέξεις εκτός λεξικού και συναισθηματικές αποχρώσεις που το γραπτό κείμενο δεν μπορεί να αποδώσει.

Έτσι, η Wairagkar και η ομάδα της σχεδίασαν ένα σύστημα που μεταφράζει άμεσα τα νευρικά σήματα σε ήχους, παρακάμπτοντας το στάδιο του κειμένου. Ο ασθενής που συμμετείχε στην έρευνα, κωδικοποιημένος ως T15, ήταν ένας 46χρονος άνδρας με σοβαρή παράλυση λόγω ALS. Είχε προηγουμένως εμφυτευτεί με 256 μικροηλεκτρόδια στον εγκέφαλό του, συγκεκριμένα στην περιοχή που ελέγχει την κίνηση των μυών του λάρυγγα και της φωνητικής οδού.

Τα δεδομένα από τους νευρώνες περνούσαν σε έναν «νευρωνικό αποκωδικοποιητή», ένα είδος τεχνητής νοημοσύνης που εξήγαγε χαρακτηριστικά της φωνής όπως ο τόνος και η φώνηση. Στη συνέχεια, αυτά τα στοιχεία διοχετεύονταν σε έναν φωνοσυνθέτη, ο οποίος αναπαρήγαγε μια φωνή παρόμοια με εκείνη που είχε ο T15 πριν χάσει την ικανότητά του να μιλά. Η όλη διαδικασία είχε καθυστέρηση μόλις 10 χιλιοστών του δευτερολέπτου — πρακτικά άμεση.

Το πλεονέκτημα αυτής της μεθόδου ήταν ότι δεν περιοριζόταν από προκαθορισμένο λεξιλόγιο. Ο ασθενής μπορούσε να εκφέρει οποιονδήποτε ήχο επιθυμούσε, ακόμη και λέξεις που δεν υπάρχουν στο λεξικό ή αυθόρμητα επιφωνήματα. Επιπλέον, μπορούσε να ανεβάζει τον τόνο στο τέλος μιας πρότασης για να σχηματίσει ερώτηση ή ακόμα και να τραγουδήσει μια μελωδία.

Ωστόσο, το σύστημα δεν είναι τέλειο. Σε πειράματα, οι συμμετέχοντες μπορούσαν να αναγνωρίσουν με απόλυτη ακρίβεια την πρόταση του ασθενούς όταν είχαν έξι επιλογές. Σε ανοιχτή ακρόαση χωρίς ενδείξεις, το ποσοστό ακρίβειας έπεφτε, με περίπου 44% των λέξεων να αναγνωρίζονται σωστά — πολύ βελτιωμένο σε σύγκριση με το μόλις 4% κατανόησης της φυσικής του ομιλίας, αλλά ακόμα ανεπαρκές για καθημερινή χρήση.

[via]

Loading