Τεχνολογία μετατροπής εικόνας σε ήχο επιτρέπει σε τυφλούς να αναγνωρίζουν πρόσωπα

Σε μια ενδιαφέρουσα έρευνα, μια ομάδα νευρολόγων έδειξε ότι οι τυφλοί άνθρωποι αναγνωρίζουν τα πρόσωπα χρησιμοποιώντας τις ίδιες περιοχές του εγκεφάλου με αυτούς που βλέπουν - ακόμη και αν τα σχήματα των προσώπων τους μεταφέρονται ως ήχοι και όχι μέσω του οπτικού φλοιού.

Η ικανότητα να αναγνωρίζουμε πρόσωπα είναι βαθιά ριζωμένη μέσα μας - όπως και σε κάποια από τα μακρινά, κοινωνικά προσανατολισμένα πρωτεύοντα ξαδέλφια μας. Φαίνεται μάλιστα ότι υπάρχουν περιοχές στον εγκέφαλο - συγκεκριμένα, ένα σημείο στο κάτω μέρος του εγκεφάλου στον κατώτερο κροταφικό φλοιό που ονομάζεται Fusiform Face Area ή FFA - το οποίο ενεργοποιείται ειδικά όταν βλέπουμε πρόσωπα.

Περιέργως, σε μελέτη του 2009 διαπιστώθηκε επίσης ότι η FFA ενεργοποιείται ακόμη και όταν οι άνθρωποι βλέπουν πράγματα που μοιάζουν ελαφρώς με πρόσωπα (παρειδωλία), όταν για παράδειγμα βλέπουμε πρόσωπα σε άψυχα αντικείμενα. Η ίδια περιοχή αρχίζει επίσης να ενεργοποιείται όταν οι άνθρωποι αρχίζουν να αναπτύσσουν εξειδίκευση σε έναν συγκεκριμένο τομέα, όπως για παράδειγμα, όταν οι φανατικοί των αυτοκινήτων ξεχωρίζουν διαφορετικά μοντέλα με μια ματιά, ή όταν οι ειδικοί στο σκάκι αναγνωρίζουν μια οικεία διάταξη στη σκακιέρα.

Είναι αξιοσημείωτο το γεγονός ότι η FFA ανταποκρίνεται και σε άτομα που είναι τυφλά από τη γέννησή τους. Η έρευνα του ΜΙΤ το 2020 τοποθέτησε τυφλά άτομα σε μαγνητικό τομογράφο και τα έβαλε να ψηλαφίσουν μια ποικιλία τρισδιάστατα εκτυπωμένων σχημάτων, όπως πρόσωπα, χέρια, καρέκλες και λαβύρινθους, και διαπίστωσε ότι το άγγιγμα αυτών των μικρών προσώπων ενεργοποιούσε την FFA με παρόμοιο τρόπο.

Κατά κάποιο τρόπο, λοιπόν, φαίνεται ότι η FFA δεν ενδιαφέρεται για το ποιο αισθητήριο σύστημα την τροφοδοτεί με πληροφορίες που σχετίζονται με το πρόσωπο - και η νέα έρευνα από μια ομάδα νευροεπιστημόνων του Ιατρικού Κέντρου του Πανεπιστημίου Georgetown προσθέτει νέα στοιχεία σε αυτή την υπόθεση. Η ομάδα επέλεξε έξι τυφλούς και 10 βλέποντες και άρχισε να τους εκπαιδεύει με μια "συσκευή αισθητηριακής υποκατάστασης". Αυτή περιλαμβάνει μια κάμερα που τοποθετείται στο κεφάλι, φακούς για τα μάτια, ακουστικά και έναν υπολογιστή που επεξεργάζεται τα δεδομένα από την κάμερα και τα μετατρέπει σε ήχο, κατανέμοντας το οπτικό πεδίο σε ένα πλέγμα 64 pixel και δίνοντας σε κάθε pixel το δικό του ακουστικό βήμα.

Αυτά τα ακουστικά βήµατα προβλήθηκαν σε ένα στερεοφωνικό ηχητικό περιβάλλον, έτσι ώστε «αν η εικόνα είναι απλώς µια κουκίδα που βρίσκεται στην ανώτερη δεξιά γωνία του οπτικού πεδίου της κάµερας, ο σχετικός ήχος θα είναι υψηλής συχνότητας και θα µεταδίδεται κυρίως µέσω του δεξιού ακουστικού. Εάν η κουκκίδα βρίσκεται στο πάνω μέσο του οπτικού πεδίου, ο ήχος θα είναι υψηλής συχνότητας, αλλά θα παραδίδεται μέσω των δεξιών και αριστερών ακουστικών με την ίδια ένταση. Εάν η εικόνα είναι μια γραμμή στην κάτω αριστερή γωνία, ο σχετικός ήχος θα είναι ένα μείγμα χαμηλών συχνοτήτων που θα παραδίδεται κυρίως μέσω του αριστερού ακουστικού».

Οι εξεταζόμενοι πραγματοποίησαν 10 ωριαίες συνεδρίες εκπαίδευσης με αυτές τις συσκευές, μαθαίνοντας να "βλέπουν" με τα αυτιά τους, ενώ παράλληλα κινούσαν το κεφάλι τους. Στις κάρτες παρουσιάζονταν απλά σχήματα: οριζόντιες και κάθετες γραμμές, σπίτια διαφορετικού σχήματος, γεωμετρικά σχήματα και βασικά, τύπου emoji, χαρούμενα και λυπημένα πρόσωπα. Ήταν μια αρκετά δύσκολη διαδικασία εκπαίδευσης, αλλά στο τέλος της, όλα τα υποκείμενα αναγνώριζαν απλά σχήματα με ακρίβεια μεγαλύτερη από 85%.

Όταν υποβλήθηκαν σε δοκιμασία αναγνώρισης σχήματος σε μηχάνημα μαγνητικής τομογραφίας, τόσο τα βλέποντα όσο και τα τυφλά άτομα έδειξαν να ενεργοποιούν την FFA όταν παρουσιάστηκε ένα βασικό σχήμα προσώπου. Ορισμένοι τυφλοί συμμετέχοντες ήταν επίσης σε θέση να αναγνωρίσουν σωστά αν το πρόσωπο ήταν ένα χαρούμενο ή λυπημένο πρόσωπο.

«Τα αποτελέσματά μας από ανθρώπους που είναι τυφλοί υποδηλώνουν ότι η ανάπτυξη της FFA δεν εξαρτάται από την οπτική εμπειρία με πραγματικά πρόσωπα, αλλά από την έκθεση στη γεωμετρία των διαμορφώσεων του προσώπου, η οποία μπορεί να μεταδοθεί από άλλες αισθητηριακές λειτουργίες», αναφέρει ο Josef Rauschecker, PhD, DSc, καθηγητής Νευρολογίας και κύριος συγγραφέας της έρευνας. Η ομάδα επισήμανε ακόμη ότι τα άτομα με όραση παρουσίαζαν ενεργοποίηση κυρίως στη δεξιά περιοχή του FFA, ενώ τα τυφλά άτομα στην αριστερή.

«Πιστεύουμε ότι η διαφορά αριστερά/δεξιά μεταξύ των ανθρώπων που είναι και δεν είναι τυφλοί μπορεί να έχει να κάνει με τον τρόπο με τον οποίο η αριστερή και η δεξιά πλευρά της περιοχής FFA επεξεργάζεται τα πρόσωπα - είτε ως συνδεδεμένα μοτίβα είτε ως ξεχωριστά μέρη, κάτι που μπορεί να είναι ένα σημαντικό στοιχείο που θα μας βοηθήσει να βελτιώσουμε τη συσκευή αισθητηριακής υποκατάστασης», λέει ο Rauschecker.

Οι ερευνητές θέλουν να συνεχίσουν τα πειράματα, αναπτύσσοντας ενδεχομένως μια συσκευή αισθητηριακής υποκατάστασης υψηλότερης ανάλυσης, η οποία θα μπορούσε τελικά να επιτρέψει σε καλά εκπαιδευμένα άτομα να αναγνωρίζουν πραγματικά ανθρώπινα πρόσωπα. Ωστόσο, συσκευές που μεταφράζουν τις εικόνες σε ήχο, όπως αυτή, είναι μάλλον απίθανο να φανούν χρήσιμες στην πράξη - αφενός λόγω της απαιτούμενης εκπαίδευσης και αφετέρου επειδή οι τυφλοί βασίζονται ήδη σε μεγάλο βαθμό στην ακοή τους και είναι απίθανο να θέλουν επιπλέον ήχους που θα διαταράξουν την αντίληψή τους για τον κόσμο.

Επιπλέον, με την εξέλιξη της πολυεπίπεδης τεχνητής νοημοσύνης υπάρχουν ήδη συστήματα που επιτρέπουν στα γλωσσικά μοντέλα τύπου GPT να εξετάζουν εικόνες ή βίντεο και να περιγράφουν τι συμβαίνει σε πολύ υψηλό επίπεδο λεπτομέρειας.

[via]

Loading