Η Broadcom ανακοίνωσε ένα νέο AI chipset που υπόσχεται να αλλάξει ριζικά τον τρόπο με τον οποίο οι συσκευές μας κατανοούν, μεταφράζουν και περιγράφουν τον ήχο. Σε συνεργασία με την εταιρεία CAMB.AI, ο τεχνολογικός κολοσσός παρουσίασε ένα σύστημα που πραγματοποιεί μετάφραση και περιγραφή ήχου απευθείας πάνω στη συσκευή, χωρίς καμία ανάγκη για σύνδεση με το cloud. Μια εξέλιξη που, αν λειτουργήσει όπως υπόσχεται, θα μπορούσε να σηματοδοτήσει μια νέα εποχή στην προσβασιμότητα και στη διαχείριση δεδομένων με σεβασμό στην ιδιωτικότητα.
Η βασική ιδέα πίσω από το νέο σύστημα είναι απλή, αλλά επαναστατική: όλη η επεξεργασία ήχου και μετάφρασης πραγματοποιείται τοπικά, στο ίδιο το SoC (System-on-a-Chip), χωρίς να απαιτείται αποστολή δεδομένων σε απομακρυσμένους servers. Αυτό σημαίνει δύο πράγματα: πρώτον, η καθυστέρηση στη μετάδοση (latency) σχεδόν εξαφανίζεται, και δεύτερον, τα δεδομένα του χρήστη δεν φεύγουν ποτέ από τη συσκευή. Με άλλα λόγια, η τεχνολογία υπόσχεται ταχύτητα και ασφάλεια, δύο στοιχεία που συνήθως θυσιάζονται το ένα για το άλλο.
Η Broadcom και η CAMB.AI επισημαίνουν ότι η λύση αυτή μπορεί να χρησιμοποιηθεί σε ευρύ φάσμα εφαρμογών, από μεταφράσεις και αυτόματο dubbing σε ταινίες ή βίντεο, μέχρι περιγραφές εικόνων για ανθρώπους με προβλήματα όρασης. Σε μια εντυπωσιακή επίδειξη, οι εταιρείες παρουσίασαν ένα demo βασισμένο σε σκηνή από το Ratatouille της Pixar, όπου το AI περιγράφει λεπτομερώς τη δράση σε διάφορες γλώσσες, ενώ ταυτόχρονα εμφανίζονται υπότιτλοι στην οθόνη. Το αποτέλεσμα, αν και προϊόν επεξεργασμένου δείγματος, δείχνει ξεκάθαρα το δυναμικό μιας τεχνολογίας που θα μπορούσε να κάνει τις ψηφιακές εμπειρίες πιο προσιτές σε εκατομμύρια ανθρώπους με αναπηρίες όρασης ή ακοής.
Πέρα από την εντυπωσιακή επίδειξη, ωστόσο, υπάρχουν ακόμη πολλά ερωτήματα. Το demo ήταν προσεκτικά ελεγχόμενο και προετοιμασμένο, με αρκετές παύσεις και επεξεργασία, οπότε κανείς δεν γνωρίζει πώς θα συμπεριφερθεί η τεχνολογία σε πραγματικές συνθήκες, όπως ζωντανές μεταδόσεις ή τηλεδιασκέψεις. Εξίσου ασαφές παραμένει και το πόσο ακριβής μπορεί να είναι η αυτόματη μετάφραση σε πραγματικό χρόνο, ειδικά σε πιο πολύπλοκες γλώσσες ή σε περιβάλλοντα με θόρυβο.
Παρ’ όλα αυτά, η τεχνολογία βασίζεται σε ένα φωνητικό μοντέλο που ήδη χρησιμοποιείται από οργανισμούς όπως το NASCAR, το Comcast και το Eurovision, κάτι που δείχνει ότι υπάρχει ήδη ένα επίπεδο αξιοπιστίας και εμπορικής ωριμότητας. Οι δύο εταιρείες υποστηρίζουν ότι το chipset υποστηρίζει “on-device translation” σε περισσότερες από 150 γλώσσες, αν και δεν έχουν αποκαλύψει ακόμη λεπτομέρειες για την ποιότητα ή τη μέθοδο εκπαίδευσης του μοντέλου.
Η δυνατότητα εκτέλεσης τέτοιων διαδικασιών χωρίς σύνδεση στο cloud δεν έχει μόνο τεχνικό ενδιαφέρον, αλλά και στρατηγική σημασία. Οι χρήστες αποκτούν μεγαλύτερο έλεγχο στα δεδομένα τους, αφού το μικρόφωνο και οι φωνητικές εντολές δεν χρειάζεται να αποστέλλονται σε τρίτους. Παράλληλα, η εξάρτηση από δίκτυα μειώνεται, κάτι που σημαίνει λιγότερη κατανάλωση εύρους ζώνης (bandwidth) και καλύτερες επιδόσεις σε περιοχές με αδύναμο σήμα ή χαμηλή συνδεσιμότητα.
Αν επιβεβαιωθούν οι υποσχέσεις, το νέο chipset θα μπορούσε να αλλάξει τον τρόπο με τον οποίο λειτουργούν τα “έξυπνα” ακουστικά, τα κινητά τηλέφωνα, οι τηλεοράσεις ή ακόμη και οι συσκευές αυτοκινήτου. Σκεφτείτε ένα smartphone που μεταφράζει ζωντανά μια συνομιλία χωρίς σύνδεση στο διαδίκτυο ή μια τηλεόραση που μπορεί να περιγράψει το τι συμβαίνει στην οθόνη σε κάποιον που δεν βλέπει καλά, και όλα αυτά χωρίς να αποστέλλονται δεδομένα σε server.
Αυτή η προσέγγιση φαίνεται να εναρμονίζεται και με τη γενικότερη στρατηγική της Broadcom, η οποία επενδύει ολοένα και περισσότερο στη δημιουργία εξειδικευμένων chipsets για εφαρμογές AI. Μόλις πρόσφατα, η εταιρεία ανακοίνωσε συνεργασία με την OpenAI, με στόχο την κατασκευή chips σχεδιασμένων αποκλειστικά για τη λειτουργία μεγάλων γλωσσικών μοντέλων. Η νέα συνεργασία με την CAMB.AI φαίνεται να επεκτείνει αυτή τη φιλοσοφία, φέρνοντας τις δυνατότητες της τεχνητής νοημοσύνης ακόμη πιο κοντά στον τελικό χρήστη — κυριολεκτικά μέσα στη συσκευή του.
Προς το παρόν, η τεχνολογία βρίσκεται ακόμη σε φάση δοκιμών και δεν υπάρχει χρονοδιάγραμμα για το πότε θα αρχίσουμε να βλέπουμε τα νέα chipsets σε εμπορικά προϊόντα, όπως τηλεοράσεις ή κινητά.
[source]