OpenAI: Ακόμα πιο φυσική η φωνή του Advanced Voice Mode στο ChatGPT

Η OpenAI ανακοίνωσε μία σημαντική αναβάθμιση για το Advanced Voice Mode του ChatGPT, το οποίο έχει σχεδιαστεί για να προσφέρει μια εμπειρία φωνητικής συνομιλίας πιο κοντά στη φυσική ανθρώπινη επικοινωνία. Η λειτουργία αυτή παρουσιάστηκε για πρώτη φορά πέρυσι με την κυκλοφορία του μοντέλου GPT-4o και έχει ήδη εντυπωσιάσει με τις δυνατότητές της, ανταποκρινόμενη σε ηχητικά ερεθίσματα με μέσο χρόνο απόκρισης 320 χιλιοστών του δευτερολέπτου, σχεδόν ό,τι και ένας άνθρωπος σε συνηθισμένη συζήτηση.

Η νέα ενημέρωση, που έγινε διαθέσιμη στις 7 Ιουνίου, προσθέτει ακόμη πιο ρεαλιστικά χαρακτηριστικά στη φωνητική απόδοση του συστήματος. Συγκεκριμένα, πλέον η φωνή του ChatGPT ενσωματώνει λεπτές διακυμάνσεις στον τόνο, πιο φυσική ροή λόγου με παύσεις και έμφαση, καθώς και πιο πειστική έκφραση συναισθημάτων όπως η ενσυναίσθηση και ο σαρκασμός. Η εξέλιξη αυτή καθιστά τη συνομιλία με τον ψηφιακό βοηθό μια εμπειρία που μοιάζει όλο και περισσότερο με εκείνη ενός πραγματικού διαλόγου με άνθρωπο.

Χαρακτηριστικό παράδειγμα της εντύπωσης που προκαλεί το νέο σύστημα είναι η ανάρτηση του Shaun Ralston στο X, όπου αναφέρει ότι η νέα φωνή του ChatGPT «δεν μιλά απλώς, αλλά ερμηνεύει», σχολιάζοντας ότι μοιάζει περισσότερο με έναν άνθρωπο φίλο παρά με τεχνητή νοημοσύνη.

Μία ακόμη σημαντική προσθήκη στο Advanced Voice Mode είναι η δυνατότητα φωνητικής μετάφρασης μεταξύ διαφορετικών γλωσσών. Οι χρήστες μπορούν πλέον να ζητήσουν από το ChatGPT να μεταφράζει σε πραγματικό χρόνο καθ’ όλη τη διάρκεια μιας συνομιλίας, χωρίς να απαιτείται η χρήση ξεχωριστών εφαρμογών για μετάφραση. Η λειτουργία αυτή ενεργοποιείται με μία απλή εντολή και συνεχίζεται μέχρι ο χρήστης να ζητήσει να σταματήσει.

Αξίζει να σημειωθεί ότι η αναβαθμισμένη έκδοση του Advanced Voice Mode είναι προς το παρόν διαθέσιμη αποκλειστικά στους συνδρομητές του επί πληρωμή πακέτου του ChatGPT. Παρότι η εμπειρία χρήσης έχει βελτιωθεί σημαντικά, η OpenAI αναγνωρίζει πως υπάρχουν ακόμη ορισμένοι περιορισμοί που χρήζουν διόρθωσης.

Μεταξύ αυτών, αναφέρονται μικρές μεταβολές στην ποιότητα του ήχου, όπως απρόσμενες διαφοροποιήσεις στον τόνο ή την ένταση, κυρίως σε συγκεκριμένες επιλογές φωνής. Επιπλέον, παραμένει το ενδεχόμενο εμφάνισης σποραδικών "παραισθήσεων" του συστήματος, όπου παράγονται τυχαίοι ήχοι που θυμίζουν διαφημίσεις, ακατανόητες λέξεις ή ακόμη και μουσική υπόκρουση.

Παρά τα παραπάνω, η συνεχής εξέλιξη του Advanced Voice Mode υποδηλώνει την πρόθεση της OpenAI να οδηγήσει τη φωνητική τεχνητή νοημοσύνη σε νέα επίπεδα ρεαλισμού.

Loading