Η OpenAI φέρνει επανάσταση στην τεχνητή φωνή με το νέο μοντέλο gpt-realtime

Η OpenAI συνεχίζει να σπάει τα όρια της τεχνητής νοημοσύνης με το νέο της μοντέλο φωνής, gpt-realtime, το οποίο υπόσχεται να αλλάξει δραστικά τον τρόπο με τον οποίο αλληλεπιδρούμε με τα συστήματα AI. Πρόκειται για ένα μοντέλο που συνδυάζει μεγαλύτερη φυσικότητα, εκφραστικότητα και ακρίβεια, ενώ ταυτόχρονα προσφέρει σημαντικά χαμηλότερο κόστος σε σύγκριση με τα προηγούμενα συστήματα.

Η ανακοίνωση του gpt-realtime έρχεται σε συνέχεια της περσινής κυκλοφορίας της Realtime API, η οποία είχε ήδη ανοίξει τον δρόμο για χιλιάδες προγραμματιστές να ενσωματώσουν φυσικές φωνές στις εφαρμογές τους. Το νέο μοντέλο ανεβάζει το επίπεδο της αλληλεπίδρασης, με χαρακτηριστικά που το κάνουν να ξεχωρίζει: η φωνή ακούγεται σχεδόν αδιαχώριστη από ανθρώπινη, η εκφραστικότητα είναι αυξημένη και η ικανότητα να ακολουθεί σύνθετες οδηγίες έχει βελτιωθεί σημαντικά. Επιπλέον, η OpenAI έχει μειώσει τα σφάλματα κατά την ανάκληση των εργαλείων που χρησιμοποιεί η AI, υποστηρίζοντας με μεγαλύτερη ακρίβεια τις εντολές των προγραμματιστών και την ερμηνεία των συστημικών μηνυμάτων.

Οι τεχνολογικές βελτιώσεις συνοδεύονται και από αξιοσημείωτες επιδόσεις σε benchmarks. Στο Big Bench Audio, το gpt-realtime πέτυχε ακρίβεια 82,8%, ξεπερνώντας κατά πολύ το προηγούμενο μοντέλο που είχε φτάσει το 65,6%. Στο MultiChallenge audio benchmark η βαθμολογία ανέβηκε στο 30,5% από 20,6%, ενώ στην αξιολόγηση ComplexFuncBench σημειώθηκε άνοδος από 49,7% σε 66,5%. Τα δεδομένα αυτά καταδεικνύουν με σαφήνεια την υπεροχή του νέου μοντέλου σε σχέση με τους προκατόχους του.

Πέρα από την τεχνική υπεροχή, η OpenAI εμπλουτίζει και το οικοσύστημα φωνής με νέες επιλογές. Η γκάμα των φωνών έχει διευρυνθεί με την προσθήκη των "Marin" και "Cedar", που έρχονται να προστεθούν στις ήδη υπάρχουσες έξι φωνές, όλες αναβαθμισμένες για ακόμη πιο φυσικό και ρευστό αποτέλεσμα. Για τους προγραμματιστές, η API έχει αποκτήσει νέες δυνατότητες, όπως η υποστήριξη απομακρυσμένων servers MCP, η δυνατότητα εισαγωγής εικόνων ως input και η υποστήριξη τηλεφωνικών κλήσεων μέσω πρωτοκόλλου SIP. Ένα ακόμη πρακτικό πλεονέκτημα είναι η δυνατότητα αποθήκευσης και επαναχρησιμοποίησης prompts, γεγονός που επιταχύνει σημαντικά την εργασία.

Ίσως όμως το πιο εντυπωσιακό στοιχείο είναι η μείωση του κόστους. Η API του gpt-realtime κοστίζει περίπου 20% λιγότερο σε σχέση με το προηγούμενο gpt-4o-realtime-preview. Συγκεκριμένα, το κόστος ανέρχεται σε περίπου 29 ευρώ ανά εκατομμύριο εισερχόμενων audio tokens (και 0,37 ευρώ για cache tokens) και περίπου 59 ευρώ για ένα εκατομμύριο εξερχόμενα audio tokens. Η μείωση αυτή καθιστά το μοντέλο προσιτό σε ευρύτερο κοινό και διευκολύνει την ενσωμάτωσή του σε εφαρμογές που απαιτούν μαζική χρήση φωνής.

Με το gpt-realtime, η OpenAI φαίνεται να ανοίγει νέους δρόμους στην ανάπτυξη φυσικών φωνών για εφαρμογές AI. Οι χρήστες μπορούν πλέον να αλληλεπιδρούν με πιο ανθρώπινες φωνές, να δίνουν πολύπλοκες εντολές και να λαμβάνουν πιο ακριβείς απαντήσεις. Η αύξηση της φυσικότητας και η δυνατότητα προσαρμογής του ήχου στις ανάγκες της εφαρμογής καθιστούν το μοντέλο ιδιαίτερα χρήσιμο για εφαρμογές όπως virtual assistants, εκπαιδευτικά εργαλεία, podcasts, παιχνίδια και περιβάλλοντα εικονικής πραγματικότητας.

[via]