Τρία νέα μοντέλα φωνής από την OpenAI για φυσικές αλληλεπιδράσεις με την AI

Σύνοψη

Κυκλοφορία τριών νέων φωνητικών μοντέλων: GPT-Realtime-2, Translate και Whisper για προγραμματιστές.
Το GPT-Realtime-2 υποστηρίζει παράλληλη κλήση εργαλείων (parallel tool calls), έλεγχο τόνου φωνής και προσαρμόσιμη προσπάθεια συλλογισμού.
Αναβάθμιση του context window στα 128.000 tokens για την αποθήκευση και κατανόηση τεράστιου ιστορικού συνομιλίας.
Το GPT-Realtime-Translate εκτελεί ζωντανή μετάφραση διατηρώντας το νόημα και τις τοπικές προφορές από 70+ γλώσσες.

Η OpenAI επεκτείνει τις δυνατότητες των προγραμματιστών με την κυκλοφορία τριών νέων μοντέλων φωνής πραγματικού χρόνου, τα οποία είναι πλέον διαθέσιμα μέσω του API της εταιρείας. Οι νέες προσθήκες στο οικοσύστημα της τεχνητής νοημοσύνης – GPT-Realtime-2, GPT-Realtime-Translate και GPT-Realtime-Whisper – στοχεύουν στην κάθετη αναβάθμιση των συστημάτων φωνητικής αλληλεπίδρασης. Ο στόχος είναι η παροχή χαμηλότερου latency, προηγμένων δυνατοτήτων συλλογισμού (reasoning) και εξειδικευμένων εργαλείων μετάφρασης, απευθυνόμενα σε developers που χτίζουν την επόμενη γενιά voice agents.

Συγκεκριμένα, το GPT-Realtime-2 προορίζεται για φυσικές φωνητικές αλληλεπιδράσεις με ενισχυμένο reasoning και 128K context, το GPT-Realtime-Translate για ζωντανή μετάφραση από 70 σε 13 γλώσσες, και το GPT-Realtime-Whisper για ταχύτατη απομαγνητοφώνηση (speech-to-text) με εξαιρετικά χαμηλό latency.

GPT-Realtime-2: Η νέα βάση για τους Voice Agents

Το πλέον σημαντικό μοντέλο της ανακοίνωσης είναι το GPT-Realtime-2. Έχει δομηθεί αποκλειστικά για ζωντανές φωνητικές εφαρμογές, επιτρέποντας στο μοντέλο να αναλύει τα αιτήματα του χρήστη, να εκτελεί κλήσεις σε εξωτερικά εργαλεία, να διαχειρίζεται διορθώσεις on-the-fly και να διατηρεί τη φυσική ροή της συζήτησης.

Οι σημαντικότερες τεχνικές αναβαθμίσεις περιλαμβάνουν:

Προοίμια: Το μοντέλο μπορεί πλέον να αρθρώνει σύντομες, φυσικές φράσεις όπως «δώσε μου ένα δευτερόλεπτο να το ελέγξω» πριν την εκτέλεση μιας βαριάς υπολογιστικής εργασίας, εξαλείφοντας τις αμήχανες παύσεις.
Παράλληλη κλήση εργαλείων: Μπορεί να ενεργοποιήσει ταυτόχρονα πολλαπλά εξωτερικά APIs (π.χ. έλεγχος καιρού και κράτηση εισιτηρίου) ενημερώνοντας ταυτόχρονα τον χρήστη για τη διαδικασία.
Ενισχυμένη ανάκαμψη: Διαχειρίζεται τα σφάλματα συστήματος με εξαιρετική ομαλότητα αντί να καταρρέει αθόρυβα.
Διευρυμένο πλαίσιο: Η χωρητικότητα μνήμης της συνεδρίας αυξήθηκε δραματικά από τα 32K στα 128K tokens, επιτρέποντας στο μοντέλο να θυμάται λεπτομέρειες από συνεδρίες διάρκειας πολλών ωρών.
Έλεγχος τόνου: Οι προγραμματιστές μπορούν να καθορίσουν το ύφος ομιλίας ανάλογα με την περίσταση (π.χ. αυστηρό επαγγελματικό ύφος για νομικά ζητήματα ή χαλαρό για υποστήριξη gaming).
Ρυθμιζόμενη προσπάθεια συλλογισμού: Δυνατότητα επιλογής μεταξύ minimal, low, medium, high και xhigh reasoning, ανάλογα με την πολυπλοκότητα της ερώτησης και το επιθυμητό latency.

Η διαφορά στην απόδοση αποτυπώνεται καθαρά στα επίσημα benchmarks. Το GPT-Realtime-2 με ρύθμιση «high reasoning» πέτυχε σκορ 96.6% στη σουίτα αξιολόγησης Big Bench Audio, αφήνοντας πίσω το 81.4% της προηγούμενης έκδοσης (GPT-Realtime-1.5). Στη δοκιμασία Audio MultiChallenge (instruction following), το νέο μοντέλο άγγιξε το 48.5% (με xhigh reasoning) έναντι 34.7%.

Ζωντανή μετάφραση και απομαγνητοφώνηση με τα Translate και Whisper

Το οικοσύστημα συμπληρώνεται από δύο εξειδικευμένα μοντέλα. Το GPT-Realtime-Translate έχει αναπτυχθεί ειδικά για πολύπλοκες εμπειρίες φωνής σε πραγματικό χρόνο. Αναλαμβάνει την απευθείας μετάφραση ομιλίας από περισσότερες από 70 γλώσσες εισόδου (συμπεριλαμβανομένης της ελληνικής) σε 13 βασικές γλώσσες εξόδου. Η τεχνική του υπεροχή έγκειται στην ικανότητα να διατηρεί το αυθεντικό νόημα προσαρμόζοντας την ταχύτητα στον ομιλητή, αναγνωρίζοντας τοπικές προφορές, αργκό και εξειδικευμένο λεξιλόγιο.

Το GPT-Realtime-Whisper αποτελεί ένα μοντέλο απομαγνητοφώνησης σχεδιασμένο για μηδενικές καθυστερήσεις. Μετατρέπει τον ήχο σε κείμενο ακριβώς τη στιγμή που ο χρήστης μιλάει. Η λειτουργία του είναι ιδανική για υπότιτλους σε πραγματικό χρόνο σε τηλεδιασκέψεις, καταγραφή πρακτικών εταιρικών συναντήσεων και εκπαιδευτικές εφαρμογές σε ζωντανό χρόνο.

Τιμολογιακή πολιτική και διαθεσιμότητα

Η εμπορική διάθεση των τριών μοντέλων έχει ήδη ξεκινήσει μέσω του Realtime API της OpenAI, με τους developers να έχουν τη δυνατότητα δοκιμών στο περιβάλλον του Playground. Το δομικό κόστος για το GPT-Realtime-2 διαμορφώνεται στα $32 ανά 1 εκατομμύριο audio input tokens, $0.40 για τα cached input tokens (τα οποία μειώνουν δραστικά το κόστος για επαναλαμβανόμενες κλήσεις) και $64 ανά 1 εκατομμύριο audio output tokens. Το GPT-Realtime-Translate χρεώνεται με $0.034 ανά λεπτό χρήσης, ενώ το ελαφρύτερο Whisper κοστίζει $0.017 ανά λεπτό.

Όσον αφορά τους τελικούς καταναλωτές, η OpenAI ανακοίνωσε πως η ενσωμάτωση των νέων τεχνολογιών στην εφαρμογή του ChatGPT βρίσκεται στο στάδιο της υλοποίησης και αναμένεται σύντομα.

*Μπορείτε πλέον να προσθέσετε το Techgear.gr ως Προτιμώμενη Πηγή ενημέρωσης για τις αναζητήσεις σας στο Google Search!