Αναγνώριση τραγουδιών μέσω ChatGPT: Η νέα λειτουργία φωνητικών εντολών στο iOS

Σύνοψη

  • Η OpenAI ενσωμάτωσε δυνατότητες αναγνώρισης μουσικής απευθείας στην εφαρμογή του ChatGPT για λειτουργικές συσκευές iOS.
  • Η τεχνολογία βασίζεται εξ ολοκλήρου στο API του Shazam, το οποίο ανήκει στην Apple, καταργώντας την ανάγκη μετάβασης σε ξεχωριστή εφαρμογή.
  • Οι χρήστες αλληλεπιδρούν μέσω του Advanced Voice Mode, κάνοντας απλές ερωτήσεις όπως «Ποιο τραγούδι παίζει τώρα;».
  • Τα αποτελέσματα (καλλιτέχνης, τίτλος, σύνδεσμοι) ενσωματώνονται ως κείμενο στο ιστορικό της συνομιλίας για μελλοντική αναφορά.
  • Πρόκειται ουσιαστικά για ένα περιβάλλον διεπαφής της τεχνητής νοημοσύνης πάνω από μια καθιερωμένη βάση δεδομένων, δείχνοντας την τάση των LLMs να λειτουργούν ως κεντρικοί κόμβοι εργαλείων.

Το ChatGPT ως κεντρικός κόμβος: Η ενσωμάτωση του Shazam

Η εξέλιξη των εφαρμογών τεχνητής νοημοσύνης μετατοπίζεται ταχύτατα από τα απλά μοντέλα παραγωγής κειμένου σε πολυδύναμους ψηφιακούς βοηθούς που αλληλεπιδρούν με το φυσικό περιβάλλον. Η OpenAI προχώρησε στην αναβάθμιση της εφαρμογής του ChatGPT για συσκευές iOS, προσθέτοντας μια θεμελιώδη λειτουργία που μέχρι πρότινος απαιτούσε τη χρήση εξωτερικού λογισμικού: την αναγνώριση μουσικής.

Πώς το ChatGPT αναγνωρίζει μουσική στο iOS;

Η εφαρμογή του ChatGPT για iOS χρησιμοποιεί πλέον το API του Shazam για να εντοπίζει τραγούδια που ακούγονται στο περιβάλλον. Μέσω του Advanced Voice Mode, ο χρήστης ρωτά φωνητικά ποιο κομμάτι παίζει, το σύστημα καταγράφει τον ήχο, τον αναλύει μέσω της βάσης δεδομένων του Shazam και επιστρέφει άμεσα τον τίτλο και τον καλλιτέχνη μέσα στο περιβάλλον της συνομιλίας.

Η τεχνική υλοποίηση και το οικοσύστημα της Apple

Αντί να αναπτύξει έναν δικό της αλγόριθμο αναγνώρισης ακουστικών αποτυπωμάτων, η OpenAI επέλεξε τον πιο ορθολογικό δρόμο: τη χρήση του API του Shazam, μιας υπηρεσίας που έχει εξαγοραστεί από την Apple από το 2018. Όταν ο χρήστης ενεργοποιεί το Voice Mode του ChatGPT (το εικονίδιο με την κυματομορφή φωνής) και κάνει μια σχετική ερώτηση, η εφαρμογή "ακούει" παθητικά τον περιβάλλοντα ήχο.

Τα δεδομένα αυτά τροφοδοτούνται στο API του Shazam. Μόλις βρεθεί η αντιστοιχία, το αποτέλεσμα δεν εμφανίζεται απλώς ως ένα αναδυόμενο παράθυρο (pop-up), αλλά περνάει στο νευρωνικό δίκτυο του ChatGPT, το οποίο διαμορφώνει μια φυσική, προφορική απάντηση. Παράλληλα, οι πληροφορίες του τραγουδιού αποθηκεύονται σε μορφή κειμένου στο ιστορικό των συνομιλιών του χρήστη, προσφέροντας ένα πλεονέκτημα σε σχέση με την παροδική φύση των απλών φωνητικών βοηθών.

Η εμπειρία χρήσης (UX): Οικοσύστημα vs αυτόνομη εφαρμογή

Η συγκεκριμένη υλοποίηση εγείρει το ερώτημα της πρακτικότητας. Το iOS διαθέτει ήδη ενσωματωμένο το Shazam στο Control Center, επιτρέποντας την αναγνώριση τραγουδιών με ένα απλό σύρσιμο της οθόνης προς τα κάτω και ένα πάτημα, ακόμα και από την οθόνη κλειδώματος. Η διαδικασία του να ξεκλειδώσει κάποιος το τηλέφωνο, να ανοίξει το ChatGPT, να ενεργοποιήσει το Voice Mode και να μιλήσει, απαιτεί περισσότερα βήματα.

Ωστόσο, η αξία αυτής της ενσωμάτωσης δεν έγκειται στην ταχύτητα, αλλά στη συγκέντρωση των εργασιών. Όσοι χρήστες βρίσκονται ήδη μέσα στην εφαρμογή του ChatGPT δουλεύοντας ή συνομιλώντας με την τεχνητή νοημοσύνη, δεν χρειάζεται να διακόψουν τη ροή εργασίας τους για να ανοίξουν μια δεύτερη εφαρμογή. Επιπλέον, ανοίγει ο δρόμος για σύνθετες εντολές. Ο χρήστης μπορεί να ρωτήσει: "Ποιο είναι αυτό το τραγούδι;" και αμέσως μετά να συνεχίσει τη συνομιλία ζητώντας από το ChatGPT: "Βρες μου τις μεταφρασμένες στους στίχους στα ελληνικά" ή "Πρότεινέ μου 5 παρόμοια κομμάτια από την ίδια δεκαετία". Η αλυσίδα των πληροφοριών παραμένει αδιάσπαστη.

Ο ανταγωνισμός και τα επόμενα βήματα των AI Agents

Η κίνηση της OpenAI αποτελεί μια ξεκάθαρη απάντηση στις δυνατότητες που προσφέρουν ήδη τα λειτουργικά συστήματα της Google (Android) με την ενσωμάτωση του Google Assistant και πλέον του Gemini, τα οποία αναγνωρίζουν μουσική εγγενώς εδώ και χρόνια. Η τεχνητή νοημοσύνη μεταβαίνει από ένα απλό "chatbot" σε έναν "πράκτορα" που αντιλαμβάνεται τον κόσμο μέσω μικροφώνων και καμερών.

Αυτή η ενσωμάτωση λειτουργεί και ως προπομπός για την ευρύτερη συνεργασία μεταξύ Apple και OpenAI. Με το Apple Intelligence να ενσωματώνει σταδιακά το ChatGPT απευθείας στον πυρήνα του iOS 18, βλέπουμε τα πρώτα δείγματα μιας στρατηγικής όπου το ChatGPT θα καλεί εξωτερικά APIs για να φέρει εις πέρας συγκεκριμένες εργασίες, λειτουργώντας ως ένας κεντρικός εγκέφαλος (orchestrator) που αναθέτει εντολές σε εξειδικευμένα υποσυστήματα.

Ελληνική αγορά και διαθεσιμότητα

Για τους Έλληνες χρήστες iOS, η λειτουργία είναι άμεσα αξιοποιήσιμη, καθώς το API του Shazam καλύπτει πλήρως την ελληνική και διεθνή δισκογραφία. Η ενημέρωση δεν απαιτεί ξεχωριστή ρύθμιση ή αλλαγή περιοχής στο App Store, αρκεί η εγκατάσταση της τελευταίας έκδοσης του ChatGPT. Αρχικά, οι λειτουργίες του Advanced Voice Mode δοκιμάζονται εντατικότερα στους συνδρομητές των πακέτων Plus και Team, αλλά η χρήση βασικών API όπως η αναγνώριση μουσικής αναμένεται να είναι προσβάσιμη και στους χρήστες του δωρεάν πακέτου, ακολουθώντας την τυπική πολιτική κλιμακωτής διάθεσης της εταιρείας.

Loading