Η Microsoft εισέρχεται ξανά στο προσκήνιο της τεχνητής νοημοσύνης, αυτή τη φορά παρουσιάζοντας τα δικά της AI μοντέλα, ανεξάρτητα από την εξάρτησή της από την OpenAI και το δημοφιλές ChatGPT. Η εταιρεία, που διατηρεί μια σύνθετη αλλά συνεχιζόμενη συνεργασία με την OpenAI, αποκτά πλέον τη δυνατότητα να δημιουργεί δικά της εργαλεία AI, δίνοντας νέα δυναμική στον ανταγωνισμό στον χώρο της τεχνολογίας.
Το τμήμα ανάπτυξης AI της Microsoft αποκάλυψε δύο νέα συστήματα: το MAI-Voice-1 και το MAI-1-preview. Το MAI-Voice-1 αποτελεί το αστέρι της παρουσίασης, ένα μοντέλο φωνής ικανό να παράγει ένα λεπτό ήχου σε λιγότερο από ένα δευτερόλεπτο, χρησιμοποιώντας μόλις μια GPU. Η ποιότητα του ήχου είναι εντυπωσιακή και σχεδόν αδύνατο να διακριθεί από πραγματική ανθρώπινη ομιλία, γεγονός που εγείρει ερωτήματα για την αντικατάσταση της ανθρώπινης δημιουργικότητας από την τεχνητή νοημοσύνη.
Η Microsoft δεν χάνει χρόνο, καθώς το MAI-Voice-1 ήδη χρησιμοποιείται στην υπηρεσία Copilot Daily, όπου ένας AI παρουσιαστής αναγγέλλει τις τελευταίες ειδήσεις. Παράλληλα, χρησιμοποιείται για τη δημιουργία συνομιλιών σε στυλ podcast, εξηγώντας σύνθετα θέματα με φυσικό και κατανοητό τρόπο. Οι χρήστες μπορούν να δοκιμάσουν το μοντέλο μέσα από το Copilot Labs, όπου μπορούν να εισάγουν το κείμενο που θέλουν να μετατραπεί σε ομιλία, να προσαρμόσουν τη φωνή και να αλλάξουν το ύφος της ομιλίας.
Το δεύτερο μοντέλο, MAI-1-preview, δεν αφορά τη φωνή αλλά το κείμενο. Εκπαιδεύτηκε με περίπου 15.000 Nvidia H100 GPUs και έχει σχεδιαστεί για να ακολουθεί οδηγίες και να παρέχει χρήσιμες απαντήσεις σε καθημερινά ερωτήματα. Η Microsoft σκοπεύει να ενσωματώσει το MAI-1-preview στο Copilot για συγκεκριμένες εργασίες κειμένου, αντικαθιστώντας σταδιακά την εξάρτηση από τα μεγάλα γλωσσικά μοντέλα της OpenAI. Παράλληλα, το μοντέλο αξιολογείται στην δημόσια πλατφόρμα benchmarking LMArena.
Η νέα αυτή κίνηση της Microsoft επισημαίνει την ταχύτατη εξέλιξη της τεχνητής νοημοσύνης, όπου οι μεγάλες εταιρείες λανσάρουν συνεχώς νέα μοντέλα και δυνατότητες, τόσο σε ήχο όσο και σε κείμενο και εικόνα. Το MAI-Voice-1 και το MAI-1-preview δείχνουν ότι η Microsoft στοχεύει σε ένα ευρύ φάσμα εφαρμογών, από καθημερινές εργασίες και ενημέρωση μέχρι την ανάπτυξη εργαλείων που μπορούν να υποστηρίξουν τη δημιουργικότητα και την παραγωγικότητα των χρηστών.
Η ταχύτητα και η ακρίβεια του MAI-Voice-1, μαζί με την ικανότητα παραγωγής φωνής υψηλής ποιότητας χρησιμοποιώντας απλή GPU, το καθιστούν ένα από τα πιο εντυπωσιακά μοντέλα ομιλίας που έχουν παρουσιαστεί έως τώρα. Η δυνατότητα προσαρμογής της φωνής και του στυλ ομιλίας ανοίγει νέους δρόμους για εφαρμογές σε ενημερωτικές υπηρεσίες, podcasts, εκπαιδευτικά εργαλεία και άλλες υπηρεσίες αλληλεπίδρασης με τον χρήστη.
Από την πλευρά του MAI-1-preview, η δυνατότητα άμεσης αλληλεπίδρασης με κείμενο και παροχής χρήσιμων οδηγιών καθιστά σαφές ότι η Microsoft προσανατολίζεται στην επέκταση των δυνατοτήτων του Copilot, παρέχοντας ένα πλήρως ελεγχόμενο περιβάλλον AI που συνδυάζει τις δυνατότητες φωνής και κειμένου. Η στρατηγική αυτή υπογραμμίζει τη σημασία της αυτονομίας στον τομέα της τεχνητής νοημοσύνης, αλλά και την επιθυμία της εταιρείας να επεκταθεί σε αγορές που μέχρι τώρα κυριαρχούνταν από άλλους παίκτες, όπως η OpenAI και η Google.
[via]