Το νέο AI μοντέλο σύνθεσης φωνής της Microsoft ίσως δώσει ένα τέλος στα deepfakes

Η Microsoft φέρνει την επόμενη μεγάλη καινοτομία στον χώρο της τεχνητής νοημοσύνης με το νέο μοντέλο φωνής DragonV2.1Neural, αναβαθμίζοντας σημαντικά τη λειτουργία Personal Voice της πλατφόρμας Azure AI Speech. Το νέο αυτό εργαλείο υπόσχεται να αλλάξει τα δεδομένα στην παραγωγή συνθετικού λόγου, φέρνοντας νέες δυνατότητες αλλά και έντονες ανησυχίες για την πιθανή του κατάχρηση.

Το DragonV2.1 είναι ένα μοντέλο τύπου zero-shot, κάτι που σημαίνει ότι μπορεί να δημιουργήσει συνθετικές φωνές με ελάχιστα δεδομένα, ακόμη και από ένα ηχητικό δείγμα λίγων δευτερολέπτων. Η προηγούμενη έκδοση, το DragonV1, παρουσίαζε δυσκολίες στην ορθή προφορά ονομάτων και εξειδικευμένων όρων. Το νέο μοντέλο έρχεται να διορθώσει αυτές τις αδυναμίες, προσφέροντας φωνές που ακούγονται πιο φυσικές και εκφραστικές, με σαφώς βελτιωμένη ακρίβεια στην άρθρωση και με δυνατότητα λεπτομερούς ελέγχου της προφοράς και της προσωδίας.

Ένα από τα βασικά πλεονεκτήματα του DragonV2.1 είναι η δυνατότητά του να δημιουργεί συνθετικό λόγο σε περισσότερες από 100 γλώσσες, γεγονός που το καθιστά εξαιρετικά χρήσιμο για ένα ευρύ φάσμα εφαρμογών. Ενδεικτικά, μπορεί να αξιοποιηθεί για την εξατομίκευση φωνής σε ψηφιακούς βοηθούς και chatbots, καθώς και για το ντουμπλάρισμα βίντεο, επιτρέποντας την αναπαραγωγή της φωνής του αρχικού ηθοποιού σε άλλες γλώσσες με εντυπωσιακή ακρίβεια.

Σύμφωνα με την ανακοίνωση της Microsoft, η νέα έκδοση παρουσιάζει κατά μέσο όρο μείωση κατά 12,8% στον σχετικό δείκτη σφαλμάτων λέξεων (Word Error Rate) σε σύγκριση με την προηγούμενη. Παράλληλα, προσφέρει στον χρήστη αυξημένο έλεγχο της προφοράς και της φωνητικής χροιάς μέσω SSML phoneme tags και ειδικών λεξικών. Αυτή η δυνατότητα είναι ιδιαίτερα χρήσιμη όχι μόνο για μεταφράσεις λόγου και βίντεο αλλά και για την ακριβή μίμηση συγκεκριμένων προσώπων, κάτι που αυξάνει τις δυνατότητες αλλά και την ευθύνη που φέρει η χρήση του εργαλείου.

Για να διευκολύνει τους χρήστες, η Microsoft έχει ήδη δημιουργήσει μερικά προκαθορισμένα προφίλ φωνής, όπως τα Andrew, Ava και Brian, που μπορούν να χρησιμοποιηθούν για δοκιμές και πειραματισμούς. Ωστόσο, η προηγμένη αυτή τεχνολογία γεννά και εύλογους προβληματισμούς, κυρίως όσον αφορά τη χρήση της για την παραγωγή deepfakes. Η ικανότητα του DragonV2.1 να αναπαράγει ανθρώπινες φωνές με τέτοια ακρίβεια καθιστά πιθανή τη δημιουργία πλαστών ηχητικών αποσπασμάτων που θα μπορούσαν να χρησιμοποιηθούν για παραπλάνηση, παραποίηση ή ακόμα και εκβιασμούς.

Η Microsoft, πλήρως ενήμερη για τους κινδύνους που ελλοχεύουν, έχει θέσει αυστηρούς περιορισμούς για την αποτροπή κατάχρησης του εργαλείου. Όσοι χρήστες επιθυμούν να αξιοποιήσουν τη λειτουργία Personal Voice, καλούνται να αποδεχτούν συγκεκριμένες πολιτικές χρήσης. Αυτές περιλαμβάνουν την υποχρέωση λήψης ρητής συγκατάθεσης από τον κάτοχο της φωνής, τη σαφή δήλωση ότι το περιεχόμενο είναι συνθετικό, καθώς και την απαγόρευση κάθε είδους παραπλάνησης ή υποκλοπής ταυτότητας.

Επιπλέον, η εταιρεία έχει ενσωματώσει τεχνολογία ψηφιακής υδατογράφησης στα παραγόμενα ηχητικά αρχεία. Αυτή η λειτουργία, σύμφωνα με τη Microsoft, διαθέτει ικανότητα ανίχνευσης συνθετικής ομιλίας με ακρίβεια που αγγίζει το 99,7%, ακόμη και μετά από επεξεργασία του ήχου. Η ενσωμάτωση αυτής της τεχνολογίας στοχεύει στη μείωση των φαινομένων κακόβουλης χρήσης και στην ενίσχυση της εμπιστοσύνης του κοινού στα συστήματα φωνητικής τεχνητής νοημοσύνης.

Όσοι ενδιαφέρονται να δοκιμάσουν το εργαλείο μπορούν να το κάνουν μέσω του Speech Studio, το οποίο προσφέρει περιορισμένη λειτουργικότητα για πειραματισμό. Για όσους επιθυμούν πλήρη πρόσβαση στο API για εμπορική χρήση, η Microsoft παρέχει τη δυνατότητα αίτησης μέσω σχετικής διαδικασίας.

[via]