Η Τεχνητή Νοημοσύνη της Google εντοπίζει κάθε φωνή ξεχωριστά μέσα στα videos! [Video]

Είναι γεγονός ότι περισσότερο ακούμε για τεχνολογίες που αφορούν την αναγνώριση του προσώπου και των εκφράσεων του χρήστη, αλλά αυτό δεν σημαίνει ότι έχει μείνει πίσω η εξέλιξη της φωνητικής αναγνώρισης. Το αντίθετο, μάλιστα, αφού η Google εξακολουθεί να διατηρεί συγκεκριμένο τομέα που ασχολείται με αυτό το κομμάτι και η πρόοδος της είναι εντυπωσιακή.

Στόχος της εταιρείας είναι να δώσει στους υπολογιστές τη δυνατότητα να αναγνωρίζουν τις φωνές κάθε χρήστη ξεχωριστά με τη βοήθεια ενός μοντέλου deep learning που τις απομονώνει μέσα από ένα σύνολο εξωτερικών ήχων ή θορύβου. Το μοντέλο της Google μπορεί να οδηγήσει στην παραγωγή video όπου η ομιλία συγκεκριμένων ανθρώπων θα ακούγεται σημαντικά πιο δυνατά σε σύγκριση με άλλους θορύβους που επίσης καταγράφονται, χωρίς να υπάρχει πολυκάναλη εγγραφή του ήχου. Ο χρήστης απλά θα επιλέγει το πρόσωπο που θέλει να ακούσει μέσα στο video!

Οι πιθανές εφαρμογές αυτής της τεχνολογίας είναι αρκετές (π.χ. ειδικά βοηθήματα για ανθρώπους με προβλήματα ακοής), διότι έχει τη μοναδική ιδιότητα να συνδυάζει οπτικά και ακουστικά σήματα σε ένα video, και ταυτόχρονα να διαχωρίζει την ομιλία. Ουσιαστικά, ανιχνεύει τις κινήσεις του στόματος και τις συνδυάζει με τους ήχους που έχει καταγράψει για να ανιστοιχήσει την ομιλία που πηγάζει από αυτόν τον άνθρωπο. Επιπλέον, είναι εφικτή η εξαγωγή ξεχωριστών καναλιών ήχου από το video.

Δείτε ένα παράδειγμα στο video που ακολουθεί:

[via]

Loading