Η Apple κάνει την έκπληξη με νέο AI μοντέλο ανάλυσης βίντεο ανοικτού κώδικα

Η Apple φαίνεται πως δεν σκοπεύει να μείνει θεατής στη μάχη που δίνεται γύρω από την τεχνητή νοημοσύνη. Με μια κίνηση-έκπληξη παρουσίασε μια νέα σειρά AI μοντέλων ανοιχτού κώδικα με την ονομασία SlowFast-LLaVA-1.5, τα οποία υπόσχονται να αλλάξουν ριζικά τον τρόπο με τον οποίο η τεχνολογία αναλύει μεγάλα βίντεο. Η φιλοσοφία πίσω από το εγχείρημα είναι σαφής: όχι αχανή και πανάκριβα συστήματα που απαιτούν τεράστιους πόρους, αλλά έξυπνες λύσεις που αποδίδουν καλύτερα με μικρότερο κόστος.

Το πρόβλημα της γραμμικής ανάλυσης

Η πλειονότητα των υπαρχόντων AI μοντέλων που ασχολούνται με βίντεο ακολουθεί έναν σχετικά απλοϊκό δρόμο: σπάνε το υλικό σε μεμονωμένα καρέ, αναλύουν το κάθε ένα ξεχωριστά και έπειτα συνθέτουν τα δεδομένα για να περιγράψουν τη σκηνή ή να απαντήσουν σε ερωτήσεις σχετικά με αυτήν. Όμως στην πράξη, η πλειονότητα των καρέ σε μια ακολουθία βίντεο είναι σχεδόν ίδια. Η λεπτομερής ανάλυση όλων οδηγεί σε τεράστια σπατάλη χρόνου και υπολογιστικής ισχύος, με αποτέλεσμα τα περισσότερα μοντέλα να «μπουκώνουν» πολύ γρήγορα στη λεγόμενη context window – τη μνήμη δηλαδή στην οποία βασίζεται η λειτουργία τους.

Για να αντιμετωπιστεί αυτό το αδιέξοδο, έχουν ήδη προταθεί πιο αποδοτικά συστήματα. Η λύση όμως που προτείνει η Apple ξεχωρίζει, καθώς καταφέρνει να ισορροπήσει την ακρίβεια με την ταχύτητα με έναν ιδιαίτερα καινοτόμο τρόπο.

Ο μηχανισμός Slow και Fast

Όπως υποδηλώνει και το όνομά του, το SlowFast-LLaVA-1.5 βασίζεται σε δύο διαφορετικές αλλά συμπληρωματικές ροές ανάλυσης. Η «Slow» ροή επεξεργάζεται έναν μικρό αριθμό καρέ, αλλά με εξαιρετικά λεπτομερή τρόπο, ώστε να συλλάβει με ακρίβεια τι υπάρχει και τι συμβαίνει στη σκηνή. Η «Fast» ροή, αντίθετα, εξετάζει περισσότερα καρέ με πιο επιφανειακή προσέγγιση, για να αντιληφθεί την εξέλιξη και τη δυναμική της εικόνας μέσα στον χρόνο. Ο συνδυασμός αυτών των δύο μεθόδων επιτρέπει στο μοντέλο να είναι αποδοτικό χωρίς να χάνει την ουσία.

Αποτελέσματα που εντυπωσιάζουν

Τα πρώτα τεστ έδειξαν ότι το νέο μοντέλο έχει εξαιρετικά αποτελέσματα. Διαθέσιμο σε εκδόσεις με 1, 3 και 7 δισεκατομμύρια παραμέτρους, το SlowFast-LLaVA-1.5 ξεπέρασε πολύ μεγαλύτερα μοντέλα σε δοκιμές κατανόησης βίντεο, όπως οι LongVideoBench και MLVU. Ακόμα και η μικρότερη εκδοχή του, με μόλις 1 δισεκατομμύριο παραμέτρους, σημείωσε νέα ρεκόρ, γεγονός που καταδεικνύει την αποδοτικότητα της προσέγγισης.

Εντυπωσιακό είναι επίσης ότι το μοντέλο αποδίδει καλά και σε στατικές εικόνες. Μπορεί να χρησιμοποιηθεί για OCR, για λογικούς συλλογισμούς αλλά και για περίπλοκες περιπτώσεις όπου οι εικόνες περιέχουν πολύ κείμενο. Αυτό το καθιστά ιδιαίτερα ευέλικτο και όχι αποκλειστικά συνδεδεμένο με την ανάλυση βίντεο.

Οι περιορισμοί της τεχνολογίας

Παρά τα θετικά αποτελέσματα, υπάρχουν και σημαντικοί περιορισμοί. Η Apple έχει θέσει όριο στο πόσα καρέ μπορεί να επεξεργαστεί το μοντέλο. Συγκεκριμένα, κάθε βίντεο αναλύεται σε 128 καρέ που επιλέγονται σε τακτά διαστήματα. Από αυτά, τα 32 περνούν από τη «Slow» διαδικασία και τα υπόλοιπα 96 από τη «Fast». Για να γίνει αντιληπτό το μέγεθος του περιορισμού, αρκεί να αναλογιστεί κανείς ότι τα περισσότερα σύγχρονα βίντεο έχουν 24 έως 120 καρέ το δευτερόλεπτο. Αυτό σημαίνει ότι το μοντέλο πρακτικά αναλύει μόνο μερικά δευτερόλεπτα από κάθε υλικό, αφήνοντας εκτός αρκετές σημαντικές στιγμές όταν το βίντεο διαρκεί λεπτά.

Ανεξάρτητα από αυτούς τους περιορισμούς, η αξία του εγχειρήματος είναι αδιαμφισβήτητη. Η Apple κατάφερε να φτάσει σε κορυφαία αποτελέσματα βασιζόμενη αποκλειστικά σε δημόσια datasets, αποφεύγοντας πιο αμφιλεγόμενες πρακτικές που ακολουθούν άλλοι κολοσσοί του χώρου και οι οποίες συχνά δημιουργούν ερωτήματα γύρω από τη διαφάνεια και την προέλευση των δεδομένων.

Ακόμη πιο σημαντικό είναι ότι η Apple έθεσε το SlowFast-LLaVA-1.5 διαθέσιμο σε GitHub και Hugging Face, δίνοντας τη δυνατότητα σε ερευνητές και developers να το δοκιμάσουν και να το αξιοποιήσουν άμεσα. Πρόκειται για μια σπάνια κίνηση από μια εταιρεία που παραδοσιακά κρατάει πιο κλειστά τα χαρτιά της, ειδικά σε ζητήματα λογισμικού και ανοιχτού κώδικα.

Το ερώτημα που μένει είναι πώς θα εξελιχθεί αυτή η τεχνολογία και αν θα μπορέσει να καλύψει τους σημερινούς περιορισμούς. Το πιθανότερο είναι ότι το SlowFast-LLaVA-1.5 θα αποτελέσει τη βάση για μελλοντικά συστήματα που θα μπορούν να χειρίζονται μεγαλύτερα και πιο πολύπλοκα βίντεο, χωρίς να χάνουν καίριες λεπτομέρειες.

[via]

Loading