Pico Banana: Η απάντηση της Apple στο... Nano Banana της Google

Η Apple ανακοίνωσε ένα νέο, δωρεάν ερευνητικό εγχείρημα στον χώρο της τεχνητής νοημοσύνης: το Pico-Banana-400K. Πρόκειται για ένα εκτεταμένο αρχείο εικόνων σχεδιασμένο να βοηθήσει στην εκπαίδευση συστημάτων AI ώστε να μαθαίνουν πώς να επεξεργάζονται φωτογραφίες με βάση λεκτικές οδηγίες. Η βάση δεδομένων περιλαμβάνει περίπου 400.000 εικόνες – τόσο πρωτότυπες όσο και τροποποιημένες – ταξινομημένες ανάλογα με τον τύπο αλλαγής: από την προσαρμογή χρωμάτων και αντικειμένων μέχρι την αλλαγή ύφους ή την προσθήκη κειμένου πάνω στη φωτογραφία.

Η Apple διευκρίνισε πως το Pico-Banana-400K διατίθεται αποκλειστικά για μη εμπορική έρευνα, επομένως δεν μπορεί να χρησιμοποιηθεί για εμπορικούς σκοπούς ή να πωληθεί. Παρότι πρόκειται για έργο της ερευνητικής ομάδας της εταιρείας και όχι για εμπορικό προϊόν, η πρωτοβουλία σηματοδοτεί ένα νέο βήμα της Apple στη μάχη των συνόλων δεδομένων που τροφοδοτούν τα πιο εξελιγμένα μοντέλα τεχνητής νοημοσύνης.

Το όνομα Pico Banana δεν είναι τυχαίο. Πρόκειται για σαφή αναφορά στο Nano Banana — δηλαδή στο μοντέλο Gemini-2.5-Flash-Image της Google. Για όσους δεν το γνωρίζουν, το Nano Banana θεωρείται αυτή τη στιγμή ένα από τα κορυφαία εργαλεία επεξεργασίας εικόνας μέσω AI. Παρότι και άλλα μοντέλα έχουν επιτύχει εντυπωσιακά αποτελέσματα, η έρευνα στον τομέα παραμένει περιορισμένη από έναν βασικό παράγοντα: την έλλειψη μεγάλων, υψηλής ποιότητας και ανοιχτά διαθέσιμων συνόλων δεδομένων.

Η Apple εντόπισε αυτό το κενό και αποφάσισε να παρέμβει. Το Pico-Banana-400K στοχεύει ακριβώς σε αυτό: να προσφέρει στην επιστημονική κοινότητα ένα πλήρες και αξιόπιστο dataset για την εκπαίδευση μοντέλων επεξεργασίας εικόνας που καθοδηγούνται από φυσική γλώσσα.

Σύμφωνα με την Apple, η δημιουργία του Pico Banana ξεκίνησε με την επιλογή ενός μεγάλου αριθμού πραγματικών φωτογραφιών από το υπάρχον OpenImages dataset. Οι εικόνες επιλέχθηκαν έτσι ώστε να περιλαμβάνουν ανθρώπους, αντικείμενα και σκηνές με κείμενο, επιτρέποντας στο AI να μάθει να επεξεργάζεται διαφορετικούς τύπους περιεχομένου.

Στη συνέχεια, οι ερευνητές κατέγραψαν 35 διαφορετικούς τύπους αλλαγών που ένας χρήστης μπορεί να ζητήσει από ένα μοντέλο επεξεργασίας εικόνας, οργανωμένους σε οκτώ θεματικές κατηγορίες. Οι τροποποιήσεις κυμαίνονταν από απλές αλλαγές φωτισμού έως πλήρη αναδόμηση σκηνών. Ενδεικτικά παραδείγματα περιλαμβάνουν:

  • Pixel και photometric αλλαγές: προσθήκη κόκκωσης ή φίλτρου vintage.
  • Man-centered επεξεργασία: μετατροπή ενός προσώπου σε χαρακτήρα τύπου Funko Pop.
  • Scene composition: αλλαγή καιρού ή φωτισμού.
  • Object-level semantics: μετακίνηση ενός αντικειμένου στη σκηνή.
  • Scale: μεγέθυνση ή σμίκρυνση ενός στοιχείου.

Και, ναι, όπως παρατήρησαν πολλοί, οι ετικέτες και τα παραδείγματα του dataset είναι γραμμένα σε Comic Sans, μια σχεδιαστική επιλογή που η Apple φαίνεται να έκανε εσκεμμένα για να τονίσει τον πειραματικό χαρακτήρα του πρότζεκτ.

Αν και η Apple και η Google είναι ανταγωνιστές, η διαδικασία δημιουργίας του Pico-Banana είχε μια ειρωνική συνεργατική πτυχή: οι ερευνητές χρησιμοποίησαν το Nano Banana της Google για να επεξεργαστούν τις αρχικές εικόνες. Κάθε φωτογραφία συνδυάστηκε με ένα συγκεκριμένο prompt και στάλθηκε στο Nano Banana για επεξεργασία.

Μόλις παραγόταν το αποτέλεσμα, αυτό περνούσε από τον έλεγχο του Gemini-2.5-Pro, το οποίο αξιολογούσε αν η αλλαγή ήταν πιστή στις οδηγίες και αν η ποιότητα της εικόνας ήταν επαρκής. Η διαδικασία επαναλήφθηκε για χιλιάδες εικόνες, δημιουργώντας ένα τεράστιο dataset με επιτυχημένα και αποτυχημένα παραδείγματα.

Οι ερευνητές διαχώρισαν τα δεδομένα σε τρεις βασικές κατηγορίες:

  • Single-turn αλλαγές, όπου εφαρμόζεται μία μόνο εντολή.
  • Multiple-turn ακολουθίες, όπου οι αλλαγές γίνονται βήμα-βήμα, με διαδοχικά prompts.
  • Ζεύγη αποτελεσμάτων, που δείχνουν μια επιτυχημένη και μια αποτυχημένη προσπάθεια — πολύτιμο υλικό για τα μοντέλα που πρέπει να μάθουν τι δεν πρέπει να κάνουν.

Η κίνηση αυτή εντάσσεται σε μια ευρύτερη στρατηγική της Apple, η οποία τον τελευταίο χρόνο έχει δείξει αυξανόμενο ενδιαφέρον για ανοικτά datasets και εργαλεία AI, χωρίς όμως να θυσιάζει την ελεγχόμενη προσέγγισή της στην τεχνολογία.

[source]

Loading