CM3leon: Το νέο AI εργαλείο της Meta για παραγωγή εικόνας από κείμενο

Η Meta συνεχίζει τις δικές της προσπάθειες ανάπτυξης εργαλείων παραγωγικής Τεχνητής Νοημοσύνης και αποκαλύπτει επίσημα το CM3leon, ένα νέο μοντέλο παραγωγής από κείμενο σε εικόνα και το αντίστροφο, το οποίο μπορεί να γίνει ιδιαίτερα χρήσιμο για την αυτοματοποιημένη δημιουργία περιγραφών για εικόνες.

Ουσιαστικά, το CM3leon αποτελεί μια απόπειρα τύπου DALL-E, Midjourney και Stable Diffusion, ωστόσο, η Meta ισχυρίζεται πως το δικό της μοντέλο είναι σημαντικά πιο αποτελεσματικό από τα προαναφερθέντα παρότι έχει εκπαιδευτεί με το 1/5 των δεδομένων. Η βασική διαφορά είναι ότι δεν βασίζεται στην τεχνική της διάχυσης (diffusion) για την δημιουργία της εικόνας, που είναι σημαντικά πιο οικονομική στην χρήση πόρων για την εκτέλεση της διεργασίας, αλλά σε ένα αυτοπαλινδρομικό μοντέλο που παράγει πολύ πιο ακριβείς δημιουργίες με υψηλότερο, όμως, κόστος εκπαίδευσης.

Αυτό το «κόστος» δεν αφορά την ποσότητα των δεδομένων, αλλά αποτελεί μια «ηθική» αντιμετώπιση της Τεχνητής Νοημοσύνης, υπό την έννοια ότι η Meta δεν έχει σαρώσει το Διαδίκτυο για να συλλέξει δημόσια διαθέσιμες εικόνες τροφοδότησης του μοντέλου της. Μη ξεχνάτε ότι σχεδόν όλοι οι υπόλοιποι παίκτες (OpenAI, Google κλπ.) έχουν κατηγορηθεί για αυτήν την πρακτική και μάλιστα αντιμετωπίζουν αγωγές.

Η Meta, λοιπόν, χρησιμοποίησε μόνο υψηλής ποιότητας αδειοδοτημένες εικόνες από το Shutterstock και εξασφάλισε εξίσου πολύ υψηλής ποιότητας δημιουργία εικόνων μέσω της διαδικασίας Supervised Fine Tuning (SFT) που εκπαιδεύει το μοντέλο με τέτοιο τρόπο, ώστε να κατανοεί πολύπλοκες εντολές από τον χρήστη σε πολλαπλά βήματα.

Το «πρόβλημα» με τη Meta είναι ότι προχωρά σε αυτές τις ανακοινώσεις χωρίς να δίνει πρόσβαση στα AI εργαλεία της και συγκεκριμένα για το CM3leon διευκρινίζει πως πρόκειται για πειραματικό μοντέλο στην παρούσα φάση.

[Meta]