Η Google παρουσίασε τις πιο πρόσφατες καινοτομίες της στον τομέα των παραγωγικών μοντέλων πολυμέσων, εισάγοντας νέες δυνατότητες που αλλάζουν ριζικά τον τρόπο με τον οποίο δημιουργούνται εικόνες, βίντεο και μουσική. Με τα νέα αυτά εργαλεία, οι δημιουργοί αποκτούν πρόσβαση σε εντυπωσιακά μέσα έκφρασης και αφήγησης, που μέχρι πρότινος ανήκαν στη σφαίρα της φαντασίας.
Στο επίκεντρο της ανακοίνωσης βρίσκονται τα νέα μοντέλα Veo 3 και Imagen 4, καθώς και το μουσικό εργαλείο Lyria 2, τα οποία συνοδεύονται από την παρουσίαση του Flow, ενός καινοτόμου εργαλείου κινηματογραφικής δημιουργίας με τεχνητή νοημοσύνη. Όλα τα παραπάνω βασίζονται στα πιο εξελιγμένα μοντέλα της Google DeepMind και έχουν αναπτυχθεί σε συνεργασία με δημιουργούς από τον χώρο του κινηματογράφου, της μουσικής και της τέχνης.
Veo 3: Βίντεο με ήχο, ρεαλισμό και καλλιτεχνική καθοδήγηση
Το Veo 3 αποτελεί την αιχμή του δόρατος της Google στον χώρο της δημιουργίας βίντεο με τεχνητή νοημοσύνη. Για πρώτη φορά, η πλατφόρμα μπορεί να παράγει βίντεο που συνοδεύονται από ρεαλιστικό ήχο— όπως ήχοι πόλης, κελαηδίσματα ή ακόμα και διάλογοι μεταξύ χαρακτήρων. Επιπλέον, το μοντέλο διαθέτει εξαιρετική ικανότητα κατανόησης σύνθετων εντολών και αφήγησης, αποδίδοντας το σενάριο του χρήστη σε εντυπωσιακές κινούμενες εικόνες.
Το Veo 3 είναι ήδη διαθέσιμο μέσω της εφαρμογής Gemini και της πλατφόρμας Flow για συνδρομητές του πακέτου Ultra στις ΗΠΑ, ενώ διατίθεται και σε επαγγελματίες μέσω του Vertex AI.
Παράλληλα, η Google ανακοίνωσε σημαντικές αναβαθμίσεις στο προηγούμενο μοντέλο Veo 2, προσφέροντας στους δημιουργούς νέα εργαλεία σκηνοθεσίας. Μεταξύ αυτών περιλαμβάνονται:
- Χρήση εικόνων αναφοράς για τον καθορισμό χαρακτήρων και στυλ,
- Προηγμένοι χειρισμοί κάμερας, όπως περιστροφές και zoom,
- Δυνατότητα επέκτασης κάδρου (outpainting) για αλλαγή προσανατολισμού,
- Προσθήκη ή αφαίρεση αντικειμένων, με φυσική απόδοση φωτισμού και σκιών.
Flow: Η νέα εποχή στη σκηνοθεσία με τεχνητή νοημοσύνη
Το Flow είναι το νέο εργαλείο που επιτρέπει στους δημιουργούς να παράγουν ολόκληρες σκηνές, ταινίες ή ιστορίες, χρησιμοποιώντας φυσική γλώσσα για να περιγράψουν τι επιθυμούν να δουν. Η εφαρμογή συγκεντρώνει σε ένα σημείο όλα τα στοιχεία μιας παραγωγής — χαρακτήρες, τοποθεσίες, αντικείμενα και στυλ — και τα μετατρέπει σε κινηματογραφικά πλάνα με υψηλή αισθητική.
Το Flow αξιοποιεί πλήρως τις δυνατότητες των Veo, Imagen και Gemini, και είναι διαθέσιμο για συνδρομητές των πακέτων AI Pro και Ultra στις ΗΠΑ.
Imagen 4: Εικόνες υψηλής ευκρίνειας και τυπογραφικής ακρίβειας
Το Imagen 4 φέρνει επανάσταση στη δημιουργία εικόνας με τεχνητή νοημοσύνη, προσφέροντας εντυπωσιακή λεπτομέρεια σε υφές, υλικά και φωτισμούς, είτε πρόκειται για φωτορεαλιστικές αναπαραστάσεις είτε για αφηρημένες δημιουργίες. Ξεχωρίζει επίσης για την ακρίβεια στην ορθογραφία και την τυπογραφία, κάνοντάς το ιδανικό για τη δημιουργία αφισών, κόμικς, ευχετήριων καρτών και παρουσιάσεων.
Το Imagen 4 είναι ήδη διαθέσιμο στην εφαρμογή Gemini, στο Workspace (Slides, Docs, Vids), καθώς και στις πλατφόρμες Whisk και Vertex AI. Σύντομα θα κυκλοφορήσει και μία ακόμα πιο γρήγορη έκδοση, με 10πλάσια ταχύτητα από το Imagen 3.

Lyria 2: Νέες προοπτικές για μουσική δημιουργία
Η Google επεκτείνει τη χρήση του Lyria 2, του μοντέλου δημιουργίας μουσικής, μέσω της πλατφόρμας Music AI Sandbox. Οι μουσικοί έχουν πλέον πρόσβαση σε πειραματικά εργαλεία που ενισχύουν τη συνθετική τους ικανότητα, επιτρέποντας την ανακάλυψη νέων ήχων και την άμεση εναλλαγή μουσικών ιδεών.
Μέσω της λειτουργίας Lyria RealTime, οι χρήστες μπορούν να παράγουν και να χειρίζονται μουσική σε πραγματικό χρόνο, είτε μέσω API είτε μέσω της πλατφόρμας AI Studio. Το εργαλείο αυτό, που τροφοδοτεί και την υπηρεσία MusicFX DJ, αναμένεται να αλλάξει τον τρόπο που συντίθεται και εκτελείται η μουσική.
Ασφαλής και υπεύθυνη δημιουργία με το SynthID
Η Google δίνει ιδιαίτερη έμφαση στην υπεύθυνη χρήση των εργαλείων τεχνητής νοημοσύνης. Από το 2023, το SynthID έχει ενσωματώσει υδατογραφήματα σε πάνω από 10 δισεκατομμύρια αρχεία εικόνας, βίντεο, ήχου και κειμένου, υποδεικνύοντας τη μηχανική προέλευσή τους.
Πλέον, με το νέο SynthID Detector, οι χρήστες μπορούν να ανεβάζουν οποιοδήποτε αρχείο και να ελέγχουν αν περιλαμβάνει το υδατογράφημα, ενισχύοντας τη διαφάνεια και την προστασία από παραπληροφόρηση.
[via]