Gemini Omni: Το νέο AI εργαλείο φέρνει παραγωγή και επεξεργασία βίντεο μέσω φωνής!
Σύνοψη
- Η Google παρουσίασε επίσημα το Gemini Omni στο συνέδριο I/O 2026, σηματοδοτώντας τη μετάβαση σε ένα εγγενώς πολυτροπικό (natively multimodal) AI μοντέλο για δημιουργία βίντεο.
- Εισάγεται η λειτουργία «Conversational Editing», η οποία επιτρέπει τη δυναμική επεξεργασία παραγόμενων βίντεο (π.χ. αλλαγή χαρακτήρων ή φόντου) με χρήση φυσικής ομιλίας.
- Η ταχύτερη έκδοση, το Gemini Omni Flash, αναμένεται να κυκλοφορήσει το καλοκαίρι του 2026, αντικαθιστώντας σταδιακά τα μοντέλα της σειράς Veo.
- Το νέο μοντέλο υποστηρίζεται από τους επεξεργαστές 8ης γενιάς 8i TPU, οι οποίοι προσφέρουν χαμηλότερη κατανάλωση ενέργειας και ταχύτερη κατανεμημένη εκπαίδευση.
- Η Google εισάγει επίσης το Gemini Spark, έναν προσωπικό 24/7 AI agent, και ενσωματώνει αυστηρούς ελέγχους υδατογράφησης (SynthID) για συμμόρφωση με τους ευρωπαϊκούς κανονισμούς.
Η Google προχωρά στην πλήρη αναδιάρθρωση του οικοσυστήματος τεχνητής νοημοσύνης της, θέτοντας στο επίκεντρο το Gemini Omni. Με περισσότερους από 900 εκατομμύρια ενεργούς χρήστες παγκοσμίως, η πλατφόρμα ενσωματώνει πλέον εγγενείς δυνατότητες παραγωγής βίντεο υψηλής ανάλυσης, καταργώντας την ανάγκη για παράλληλη χρήση ξεχωριστών μοντέλων. Η μετάβαση αυτή δημιουργεί νέα δεδομένα για προγραμματιστές, δημιουργούς περιεχομένου και εταιρικούς πελάτες του Google Cloud.
Το Gemini Omni είναι το κορυφαίο AI μοντέλο της Google, σχεδιασμένο να επεξεργάζεται και να παράγει ταυτόχρονα κείμενο, εικόνα, ήχο και βίντεο. Αντί να συνδέει πολλαπλά εξειδικευμένα υποσυστήματα, η αρχιτεκτονική του επιτρέπει την απευθείας μετατροπή οποιασδήποτε μορφής δεδομένων εισόδου σε κινηματογραφικό βίντεο, προσφέροντας πρωτοφανή συνοχή.
Η θεμελιώδης διαφορά του Gemini Omni σε σχέση με προγενέστερα μοντέλα, όπως το Veo 3.1, εντοπίζεται στην ίδια την αρχιτεκτονική της παραγωγής. Μέχρι σήμερα, τα περισσότερα συστήματα τεχνητής νοημοσύνης λειτουργούσαν συνδυαστικά: ένα μοντέλο κατανοούσε το κείμενο, ένα δεύτερο δημιουργούσε τα καρέ και ένα τρίτο αναλάμβανε τον ήχο. Το Omni καταργεί αυτούς τους ενδιάμεσους κόμβους. Η ροή δεδομένων παραμένει ενοποιημένη από την εντολή μέχρι το τελικό render του βίντεο. Αυτό σημαίνει ότι ο συγχρονισμός εικόνας και φυσικά παραγόμενου ήχου είναι πλέον άρρηκτα συνδεδεμένος στον πυρήνα του αλγορίθμου, μειώνοντας δραματικά το latency και ελαχιστοποιώντας τα motion artifacts που συχνά ταλαιπωρούν τα AI βίντεο.
Πώς το Conversational Editing αλλάζει το Prompt Engineering;
Το Conversational Editing είναι η νέα λειτουργία φωνητικής αλληλεπίδρασης που επιτρέπει την άμεση τροποποίηση ενός παραγόμενου βίντεο μέσω φυσικού διαλόγου. Ο χρήστης μπορεί να διακόψει τη διαδικασία και να ζητήσει λεκτικά συγκεκριμένες αλλαγές, όπως την αντικατάσταση ενός χαρακτήρα ή τη μεταβολή του φωτισμού, χωρίς να επανεγγράφει το αρχικό κείμενο.
Η εξέλιξη αυτή υποστηρίζεται από το νέο περιβάλλον διεπαφής «Neural Expressive», το οποίο διαθέτει επανασχεδιασμένο σύστημα αναγνώρισης μικροφώνου. Ο χρήστης μπορεί να σταματήσει, να σκεφτεί και να συνεχίσει την εντολή του χωρίς το σύστημα να διακόψει τη λήψη δεδομένων.
Βασικά πλεονεκτήματα του Conversational Editing:
- Αντικατάσταση στοιχείων: Αλλαγή συγκεκριμένων αντικειμένων μέσα στο κάδρο με διατήρηση της γεωμετρίας και του φωτισμού.
- Δυναμικό Remixing: Συνδυασμός πολλαπλών εικόνων αναφοράς (reference images) για τη δημιουργία νέων σεναρίων βίντεο.
- Άμεση απόκριση: Η αλλαγή εφαρμόζεται τοπικά (στο επιλεγμένο καρέ) αντί να υπολογίζεται ολόκληρο το βίντεο από την αρχή, εξοικονομώντας υπολογιστικούς πόρους.
Πότε κυκλοφορεί το Gemini Omni Flash και ποια είναι η αρχιτεκτονική του;
Το Gemini Omni Flash, η ελαφρύτερη και ταχύτερη έκδοση της νέας σειράς, θα διατεθεί επίσημα το καλοκαίρι του 2026. Σχεδιασμένο για άμεσες αποκρίσεις και ταχεία παραγωγή βίντεο μικρής διάρκειας, το μοντέλο στοχεύει σε καθημερινές ροές εργασίας, αφήνοντας την παραγωγή υψηλής πιστότητας για τις επερχόμενες εκδόσεις Pro και Ultra.
Η ισχύς πίσω από το νέο μοντέλο βασίζεται στους νέους επεξεργαστές 8i TPU της Google. Όπως αναφέρθηκε κατά τη διάρκεια του keynote, η νέα γενιά hardware επιτρέπει την παγκόσμια κατανομή της εκπαίδευσης του μοντέλου, προσφέροντας ταυτόχρονα εξαιρετική ενεργειακή αποδοτικότητα.
Τεχνικά χαρακτηριστικά του Gemini Omni Flash:
- Ταχύτητα παραγωγής: Εκτιμάται ότι είναι έως και 4 φορές ταχύτερο σε σχέση με τα τρέχοντα μοντέλα frontier.
- Όριο δημιουργίας: Τα πρώτα κλιπ περιορίζονται στα περίπου 10 δευτερόλεπτα, με χρήση προκαθορισμένων προτύπων (templates) για γρήγορη εκκίνηση.
- Ενσωμάτωση API: Αναμένεται η σταδιακή προσθήκη του στο Agent Platform και το Vertex AI για επιχειρησιακή χρήση.
Το ευρύτερο οικοσύστημα: Agentic AI, Spark και Workspace
Παράλληλα με το Omni, η Google παρουσίασε το Gemini Spark, μετατοπίζοντας τη στρατηγική της προς την Agentic AI (πρακτορική τεχνητή νοημοσύνη). Το Spark λειτουργεί ως προσωπικός 24/7 AI agent ο οποίος αναλαμβάνει προληπτικά τη διαχείριση εργασιών, παρακολουθεί δεδομένα και εκτελεί εντολές στο παρασκήνιο.
Στο πλαίσιο του Google Workspace, οι νέες λειτουργίες Docs Live και το ανανεωμένο AI Inbox στο Gmail χρησιμοποιούν την ίδια αρχιτεκτονική για να οργανώνουν δεδομένα αυτόνομα. Μάλιστα, μια νέα εφαρμογή για macOS θα φέρει το Gemini Spark απευθείας στο τοπικό λειτουργικό σύστημα των χρηστών της Apple, επιτρέποντας την επεξεργασία τοπικών αρχείων με την ισχύ του μεγάλου γλωσσικού μοντέλου της Google. Τέλος, το Agent Platform εξοπλίζεται με το CodeMender, έναν εξειδικευμένο πράκτορα (agent) ελέγχου ασφαλείας, ικανό να εντοπίζει και να επιδιορθώνει αυτόματα ευπάθειες σε πηγαίο κώδικα μέσα σε περιβάλλοντα φιλοξενίας της Google.
Διαθεσιμότητα
Το Gemini Omni αναμένεται να ενσωματωθεί σταδιακά στα συνδρομητικά πακέτα Google One AI Premium (Plus, Pro, Ultra). Η υδατογράφηση SynthID θα εφαρμόζεται υποχρεωτικά σε κάθε παραγόμενο αρχείο, διασφαλίζοντας την πλήρη συμβατότητα με την ευρωπαϊκή νομοθεσία (AI Act).
*Μπορείτε πλέον να προσθέσετε το Techgear.gr ως Προτιμώμενη Πηγή ενημέρωσης για τις αναζητήσεις σας στο Google Search!