Το Gemini 3.5 Flash μπορεί πλέον να ελέγχει τον υπολογιστή σου

Add as preferred source on Google

Σύνοψη

  • Το χαρακτηριστικό "Computer use" ενσωματώνεται πλήρως και εγγενώς στο νέο μοντέλο Gemini 3.5 Flash της Google.
  • Αντικαθιστά την ανάγκη χρήσης του μεμονωμένου μοντέλου Gemini 2.5 για αντίστοιχες εργασίες.
  • Παρέχει τη δυνατότητα σε προγραμματιστές να αναπτύσσουν αυτόνομους πράκτορες (AI agents) που αλληλεπιδρούν με browsers, desktop και mobile περιβάλλοντα.
  • Εισάγει προηγμένα μέτρα ασφαλείας, όπως στοχευμένη εκπαίδευση (adversarial training) για την αποτροπή επιθέσεων prompt injection.
  • Είναι ήδη διαθέσιμο στους προγραμματιστές και στις επιχειρήσεις μέσω του Gemini API και της πλατφόρμας Gemini Enterprise Agent Platform.

Το Gemini 3.5 Flash ενσωματώνει πλέον εγγενώς την ικανότητα "Computer use", επιτρέποντας στους προγραμματιστές να δημιουργούν αυτόνομους AI agents που βλέπουν, κατανοούν και χειρίζονται απευθείας browsers, desktop και mobile περιβάλλοντα. 

Διαθέσιμο άμεσα μέσω του Gemini API και του Enterprise Agent Platform, το αναβαθμισμένο μοντέλο ακυρώνει την ανάγκη για το αυτόνομο Gemini 2.5, προσφέροντας ταχύτερη, ασφαλέστερη και πιο αξιόπιστη εκτέλεση πολύπλοκων αυτοματισμών.

Βασικά χαρακτηριστικά

  • Εγγενής Υποστήριξη: Το εργαλείο χειρισμού συστημάτων δεν απαιτεί πλέον διακριτό μοντέλο (όπως το Gemini 2.5), μειώνοντας το latency.
  • Διαπλατφορμική Δράση: Λειτουργεί απρόσκοπτα σε επίπεδο λογισμικού για desktop, mobile και web browsers.
  • Διαθεσιμότητα: Ανοιχτή πρόσβαση για developers μέσω του Gemini API και του Enterprise Agent Platform.
  • Προστασία: Ενσωματωμένα συστήματα διακοπής διεργασιών εάν εντοπιστεί έμμεσο prompt injection.

Η τεχνητή νοημοσύνη παύει να λειτουργεί αποκλειστικά ως ένας συνομιλητής που επεξεργάζεται κείμενο ή εικόνες και μετατρέπεται σε έναν ενεργό χειριστή του λειτουργικού συστήματος. Μέχρι πρότινος, οι προγραμματιστές που ήθελαν να δώσουν στα συστήματά τους τη δυνατότητα να εκτελούν «κλικ», να συμπληρώνουν φόρμες ή να πλοηγούνται σε μενού, έπρεπε να βασιστούν στην αποκλειστική, αλλά μεμονωμένη έκδοση του Gemini 2.5. Πλέον, το Gemini 3.5 Flash αναλαμβάνει τον ρόλο του κεντρικού ενορχηστρωτή, συνδυάζοντας την ανάλυση δεδομένων με την πρακτική εκτέλεση καθηκόντων μέσα στο ίδιο περιβάλλον.

Η εξέλιξη των AI agents και η αρχιτεκτονική του 3.5 Flash

Η μετάβαση στο Gemini 3.5 Flash σημαίνει ότι τα εργαλεία λειτουργούν κάτω από την ίδια "ομπρέλα" παραμέτρων. Το μοντέλο διαθέτει εξαιρετικές δυνατότητες function calling, οι οποίες μέχρι τώρα αξιοποιούνταν κυρίως για αναζητήσεις (Search) ή για χρήση των Google Maps. Η προσθήκη του υπολογιστικού ελέγχου (computer use) στο ίδιο ακριβώς μοντέλο μειώνει δραματικά τον χρόνο απόκρισης κατά την εναλλαγή μεταξύ της κατανόησης μιας εντολής και της εκτέλεσής της στην οθόνη.

Αυτό έχει τεράστιο αντίκτυπο για τον εταιρικό τομέα. Οι προγραμματιστές μπορούν να αναπτύξουν custom agents που δεν περιορίζονται σε μεμονωμένες ενέργειες, αλλά φέρουν εις πέρας μακροπρόθεσμα καθήκοντα. Για παράδειγμα, ένας agent μπορεί πλέον να ελέγχει αυτόματα και συνεχώς τον κώδικα, να ανοίγει διαφορετικές εφαρμογές, να διαβάζει τα δεδομένα της μίας, να τα αναλύει και να τα εισάγει σε ένα άλλο επαγγελματικό λογισμικό. Η Google υποστηρίζει ότι το Gemini 3.5 Flash καταγράφει τις υψηλότερες επιδόσεις της εταιρείας στα agentic benchmarks, επιβεβαιώνοντας τη σταθερότητά του σε περιβάλλοντα παραγωγής.

Πολυεπίπεδη ασφάλεια και προστασία από prompt injections

Όσο η τεχνητή νοημοσύνη αποκτά δικαιώματα διαχειριστή σε ζωντανά περιβάλλοντα, ο κίνδυνος εκμετάλλευσης πολλαπλασιάζεται. Ένας κακόβουλος χρήστης θα μπορούσε θεωρητικά να εισάγει κώδικα ή εντολές (prompt injection) που θα ξεγελούσαν τον agent, κάνοντάς τον να εκτελέσει μη εξουσιοδοτημένες ενέργειες. Για να αποτρέψει τέτοια φαινόμενα, η ομάδα της Google DeepMind εφάρμοσε αυστηρή, στοχευμένη εκπαίδευση στον κορμό του Gemini 3.5 Flash.

Παράλληλα, διατίθενται δύο προαιρετικά συστήματα ασφαλείας αποκλειστικά για enterprise χρήστες. Το πρώτο απαιτεί ρητή επιβεβαίωση από τον άνθρωπο-χειριστή πριν εκτελεστούν ευαίσθητες ή μη αναστρέψιμες ενέργειες, όπως η διαγραφή αρχείων ή η αποστολή οικονομικών δεδομένων. Το δεύτερο σύστημα εντοπίζει μοτίβα έμμεσου prompt injection και τερματίζει αυτόματα την εργασία του agent προτού προλάβει να αλληλεπιδράσει με το λειτουργικό σύστημα. Η Google συστήνει θερμά τον συνδυασμό αυτών των εργαλείων με περιβάλλοντα secure sandboxing (απομονωμένα περιβάλλοντα δοκιμών) και την επιβολή αυστηρών ελέγχων πρόσβασης.

Loading