Η Google διδάσκει την τεχνητή νοημοσύνη να σερφάρει στο Internet όπως εμείς

Η Google παρουσιάζει μια νέα γενιά τεχνητής νοημοσύνης που υπόσχεται να φέρει την αλληλεπίδραση ανθρώπου και μηχανής σε ένα εντελώς νέο επίπεδο. Το νέο της μοντέλο, Gemini 2.5 Computer Use, μπορεί να περιηγηθεί και να εκτελέσει ενέργειες μέσα σε ένα κανονικό web browser – όπως ακριβώς θα έκανε ένας χρήστης.

Πρόκειται για μια τεχνολογία που συνδυάζει οπτική κατανόηση, λογική επεξεργασία και αυτοματοποίηση, με στόχο να επιτρέπει στους AI agents να «εργάζονται» μέσα σε περιβάλλοντα σχεδιασμένα αποκλειστικά για ανθρώπους.

Η λειτουργία του νέου μοντέλου δεν περιορίζεται στην απλή ανάγνωση ιστοσελίδων. Το Gemini 2.5 Computer Use μπορεί να αναλύει οπτικά το περιβάλλον του browser, να κατανοεί φόρμες, κουμπιά ή λίστες επιλογών και να ολοκληρώνει εργασίες όπως η συμπλήρωση και η υποβολή μιας φόρμας. Με αυτόν τον τρόπο, η Google επιχειρεί να καλύψει ένα σημαντικό κενό: την εκτέλεση ενεργειών σε ιστοσελίδες ή διεπαφές που δεν διαθέτουν API ή άλλα μέσα αυτοματοποίησης.

Η δυνατότητα αυτή ανοίγει νέους ορίζοντες τόσο για προγραμματιστές όσο και για επιχειρήσεις. Οι developers μπορούν να χρησιμοποιήσουν το μοντέλο για δοκιμές χρηστικότητας (UI testing) ή για πλοήγηση σε πολύπλοκα περιβάλλοντα χωρίς άμεση πρόσβαση στα δεδομένα. Παράλληλα, η Google ενσωματώνει το ίδιο σύστημα σε πειραματικά projects, όπως το Project Mariner, όπου οι AI agents μπορούν να πραγματοποιούν ενέργειες αυτόνομα μέσα σε έναν browser – για παράδειγμα, να προσθέτουν προϊόντα σε ένα καλάθι αγορών με βάση μια λίστα υλικών ή να πραγματοποιούν αναζητήσεις χωρίς ανθρώπινη παρέμβαση.

Η ανακοίνωση της Google ήρθε μόλις μία ημέρα μετά το Dev Day της OpenAI, όπου παρουσιάστηκαν νέες εφαρμογές για το ChatGPT και το πολυσυζητημένο χαρακτηριστικό ChatGPT Agent, το οποίο μπορεί να ολοκληρώνει σύνθετες εργασίες για λογαριασμό του χρήστη. Παράλληλα, η Anthropic είχε ήδη παρουσιάσει πέρυσι μια εκδοχή του Claude AI με παρόμοια λειτουργία computer use. Η κίνηση αυτή δείχνει ότι οι κορυφαίες εταιρείες τεχνητής νοημοσύνης βρίσκονται σε αγώνα δρόμου για το ποια θα καθιερώσει πρώτη τους “έξυπνους ψηφιακούς βοηθούς” που μπορούν να χειρίζονται τον ιστό όπως ένας άνθρωπος.

Σύμφωνα με την Google, το Gemini 2.5 Computer Use ξεπερνά σε επιδόσεις τις αντίστοιχες λύσεις της αγοράς σε μια σειρά από δοκιμές για web και mobile περιβάλλοντα. Σε αντίθεση με τα μοντέλα των ανταγωνιστών της, όμως, η νέα έκδοση του Gemini δεν έχει πλήρη πρόσβαση σε ολόκληρο το λειτουργικό σύστημα του υπολογιστή, αλλά μόνο στο περιβάλλον του browser. Η εταιρεία ξεκαθαρίζει ότι το μοντέλο «δεν έχει ακόμα βελτιστοποιηθεί για έλεγχο σε επίπεδο desktop» και υποστηρίζει προς το παρόν 13 βασικές ενέργειες, όπως το άνοιγμα browser, την πληκτρολόγηση, το πάτημα κουμπιών ή το drag and drop αντικειμένων.

Αν και οι δυνατότητες αυτές μοιάζουν αρχικά περιορισμένες, η Google υπογραμμίζει ότι το εγχείρημα βρίσκεται σε φάση εξέλιξης. Το σημαντικό στοιχείο, λέει, είναι η απόδειξη ότι ένας AI agent μπορεί να λειτουργεί αποτελεσματικά μέσα σε ένα περιβάλλον που δεν έχει σχεδιαστεί γι’ αυτόν. Οι πρώτες δοκιμές δείχνουν ότι το μοντέλο μπορεί να εκτελεί εντυπωσιακά ακριβείς ενέργειες σε πραγματικό χρόνο, με τα demo videos που δημοσίευσε η εταιρεία, επιταχυνμένα τρεις φορές για συντομία, να δείχνουν τον τρόπο με τον οποίο η τεχνητή νοημοσύνη «μαθαίνει» να κινείται στο διαδίκτυο.

Για όσους θέλουν να δοκιμάσουν το νέο σύστημα, το Gemini 2.5 Computer Use είναι ήδη διαθέσιμο μέσω του Google AI Studio και του Vertex AI, δίνοντας στους προγραμματιστές τη δυνατότητα να το ενσωματώσουν στις δικές τους εφαρμογές.

[via]

Loading