Ρομπότ με πρόσβαση στο διαδίκτυο: Η νέα εποχή της Google DeepMind
Η Google DeepMind παρουσίασε μια σημαντική αναβάθμιση στα AI μοντέλα που σχεδιάζει για ρομποτικά συστήματα, δίνοντας στους μηχανισμούς αυτούς τη δυνατότητα όχι μόνο να εκτελούν πιο περίπλοκες ενέργειες, αλλά και να ανατρέχουν στο διαδίκτυο για βοήθεια. Πρόκειται για ένα βήμα που μπορεί να αλλάξει ριζικά τον τρόπο με τον οποίο τα ρομπότ αντιλαμβάνονται τον κόσμο και ανταποκρίνονται σε καθημερινές προκλήσεις.
Η ανακοίνωση έγινε σε συνέντευξη Τύπου, όπου η επικεφαλής ρομποτικής της Google DeepMind, Carolina Parada, εξήγησε ότι τα νέα μοντέλα συνεργάζονται μεταξύ τους ώστε τα ρομπότ να μπορούν να «σκέφτονται πολλά βήματα μπροστά» πριν αναλάβουν δράση στον φυσικό χώρο. Αυτό σημαίνει ότι η μηχανή δεν περιορίζεται πλέον σε μια εντολή τη φορά, αλλά αποκτά ικανότητα ουσιαστικής κατανόησης και επίλυσης προβλημάτων.
Στην καρδιά του συστήματος βρίσκονται τα Gemini Robotics 1.5 και Gemini Robotics-ER 1.5, τα οποία αποτελούν βελτιωμένες εκδόσεις μοντέλων που παρουσιάστηκαν για πρώτη φορά τον Μάρτιο. Με αυτά τα εργαλεία, τα ρομπότ ξεπερνούν τις απλές λειτουργίες – όπως το δίπλωμα ενός φύλλου χαρτιού ή το άνοιγμα ενός φερμουάρ – και αποκτούν τη δυνατότητα να εκτελούν σύνθετες ακολουθίες ενεργειών. Για παράδειγμα, μπορούν να χωρίζουν τα ρούχα ανάλογα με το χρώμα, να ετοιμάζουν μια βαλίτσα με βάση τις καιρικές συνθήκες στο Λονδίνο, ή να καθοδηγούν κάποιον στο σωστό διαχωρισμό απορριμμάτων, ανακύκλωσης και κομποστοποίησης με βάση τους τοπικούς κανόνες που βρίσκουν μέσω αναζήτησης στο διαδίκτυο.
Το κλειδί βρίσκεται στη συνεργασία των δύο μοντέλων. Το Gemini Robotics-ER 1.5 επιτρέπει στα ρομπότ να κατανοούν το περιβάλλον γύρω τους και να αντλούν πληροφορίες από ψηφιακές πηγές όπως το Google Search. Στη συνέχεια, μετατρέπει τα αποτελέσματα αυτών των αναζητήσεων σε κατανοητές οδηγίες, τις οποίες εκτελεί το Gemini Robotics 1.5, αξιοποιώντας τις δυνατότητές του σε όραση και γλωσσική κατανόηση. Με αυτόν τον τρόπο, η αναζήτηση στο διαδίκτυο δεν παραμένει σε θεωρητικό επίπεδο, αλλά μεταφράζεται σε πρακτικές ενέργειες στον πραγματικό κόσμο.
Μια ακόμα καινοτομία που αποκάλυψε η ομάδα είναι ότι τα νέα μοντέλα επιτρέπουν στα ρομπότ να «μαθαίνουν» το ένα από το άλλο, ανεξάρτητα από το αν έχουν διαφορετική δομή. Σε δοκιμές της Google DeepMind, καθήκοντα που είχαν διδαχθεί στο ALOHA2 – ένα ρομπότ με δύο μηχανικά χέρια – μπορούσαν να εφαρμοστούν χωρίς πρόβλημα στο Franka, επίσης δικέφαλο ρομπότ, αλλά και στο ανθρωποειδές Apollo της Apptronik. Όπως τόνισε ο software engineer Kanishka Rao, αυτή η δυνατότητα ανοίγει δύο δρόμους: αφενός επιτρέπει τον έλεγχο εντελώς διαφορετικών ρομπότ με ένα και μόνο μοντέλο, και αφετέρου κάνει εφικτή τη μεταφορά δεξιοτήτων από μια μηχανή σε μια άλλη.
Η προοπτική αυτή είναι ιδιαίτερα σημαντική για το μέλλον της ρομποτικής. Αν ένα ρομπότ μπορεί να μάθει μια δεξιότητα και να τη μεταδώσει σε ένα άλλο διαφορετικής κατασκευής, τότε η ανάπτυξη ικανοτήτων δεν θα εξαρτάται πια από ξεχωριστή εκπαίδευση για κάθε μοντέλο. Αυτό σημαίνει ταχύτερη εξέλιξη, χαμηλότερο κόστος και μεγαλύτερη ευελιξία στην αξιοποίηση ρομποτικών συστημάτων σε διάφορους τομείς.
Πέρα από τις τεχνολογικές λεπτομέρειες, η Google DeepMind έδωσε και μια γεύση από τον τρόπο που θα διαθέσει τις νέες δυνατότητες στους χρήστες. Το Gemini Robotics-ER 1.5 θα είναι διαθέσιμο στους developers μέσω του Gemini API στο Google AI Studio, ενώ το πιο προηγμένο Gemini Robotics 1.5 θα παραμείνει προς το παρόν προσβάσιμο μόνο σε επιλεγμένους συνεργάτες.
[via]