Gemini Robotics-ER 1.6: Το νέο μοντέλο της Google DeepMind για ρομποτικά συστήματα

Σύνοψη

  • Η Google DeepMind παρουσίασε το Gemini Robotics-ER 1.6, ένα αναβαθμισμένο μοντέλο ενσώματου συλλογισμού (embodied reasoning), βελτιστοποιημένο για τον γνωστικό έλεγχο ρομποτικών συστημάτων.
  • Λειτουργεί ανεξάρτητα από τα μοντέλα VLA (Vision-Language-Action), αναλαμβάνοντας τον ρόλο του "στρατηγικού αναλυτή" που δεν ελέγχει άμεσα τα άκρα του ρομπότ, αλλά σχεδιάζει την αλληλουχία κινήσεων.
  • Προσφέρει προηγμένες ικανότητες Agentic Vision, ενσωματώνοντας αναλύσεις μέσω κώδικα για την ακριβή ανάγνωση αναλογικών οργάνων και μετρητών (σε συνεργασία με την Boston Dynamics).
  • Επεξεργάζεται ταυτόχρονα πολλαπλές ροές εικόνας (multi-view reasoning) για τον εντοπισμό αντικειμένων και την αναγνώριση επιτυχούς ολοκλήρωσης μιας εργασίας, ακόμα και σε συνθήκες μειωμένης ορατότητας ή φυσικών εμποδίων.
  • Το μοντέλο μπορεί να καλέσει αυτόνομα εξωτερικά ψηφιακά εργαλεία, όπως το Google Search, για να συλλέξει πληροφορίες και να βελτιστοποιήσει τις αποφάσεις του σε πραγματικό χρόνο.
  • Είναι ήδη διαθέσιμο στους προγραμματιστές μέσω του Gemini API και του Google AI Studio.

Η εξέλιξη της τεχνητής νοημοσύνης στον τομέα της ρομποτικής απομακρύνεται σταδιακά από τον απλό έλεγχο του υλικού, εστιάζοντας πλέον στην υψηλού επιπέδου αντίληψη του φυσικού περιβάλλοντος. Η Google DeepMind επιβεβαιώνει αυτή την κατεύθυνση με την επίσημη κυκλοφορία του Gemini Robotics-ER 1.6. Πρόκειται για μια θεμελιώδη αναβάθμιση του μοντέλου ενσώματου συλλογισμού (Embodied Reasoning), το οποίο σχεδιάστηκε για να προσφέρει προηγμένη χωρική αντίληψη και στρατηγικό σχεδιασμό στα ρομπότ, λειτουργώντας πρακτικά ως ο γνωστικός τους εγκέφαλος.

Η νέα έκδοση έρχεται να καλύψει το κενό μεταξύ της ψηφιακής λογικής και της φυσικής εκτέλεσης, προσφέροντας στους μηχανικούς νέα εργαλεία για την ανάπτυξη πιο ασφαλών και αυτόνομων φυσικών πρακτόρων (physical agents), αφήνοντας πίσω τους περιορισμούς των προηγούμενων γενεών (ER 1.5) και του γενικού σκοπού Gemini 3.0 Flash σε εξειδικευμένα robotics benchmarks.

Το Gemini Robotics-ER 1.6 αποτελεί το νεότερο μοντέλο ενσώματου συλλογισμού της Google DeepMind, σχεδιασμένο να λειτουργεί ως γνωστικός εγκέφαλος για ρομποτικά συστήματα. Εξειδικεύεται στη χωρική αντίληψη, τον προγραμματισμό εργασιών και την ανάλυση οπτικών δεδομένων, ενώ συνεργάζεται με εξωτερικά εργαλεία όπως το Google Search για την εκτέλεση πολύπλοκων αποφάσεων σε φυσικά περιβάλλοντα.

Κύρια τεχνικά χαρακτηριστικά

  • Native Tool Calling: Αυτόματη χρήση ψηφιακών εργαλείων (Google Search, Python execution) για άντληση εξωτερικών πληροφοριών εν ώρα λειτουργίας.
  • Spatial Logic: Προηγμένη χωρική λογική για τον εντοπισμό αντικειμένων, τη μέτρηση αποστάσεων και τον ορισμό ασφαλών τροχιών προσέγγισης.
  • Multi-View Integration: Ταυτόχρονη επεξεργασία και συγχώνευση δεδομένων από πολλαπλές κάμερες για τρισδιάστατη κατανόηση του χώρου.
  • Safety Protocols: Ενσωματωμένοι μηχανισμοί περιορισμού που αξιολογούν τον κίνδυνο μιας φυσικής ενέργειας πριν επιτρέψουν την εκτέλεσή της.

Η αρχιτεκτονική της Google DeepMind διαχωρίζει τις ρομποτικές λειτουργίες σε δύο αυτόνομα μοντέλα. Το μοντέλο VLA αναλαμβάνει την εκτέλεση των φυσικών κινήσεων και τον άμεσο έλεγχο των άκρων. Αντίθετα, το Robotics-ER λειτουργεί αποκλειστικά ως στρατηγικός σχεδιαστής, αναλύοντας τον χώρο και καθοδηγώντας το VLA χωρίς άμεση κινητική εμπλοκή.

Η Google DeepMind αποκαλεί αυτή την προσέγγιση «διαχωρισμό στρατηγικού αναλυτή και εκτελεστή». Ένα ρομπότ εξοπλισμένο με το Gemini Robotics 1.5 (το μοντέλο VLA - Vision-Language-Action) λαμβάνει τις οπτικές πληροφορίες και τις μεταφράζει σε συντεταγμένες για τους κινητήρες. Το ER 1.6 δεν κινεί τον ρομποτικό βραχίονα. Αντ' αυτού, παρακολουθεί τον χώρο, υπολογίζει τα εμπόδια, αναγνωρίζει τα αντικείμενα-στόχους και στέλνει οδηγίες υψηλού επιπέδου στο VLA για το πώς πρέπει να προσεγγίσει το αντικείμενο με ασφάλεια. Ο διαχωρισμός αυτός επιτρέπει μεγαλύτερη εξειδίκευση, χαμηλότερο latency στις αποφάσεις επιβίωσης του ρομπότ και πολύ καλύτερη γενίκευση σε διαφορετικούς τύπους υλικού, από βιομηχανικούς βραχίονες έως ανθρωποειδή όπως το Apollo της Apptronik.

Μέσω της τεχνολογίας agentic vision, το νέο μοντέλο επιτυγχάνει πρωτοφανή ακρίβεια στην ανάγνωση αναλογικών οργάνων μέτρησης. Συνδυάζοντας την οπτική ανάλυση με την απευθείας εκτέλεση κώδικα, το σύστημα υπολογίζει αυτόματα τις αναλογίες και τα διαστήματα στις ενδείξεις, εξάγοντας ακριβή δεδομένα ακόμα και από πολύπλοκα ή δυσανάγνωστα βιομηχανικά περιβάλλοντα.

Η συγκεκριμένη ικανότητα, η οποία αναπτύχθηκε με την τεχνογνωσία της Boston Dynamics, λύνει ένα από τα σημαντικότερα προβλήματα στα υπάρχοντα βιομηχανικά ρομπότ. Όταν το σύστημα πρέπει να διαβάσει έναν αναλογικό μετρητή πίεσης (gauge), δεν βασίζεται απλώς σε μια οπτική εκτίμηση. Το ER 1.6 εστιάζει στην εικόνα (zoom-in), γράφει τοπικά ένα script για να αναλύσει την απόσταση μεταξύ των δεικτών και της βελόνας, υπολογίζει τη γωνία και εξάγει την ακριβή μετρική τιμή. Η συνδυαστική αυτή χρήση (vision + code execution) αποτελεί καθοριστικό παράγοντα για την αυτόνομη επιθεώρηση βιομηχανικών εγκαταστάσεων.

Επιπρόσθετα, η ανάλυση πολλαπλών οπτικών γωνιών (multi-view reasoning) εγγυάται τη συνεχή κατανόηση του χώρου. Σε περιβάλλοντα όπου η οπτική επαφή με το αντικείμενο χάνεται (occlusion) εξαιτίας της κίνησης του ίδιου του ρομπότ, το μοντέλο αντλεί δεδομένα από άλλες εγκατεστημένες κάμερες, δημιουργώντας έναν ενιαίο νοητό χάρτη του περιβάλλοντος και πιστοποιώντας την επιτυχή ολοκλήρωση της εργασίας.

Loading