Η επόμενη γενιά οικιακών ρομπότ δεν θα κριθεί από το ύψος τους, τον αριθμό των αισθητήρων ή το πόσο εντυπωσιακά κινούνται σε demo βίντεο. Θα κριθεί από κάτι πολύ πιο ταπεινό και δύσκολο: την ικανότητά τους να χειρίζονται αντικείμενα σε άγνωστα περιβάλλοντα, με την ίδια φυσικότητα που το κάνει ένας άνθρωπος όταν μπαίνει για πρώτη φορά σε μια καινούργια κουζίνα ή καλείται να τακτοποιήσει ένα δωμάτιο που δεν έχει ξαναδεί. Σε αυτό ακριβώς στοχεύει το RGMP, ένα νέο framework που παρουσίασε ομάδα ερευνητών από τη Wuhan University και το οποίο μπορεί να αλλάξει το επίπεδο των ικανοτήτων των ανθρωποειδών ρομπότ.
Το πρόβλημα που προσπαθεί να λύσει η ρομποτική εδώ και χρόνια είναι κλασικό: τα περισσότερα συστήματα machine learning αποδεικνύονται εξαιρετικά όταν λειτουργούν σε περιβάλλοντα παρόμοια με αυτά όπου εκπαιδεύτηκαν, αλλά καταρρέουν όταν το σκηνικό αλλάζει έστω και ελάχιστα. Μια άλλη διάταξη φωτισμού, ένα αντικείμενο με λίγο διαφορετικό σχήμα ή μια μικρή απροειδοποίητη μεταβολή στην τοπολογία του χώρου αρκούν για να αποσταθεροποιήσουν ακόμα και προηγμένα μοντέλα. Στην πρακτική ρομποτική αυτό είναι δύο φορές πιο προβληματικό, γιατί η συλλογή δεδομένων απαιτεί φυσικές επιδείξεις, πολλές φορές εκατοντάδες για κάθε ενέργεια, μια διαδικασία δαπανηρή και χρονοβόρα.
Το RGMP επιχειρεί να σπάσει αυτόν τον φαύλο κύκλο. Στόχος του είναι να δώσει στους ρομποτικούς χειριστές την ικανότητα να επινοούν τη σωστή στρατηγική χειρισμού χωρίς να χρειάζονται τεράστιο ιστορικό προηγούμενων παραδειγμάτων. Το framework βασίζεται σε δύο πυλώνες που συνεργάζονται ώστε να επιτευχθεί κάτι που μοιάζει με «διαισθητική» κατανόηση του περιβάλλοντος.
Ο πρώτος πυλώνας, το Geometric-prior Skill Selector, λειτουργεί σαν μια μίνι μηχανή λογικής μέσα στον ρομπότ. Κοιτάζει τη μορφή του αντικειμένου, την κατεύθυνση του στόχου και το επιθυμητό αποτέλεσμα, και προτείνει την πιο κατάλληλη ενέργεια: πιάσιμο με ολόκληρη την παλάμη, λαβή με δύο δάχτυλα, ώθηση, περιστροφή, μετακίνηση. Είναι σαν να προσθέτει στο ρομπότ τους κανόνες που θυμίζει το ανθρώπινο ένστικτο: δεν χρειάζεται να έχεις ξαναδεί ένα μπολ για να καταλάβεις πως δεν πρέπει να το πιάσεις από το χείλος του όταν είναι γεμάτο. Αυτές οι γεωμετρικές «προδιαγραφές» επιτρέπουν στο σύστημα να μην εξαρτάται αποκλειστικά από προηγούμενες εμπειρίες και να γενικεύει καλύτερα όταν εμφανίζεται κάτι πρωτόγνωρο.
Ο δεύτερος πυλώνας, το Adaptive Recursive Gaussian Network, στοχεύει σε ένα από τα πιο ύπουλα προβλήματα των μοντέλων που μπλέκονται με αλληλουχίες κινήσεων: την απώλεια μνήμης καθώς η δράση εξελίσσεται. Τα ρομπότ συνήθως γνωρίζουν πώς να ξεκινούν μια ενέργεια, αλλά όσο εκτελούν μια μακριά ακολουθία, συχνά «ξεχνούν» τις προηγούμενες φάσεις, με αποτέλεσμα να χαλούν την τελική εκτέλεση. Το Adaptive Recursive Gaussian Network λειτουργεί σαν ένας μηχανισμός σταθεροποίησης της μνήμης, διατηρώντας μια συνεκτική αναπαράσταση του χώρου και των επιμέρους κινήσεων μέχρι να ολοκληρωθεί η ενέργεια.
Για να αξιολογήσουν τη λειτουργικότητα του RGMP, οι ερευνητές το δοκίμασαν τόσο σε ένα ανθρωποειδές ρομπότ όσο και σε μια εργαστηριακή διάταξη με διπλό ρομποτικό βραχίονα. Οι συνθήκες δοκιμών δεν ήταν ιδανικές ούτε προβλέψιμες. Αντικείμενα με άγνωστη γεωμετρία, νέα περιβάλλοντα και μικρές παγίδες στην τοπολογία του χώρου δημιούργησαν σενάρια που παραδοσιακά «ρίχνουν» ακόμη και ισχυρά μοντέλα. Με ένα dataset μόλις 120 φυσικών επιδείξεων, το RGMP είχε να αποδείξει ότι μπορεί να μάθει πολλά από λίγα δεδομένα.
Τα αποτελέσματα έδειξαν ότι όχι μόνο μπορεί, αλλά ξεπερνά συστήματα που θεωρούνται benchmarks, όπως ResNet50, Octo, OpenVLA και διάφορες diffusion-based πολιτικές. Η επιλογή στρατηγικής χειρισμού έγινε πιο στοχευμένη, ενώ η εκτέλεση ήταν σαφώς πιο σταθερή και ακριβής. Σημαντικότερο ακόμα: το RGMP κατάφερε να φτάσει υψηλή απόδοση με μόλις 40 παραδείγματα, όταν άλλα μοντέλα χρειάζονται έως και 200 για να πιάσουν αντίστοιχο επίπεδο.
Η σημασία αυτής της αποδοτικότητας δεν είναι απλώς ακαδημαϊκή. Αν ένα ανθρωποειδές ρομπότ πρόκειται κάποτε να γίνει πραγματικός βοηθός στο σπίτι, δεν είναι εφικτό να του προσφέρουμε χιλιάδες custom εκπαιδεύσεις για κάθε κουζίνα, σαλόνι ή αποθήκη. Πρέπει να μπορεί να γενικεύει, να προσαρμόζεται και να εφευρίσκει λύσεις στο φτερό. Με frameworks όπως το RGMP, το όραμα αυτό έρχεται λίγο πιο κοντά στην πραγματικότητα.
Η κινεζική ερευνητική κοινότητα έχει δώσει τα τελευταία χρόνια αρκετές ενδείξεις ότι επενδύει στρατηγικά στο πεδίο των γενικευμένων ρομποτικών δεξιοτήτων. Το RGMP δεν λύνει όλα τα προβλήματα, αλλά δείχνει τον δρόμο προς ρομπότ που δεν χρειάζονται να «γνωρίζουν» έναν χώρο πριν μπορέσουν να λειτουργήσουν σε αυτόν. Αν τα ανθρωποειδή ρομπότ καταφέρουν να αποκτήσουν αυτό το επίπεδο κατανόησης, τότε ίσως για πρώτη φορά θα πλησιάσουν πραγματικά την υπόσχεση της χρήσιμης ρομποτικής στο σπίτι.