Motubrain: Η Κίνα κατασκευάζει έναν ενιαίο εγκέφαλο για τα AI ρομπότ!
Σύνοψη
- Η ShengShu Technology ανακοίνωσε το Motubrain, ένα ενοποιημένο «World Action Model» που αντικαθιστά τα εξειδικευμένα συστήματα ρομποτικής νοημοσύνης με έναν ενιαίο αλγόριθμο εκμάθησης και δράσης.
- Σημείωσε κορυφαίες επιδόσεις στα βιομηχανικά benchmarks ενσωματωμένης τεχνητής νοημοσύνης (Embodied AI), επιτυγχάνοντας σκορ 63.77 στο WorldArena και μέσο όρο 96.0 στο RoboTwin 2.0.
- Βασίζεται σε αρχιτεκτονική Mixture-of-Transformers (MoT) και αξιοποιεί δεδομένα από γενετικά βίντεο, ενοποιώντας λειτουργίες αντίληψης, συλλογισμού, πρόβλεψης και δράσης.
- Υποστηρίζεται από γύρο χρηματοδότησης Series B ύψους 293 εκατομμυρίων δολαρίων (περίπου 267 εκατ. ευρώ) με επικεφαλής την Alibaba Cloud, επιταχύνοντας την εμπορική του ανάπτυξη.
- Το σύστημα δοκιμάζεται ήδη σε πραγματικές συνθήκες, παρουσιάζοντας ικανότητες αυθόρμητης διόρθωσης σφαλμάτων κατά τη διάρκεια εκτέλεσης (π.χ. επανάληψη κίνησης αν ένα αντικείμενο δεν συλλεχθεί σωστά).
Το Motubrain είναι ένα ενοποιημένο World Action Model της ShengShu Technology που λειτουργεί ως κεντρικός ρομποτικός εγκέφαλος. Βασίζεται σε αρχιτεκτονική Mixture-of-Transformers (MoT), ενσωματώνοντας ταυτόχρονα όραση, γλώσσα και δράση (VLA). Αντικαθιστά τα κατακερματισμένα υποσυστήματα, επιτρέποντας την απρόσκοπτη εκτέλεση πολύπλοκων σεναρίων έως και 10 ατομικών κινήσεων ανά εργασία, χωρίς ανάγκη ξεχωριστού επαναπρογραμματισμού.
Η ανάπτυξη της ενσωματωμένης τεχνητής νοημοσύνης (Embodied AI) απαιτεί συστήματα που κατανοούν τον φυσικό κόσμο. Η παραδοσιακή προσέγγιση στη ρομποτική επέβαλλε την κατασκευή διαφορετικών μοντέλων για κάθε ξεχωριστό hardware και για κάθε μεμονωμένη εργασία («ένα ρομπότ, ένα μοντέλο»), ωστόσο, αυτή η μεθοδολογία δημιουργούσε τεράστια προβλήματα κλιμάκωσης, καθώς η εκμάθηση νέων δεξιοτήτων απαιτούσε χρονοβόρα συλλογή δεδομένων για κάθε πιθανό σενάριο. Το Motubrain αλλάζει ριζικά το συγκεκριμένο τεχνολογικό παράδειγμα, αφού μεταβαίνοντας σε ένα μοντέλο end-to-end, η αρχιτεκτονική του επιτρέπει στο hardware να αντιλαμβάνεται μια ολοκληρωμένη εργασία, αντί για απομονωμένες μηχανικές κινήσεις.
Η καρδιά του συστήματος βασίζεται στην αρχιτεκτονική Mixture-of-Transformers τριών ροών. Το λογισμικό αντιμετωπίζει τα εισερχόμενα βίντεο και τις φυσικές δράσεις ως δύο συνεχόμενα μοτίβα δεδομένων που εκπαιδεύονται παράλληλα. Με μία μόνο διαδικασία εκπαίδευσης, το μοντέλο αποκτά πέντε ταυτόχρονες δυνατότητες:
- Vision-Language-Action Control (VLA): Σύνδεση της οπτικής πληροφορίας με γλωσσικές εντολές και άμεση μετατροπή τους σε φυσική κίνηση.
- World Modelling: Δημιουργία μιας ψηφιακής, πολυδιάστατης αναπαράστασης του περιβάλλοντος.
- Video Generation: Παραγωγή μελλοντικών οπτικών καρέ για την κατανόηση της εξέλιξης του χώρου.
- Inverse Dynamics Modelling (IDM): Υπολογισμός των απαραίτητων δυνάμεων και κινήσεων που απαιτούνται για την επίτευξη μιας συγκεκριμένης οπτικής αλλαγής στον χώρο.
- Joint Video-Action Prediction: Ταυτόχρονη πρόβλεψη της εικόνας και της δράσης στο επόμενο χρονικό βήμα.
Πώς η τεχνολογία γενετικού βίντεο τροφοδοτεί τη ρομποτική νοημοσύνη;
Η ShengShu αξιοποιεί την τεχνογνωσία της από το μοντέλο γενετικού βίντεο Vidu για την εκπαίδευση του Motubrain. Η ανάλυση βίντεο παρέχει στο σύστημα χωροχρονικά δεδομένα, πληροφορίες αιτιότητας και δυναμική φυσικής σε τεράστια κλίμακα, επιτρέποντας την εξαγωγή μοτίβων κίνησης χωρίς την ανάγκη χειροκίνητης καταγραφής και προσθήκης ετικετών στα δεδομένα.
Το κλειδί για την ανωτερότητα του Motubrain εντοπίζεται στον τρόπο με τον οποίο εκπαιδεύεται. Αντί να βασίζεται αποκλειστικά σε τηλεχειριζόμενες καταγραφές κινήσεων από χειριστές, το σύστημα αναλύει αχανείς ποσότητες μη επισημειωμένων βίντεο. Ένα εξειδικευμένο πλαίσιο «λανθάνουσας δράσης» αναλαμβάνει να εξάγει την έννοια της φυσικής κίνησης απευθείας από την απλή παρακολούθηση ανθρώπινων δραστηριοτήτων, δεδομένων προσομοίωσης και κινήσεων άλλων ρομπότ.
Η εφαρμογή αυτού του μοντέλου σε πραγματικές συνθήκες αποκαλύπτει μια προηγμένη ικανότητα διόρθωσης λαθών και πρόβλεψης αποτελέσματος. Σε δοκιμές της εταιρείας, όταν ένας ρομποτικός βραχίονας επιχείρησε να συλλέξει αντικείμενα με μια κουτάλα και απέτυχε, το σύστημα αναγνώρισε ακαριαία μέσω της οπτικής ανατροφοδότησης ότι το εργαλείο ήταν άδειο. Χωρίς να έχει εκπαιδευτεί ποτέ σε ειδικά δεδομένα «επανάληψης αποτυχίας», το Motubrain έδωσε εντολή για άμεση επανάληψη της κίνησης συλλογής. Πρόκειται για το ορόσημο της μετάβασης από την απλή «εκτέλεση προγραμματισμένων εντολών» στην πραγματική «ολοκλήρωση εργασιών» με επίγνωση του περιβάλλοντος. Επιπλέον, το σύστημα διαχειρίζεται ταυτόχρονα και ανεξάρτητα τους δύο ρομποτικούς βραχίονες για την εκπλήρωση συνδυαστικών στόχων, όπως η τοποθέτηση λουλουδιών σε ένα βάζο κάτω από μεταβαλλόμενες συνθήκες φωτισμού και γωνιών.
Σε ποιες δοκιμές απόδοσης (benchmarks) ξεχωρίζει το Motubrain;
Στις διεθνείς μετρήσεις απόδοσης Embodied AI, το Motubrain κατέγραψε κορυφαία αποτελέσματα, πετυχαίνοντας βαθμολογία 63.77 EWM στο WorldArena. Στο RoboTwin 2.0, το σύστημα σημείωσε μέσο όρο 96.0 σε 50 προκαθορισμένες βιομηχανικές δοκιμασίες, παραμένοντας το μοναδικό μοντέλο παγκοσμίως που υπερβαίνει τη βαθμολογία 95.0 σε τυχαιοποιημένα περιβάλλοντα.
Τα δεδομένα κλιμάκωσης αποδεικνύουν την ανωτερότητα της ενιαίας αρχιτεκτονικής. Στις μετρήσεις κλιμάκωσης εργασιών, το ποσοστό επιτυχίας του Motubrain αυξανόταν παράλληλα με τον αριθμό των νέων εργασιών εκπαίδευσης, αγγίζοντας το 92% στις 50 διαφορετικές εργασίες. Συγκριτικά, τα ανταγωνιστικά μοντέλα όπως το Pi-0.5, παρουσίασαν κατακόρυφη πτώση, περιοριζόμενα στο 68% υπό τον ίδιο φόρτο πολυπλοκότητας.
Αντίστοιχη ήταν η εικόνα και στις αξιολογήσεις κλιμάκωσης δεδομένων. Καθώς τα επεισόδια εκπαίδευσης αυξήθηκαν στα 27.500, το Motubrain διατήρησε το υψηλό ποσοστό επιτυχίας του (92%), έναντι 85% του συστήματος Motus και 68% του Pi-0.5. Η τριών σταδίων γραμμή επεξεργασίας, η οποία δομείται πάνω σε μια πυραμίδα δεδομένων έξι επιπέδων, εξασφαλίζει ότι το σύστημα γενικεύει τις δεξιότητές του σε νέα υλισμικά, διατηρώντας την απαραίτητη ακρίβεια επιπέδου χιλιοστού που απαιτείται για εφαρμογές σε βιομηχανικές γραμμές παραγωγής.
Η χρηματοδότηση της Alibaba και οι στρατηγικές συνεργασίες εμπορικής αξιοποίησης
Η εμπορική εξέλιξη του Motubrain επιταχύνεται από έναν γύρο χρηματοδότησης Series B ύψους 293 εκατομμυρίων δολαρίων, με κύριο επενδυτή την Alibaba Cloud. Παράλληλα, η ShengShu συμπράττει στρατηγικά με εταιρείες κατασκευής υλισμικού όπως η Astribot, η SimpleAI και η Anyverse Dynamics για την πλήρη ενσωμάτωση του λογισμικού στον βιομηχανικό τομέα.
Η επιτυχία της εταιρείας, που ιδρύθηκε μόλις τον Μάρτιο του 2023, βασίζεται στο ισχυρό δίκτυο επενδυτών που περιλαμβάνει το China Internet Investment Fund, τον όμιλο TAL Education, τη Baidu Ventures και τη Luminous Ventures. Με τα διαθέσιμα κεφάλαια (που αντιστοιχούν σε περίπου 267 εκατ. ευρώ), το σύστημα παύει να είναι ένα πειραματικό ακαδημαϊκό εγχείρημα. Ήδη ενσωματώνεται σε ενεργά προγράμματα εκπαίδευσης ρομπότ, εκτελώντας χρέη κεντρικού λογισμικού για βιομηχανικά συστήματα, ρομπότ αποθήκης και οικιακούς αυτοματισμούς, προάγοντας τη βελτιστοποίηση λογισμικού και hardware (full-stack optimisation).
Με τη ματιά του Techgear
Η δημιουργία του Motubrain υπογραμμίζει την αναπόφευκτη πορεία σύγκλισης μεταξύ των μεγάλων γλωσσικών/οπτικών μοντέλων (LLMs/VLMs) και της ρομποτικής. Το στοιχείο που καθιστά τη συγκεκριμένη ανακοίνωση κρίσιμη για τη βιομηχανία δεν είναι η επιτυχία του σε περιβάλλοντα προσομοίωσης, αλλά η ικανότητά του να αντιλαμβάνεται τη φυσική αποτυχία στον πραγματικό χώρο και να επιδιορθώνει τις κινήσεις του αυτόνομα.
Για την ευρωπαϊκή αγορά, η είδηση έχει διπλή ανάγνωση. Αφενός, η ενσωμάτωση τέτοιων συστημάτων στις γραμμές παραγωγής ή στις αποθήκες logistics ρίχνει το κόστος εγκατάστασης ρομποτικών λύσεων, καθώς δεν απαιτείται πλέον custom κώδικας για κάθε μικρή αλλαγή στο περιβάλλον. Αφετέρου, η κυριαρχία κινεζικών ομίλων (ShengShu, Alibaba, Baidu) στη δημιουργία των θεμελιωδών μοντέλων αφήνει την ευρωπαϊκή βιομηχανία σε ρόλο αφομοιωτή. Παραμένει το ερώτημα της υπολογιστικής απαίτησης (edge inference): Πόσο ισχυρό hardware απαιτείται πάνω στο ίδιο το ρομπότ για να τρέξει ένα Mixture-of-Transformers χωρίς καθυστερήσεις (latency) που θα ήταν επικίνδυνες σε βιομηχανικούς χώρους. Το βέβαιο είναι ότι η αρχιτεκτονική "One Brain" αποτελεί το νέο τεχνολογικό στάνταρ και όλοι οι κατασκευαστές θα αναγκαστούν να προσαρμοστούν σε αυτό.
*Μπορείτε πλέον να προσθέσετε το Techgear.gr ως Προτιμώμενη Πηγή ενημέρωσης για τις αναζητήσεις σας στο Google Search!