Αδιανόητος και ίσως τρομακτικός ο συνδυασμός AI και ρομπότ [Video]

Η ανάπτυξη των ανθρωποειδών ρομπότ έχει προχωρήσει με ρυθμούς σαλιγκαριού για το μεγαλύτερο μέρος των δύο δεκαετιών, αλλά υπάρχει ραγδαία επιτάχυνση χάρη σε μια συνεργασία μεταξύ της Figure AI και του OpenAI με αποτέλεσμα το πιο εντυπωσιακό βίντεο με πραγματικά ανθρωποειδή ρομπότ που έχουμε δει ποτέ.

Η startup εταιρεία ρομποτικής Figure AI δημοσίευσε ένα ενημερωτικό video με το ρομπότ Figure 01 να εκτελεί ένα νέο μοντέλο οπτικής γλώσσας (Visual Language Model - VLM), το οποίο με κάποιο τρόπο έχει μετατρέψει το ρομπότ από ένα μάλλον αδιάφορο αυτόματο σε ένα πλήρες ρομπότ επιστημονικής φαντασίας που πλησιάζει τις δυνατότητες επιπέδου C-3PO.

Στο video, το Figure 01 στέκεται πίσω από ένα τραπέζι που είναι στρωμένο με ένα πιάτο, ένα μήλο και ένα φλιτζάνι. Στα αριστερά βρίσκεται ένα στραγγιστήρι. Ένας άνθρωπος στέκεται μπροστά από το ρομπότ και ρωτάει το ρομπότ: "Figure 01, τι βλέπεις αυτή τη στιγμή;".

Μετά από μερικά δευτερόλεπτα, το Figure 01 απαντά με μια εξαιρετικά ανθρώπινη φωνή (δεν υπάρχει πρόσωπο, μόνο ένα κινούμενο φως που κινείται συγχρονισμένα με τη φωνή), περιγράφοντας λεπτομερώς τα πάντα στο τραπέζι και τις λεπτομέρειες του ανθρώπου που στέκεται μπροστά του.

Τότε ο άντρας ρωτάει: "Μπορώ να έχω κάτι να φάω;". Το Figure 01 απαντά: "Βεβαίως" και στη συνέχεια με μια επιδέξια ακροβατική κίνηση, σηκώνει το μήλο και το δίνει στον τύπο.

Στη συνέχεια, ο άντρας αδειάζει μερικά τσαλακωμένα σκουπίδια από έναν κάδο μπροστά από το Figure 01, ενώ ρωτάει: "Μπορείς να μου εξηγήσεις γιατί έκανες αυτό που μόλις έκανες, ενώ μαζεύεις αυτά τα σκουπίδια;".

Το Figure 01 δεν χάνει χρόνο για να εξηγήσει το σκεπτικό του, ενώ τοποθετεί το χαρτί πίσω στον κάδο. "Λοιπόν, σου έδωσα το μήλο επειδή είναι το μόνο φαγώσιμο αντικείμενο που μπορούσα να σου δώσω από το τραπέζι".

Η εταιρεία εξήγησε σε ανακοίνωσή της ότι το Figure 01 εφαρμόζει συλλογισμό "ομιλίας προς ομιλία" χρησιμοποιώντας το προ-εκπαιδευμένο πολυτροπικό μοντέλο VLM του OpenAI για την κατανόηση εικόνων και κειμένων και βασίζεται σε μια ολόκληρη φωνητική συνομιλία για να διαμορφώσει τις απαντήσεις του. Αυτό είναι διαφορετικό από, για παράδειγμα, το GPT-4 του OpenAI, το οποίο επικεντρώνεται σε γραπτές προτροπές.

Χρησιμοποιεί επίσης αυτό που η εταιρεία αποκαλεί "μάθηση χαμηλού επιπέδου χειρισμού με το χέρι". Το σύστημα συνδυάζει ακριβείς βαθμονομήσεις εικόνας (μέχρι και σε επίπεδο pixel) με το νευρωνικό του δίκτυο για τον έλεγχο της κίνησης. "Αυτά τα δίκτυα λαμβάνουν ενσωματωμένες εικόνες στα 10hz και δημιουργούν ενέργειες 24-DOF (στάσεις καρπού και γωνίες αρθρώσεων δακτύλων) στα 200hz", έγραψε η Figure AI σε μια ανακοίνωση.

Η εταιρεία ισχυρίζεται ότι κάθε συμπεριφορά στο βίντεο βασίζεται στην εκμάθηση του συστήματος και δεν είναι τηλεχειριζόμενη, δηλαδή δεν υπάρχει κάποιος πίσω από τα παρασκήνια που να χειρίζεται το Figure 01 ως μαριονέτα.

Απλά εντυπωσιακό!

Loading