Λίγο πριν την έναρξη του WWDC 2025, η Apple φέρνει στο προσκήνιο μια μελέτη που αμφισβητεί ευθέως τον τρόπο με τον οποίο αντιλαμβανόμαστε τη "λογική σκέψη" των μεγάλων γλωσσικών μοντέλων τεχνητής νοημοσύνης (LLMs). Η νέα έρευνα, η οποία δημοσιεύθηκε από την ομάδα Machine Learning Research της εταιρείας, καταλήγει σε συμπεράσματα που προκαλούν αίσθηση και θέτουν σοβαρά ερωτήματα σχετικά με την πραγματική φύση της λεγόμενης «λογικής ικανότητας» μοντέλων όπως το o1 της OpenAI και οι πιο πρόσφατες εκδοχές του Claude.
Σε αντίθεση με τις παραδοσιακές προσεγγίσεις που βασίζονται σε μαθηματικά τεστ και ενδέχεται να επηρεάζονται από «μόλυνση δεδομένων», δηλαδή από την προηγούμενη έκθεση των μοντέλων στις λύσεις των ασκήσεων, οι ερευνητές της Apple δημιούργησαν ειδικά διαμορφωμένα περιβάλλοντα με γρίφους όπως ο Πύργος του Ανόι και το River Crossing. Αυτές οι ελεγχόμενες συνθήκες επέτρεψαν την ακριβή αξιολόγηση όχι μόνο των τελικών απαντήσεων, αλλά και της διαδικασίας σκέψης των μοντέλων κατά την επίλυση προβλημάτων διαφορετικής δυσκολίας.
Τα ευρήματα χαρακτηρίζονται από τους ίδιους τους ερευνητές ως «εντυπωσιακά». Όλα τα μοντέλα που εξετάστηκαν —συμπεριλαμβανομένων των o3-mini, DeepSeek-R1 και Claude 3.7 Sonnet— παρουσίασαν πλήρη κατάρρευση της ακρίβειας όταν αυξήθηκε η πολυπλοκότητα των προβλημάτων. Παρά την επάρκεια σε υπολογιστική ισχύ, η επιτυχία των μοντέλων κατέληξε στο μηδέν. Ακόμη πιο παράδοξο ήταν το γεγονός ότι, όσο πιο δύσκολα γίνονταν τα προβλήματα, τόσο λιγότερη προσπάθεια «σκέψης» κατέβαλαν τα μοντέλα, μια ένδειξη πως οι περιορισμοί αυτοί δεν οφείλονται στην ισχύ, αλλά σε θεμελιώδεις αδυναμίες της ίδιας της αρχιτεκτονικής τους.
Ίσως το πιο ανησυχητικό εύρημα είναι ότι, ακόμα και όταν οι ερευνητές παρείχαν στις μηχανές έτοιμους αλγορίθμους επίλυσης, τα μοντέλα συνέχιζαν να αποτυγχάνουν στο ίδιο επίπεδο δυσκολίας. Αυτό υποδηλώνει ότι το πρόβλημα δεν βρίσκεται στην κατανόηση της στρατηγικής επίλυσης, αλλά στην εκτέλεση βασικών λογικών βημάτων.
Επιπλέον, παρατηρήθηκαν και ανεξήγητες ασυνέπειες. Σε ορισμένες περιπτώσεις, τα μοντέλα κατάφερναν να λύσουν προβλήματα με πάνω από 100 κινήσεις, ενώ αποτύγχαναν σε πολύ απλούστερους γρίφους που απαιτούσαν μόλις 11 κινήσεις. Η ερευνητική ομάδα εντόπισε τρεις διαφορετικές «λειτουργικές περιοχές»: σε απλά προβλήματα, τα συμβατικά μοντέλα είχαν καλύτερη απόδοση, στα μεσαίας δυσκολίας, τα «λογικά» μοντέλα υπερτερούσαν, ενώ στα υψηλής πολυπλοκότητας σενάρια, κατέρρεαν όλα ανεξαιρέτως.
Η ανάλυση των εσωτερικών διαδικασιών σκέψης αποκάλυψε ακόμη και σημάδια «υπερσκέψης», με τα μοντέλα να εντοπίζουν τη σωστή λύση νωρίς αλλά να συνεχίζουν άσκοπες διερευνήσεις, εξαντλώντας έτσι την υπολογιστική τους δυνατότητα σε μη απαραίτητες εναλλακτικές.
Η βασική διαπίστωση της έρευνας είναι ότι τα σημερινά μοντέλα δεν πραγματοποιούν γνήσια λογική σκέψη αλλά βασίζονται σε πολύπλοκους μηχανισμούς αντιστοίχισης προτύπων. Δεν διαθέτουν την ικανότητα να κλιμακώνουν τη σκέψη τους όπως οι άνθρωποι, υπεραναλύουν τα εύκολα και καταβάλλουν μικρότερη προσπάθεια στα δύσκολα.
Η χρονική συγκυρία της δημοσίευσης μόνο τυχαία δεν φαίνεται να είναι, καθώς το WWDC 2025 βρίσκεται προ των πυλών. Σύμφωνα με πληροφορίες του Bloomberg, η Apple σχεδιάζει να δώσει έμφαση σε νέες σχεδιαστικές και λειτουργικές καινοτομίες στα λογισμικά της, περιορίζοντας τη θεματολογία γύρω από την τεχνητή νοημοσύνη. Ίσως αυτή η στρατηγική αποστασιοποίησης να αντανακλά και μια πιο κριτική στάση της εταιρείας απέναντι στη φρενήρη πορεία των AI εξελίξεων.
[via]