Η AI που ξεπέρασε 30 από τους κορυφαίους μαθηματικούς του κόσμου

Ένα Σαββατοκύριακο του Μαΐου, μια ιδιαίτερη και απόρρητη συνάντηση συγκέντρωσε μερικούς από τους πιο διακεκριμένους μαθηματικούς του πλανήτη στο Berkeley της Καλιφόρνια. Τριάντα ειδικοί από όλο τον κόσμο συμμετείχαν σε ένα ασυνήθιστο επιστημονικό πείραμα: να προκαλέσουν ένα εξελιγμένο AI chatbot σε μια μαθηματική μονομαχία.

Για δύο ημέρες, οι επιστήμονες υπέβαλλαν το μοντέλο σε απαιτητικά ερωτήματα πανεπιστημιακού και ερευνητικού επιπέδου. Προς έκπληξή τους, διαπίστωσαν ότι η AI είχε τη δυνατότητα να επιλύσει προβλήματα που ακόμη και καταξιωμένοι ειδικοί θεωρούν εξαιρετικά δύσκολα. «Συνάδελφοί μου είπαν ξεκάθαρα πως τα μοντέλα αυτά πλησιάζουν επίπεδο μαθηματικής ιδιοφυΐας», δήλωσε ο Ken Ono, μαθηματικός στο University of Virginia και ένας εκ των διοργανωτών της συνάντησης.

Το μοντέλο που τέθηκε στη δοκιμασία είναι το o4-mini, μια νέα γενιά μεγάλου γλωσσικού μοντέλου με έμφαση στη λογική σκέψη. Έχει αναπτυχθεί από την OpenAI και ξεχωρίζει για την ικανότητά του να κάνει περίπλοκες συλλογιστικές διαδρομές. Αντίστοιχες επιδόσεις φαίνεται να έχει και το Gemini 2.5 Flash της Google. Αν και βασίζονται στην πρόβλεψη της επόμενης λέξης, όπως και τα παλαιότερα μοντέλα ChatGPT, τα νέα αυτά μοντέλα έχουν υποστεί εξειδικευμένη εκπαίδευση και πιο εντατική ενίσχυση από ανθρώπινους εκπαιδευτές.

Για να παρακολουθήσει την εξέλιξη του o4-mini, η OpenAI ανέθεσε στην μη κερδοσκοπική οργάνωση Epoch AI να δημιουργήσει 300 νέα, μη δημοσιευμένα μαθηματικά προβλήματα. Παλαιότερα μοντέλα απέτυχαν να επιλύσουν περισσότερα από το 2% αυτών των ερωτήσεων. Το o4-mini, ωστόσο, παρουσίασε εντελώς διαφορετική εικόνα.

Η Epoch AI προσέλαβε τον Elliot Glazer, έναν νεοαποφοιτήσαντα διδάκτορα στα μαθηματικά, για να ηγηθεί του benchmarking project που ονομάστηκε FrontierMath. Τα προβλήματα κατανεμήθηκαν σε τέσσερις βαθμίδες δυσκολίας: από πανεπιστημιακό επίπεδο έως και προβλήματα που μόνο λίγοι στον κόσμο μπορούν να κατανοήσουν, πόσο μάλλον να λύσουν. Οι συμμετέχοντες υποχρεώθηκαν να υπογράψουν συμφωνία εχεμύθειας και να επικοινωνούν μόνο μέσω της εφαρμογής Signal, αποφεύγοντας παραδοσιακά μέσα όπως το email που θα μπορούσαν να «εκτεθούν» και να εκπαιδεύσουν κατά λάθος το AI.

Το κίνητρο ήταν και οικονομικό: κάθε ερώτηση που το AI δεν μπορούσε να λύσει, απέφερε στον δημιουργό της 7.500 δολάρια. Όταν η πρόοδος φάνηκε αργή, διοργανώθηκε η δια ζώσης συνάντηση στο Berkeley στις 17 και 18 Μαΐου, με στόχο την ολοκλήρωση των τελευταίων προκλήσεων. Οι μαθηματικοί χωρίστηκαν σε ομάδες και προσπαθούσαν να δημιουργήσουν προβλήματα που θα μπορούσαν οι ίδιοι να λύσουν, αλλά θα αποτύγχανε το μοντέλο.

Όμως το αποτέλεσμα ήταν εντελώς απρόβλεπτο. Το βράδυ του Σαββάτου, ο Ken Ono επιχείρησε να δυσκολέψει το μοντέλο με ένα ανοιχτό πρόβλημα της θεωρίας αριθμών – ερώτηση που θα αποτελούσε σοβαρό θέμα διδακτορικής διατριβής. Το o4-mini απάντησε μέσα σε λίγα λεπτά. Πρώτα μελέτησε τη σχετική βιβλιογραφία, έπειτα κατασκεύασε ένα απλοποιημένο παράδειγμα για εξάσκηση και τελικά παρουσίασε την πλήρη λύση. Με έναν σχεδόν ειρωνικό τόνο, το μοντέλο έκλεισε με τη φράση: «Καμία παραπομπή δεν απαιτείται, καθώς ο μυστηριώδης αριθμός υπολογίστηκε από εμένα!»

Σοκαρισμένος, ο Ono ειδοποίησε τους υπόλοιπους συμμετέχοντες το επόμενο πρωί μέσω του Signal. «Δεν ήμουν προετοιμασμένος να αντιμετωπίσω ένα τέτοιο LLM», ανέφερε, επισημαίνοντας πως ο τρόπος συλλογιστικής του AI ήταν κάτι που θύμιζε περισσότερο επιστήμονα παρά αλγόριθμο.

Παρά το γεγονός ότι στο τέλος βρέθηκαν 10 ερωτήματα που το μοντέλο απέτυχε να λύσει, οι συμμετέχοντες αναγνώρισαν ότι η πρόοδος της τεχνητής νοημοσύνης ήταν εντυπωσιακή και ανησυχητική ταυτόχρονα. Ο Ono παρομοίασε το AI με έναν «ισχυρό συνεργάτη», ενώ ο Yang Hui He, από το London Institute for Mathematical Sciences, σχολίασε ότι η απόδοσή του ξεπερνούσε αυτή ενός πολύ καλού μεταπτυχιακού φοιτητή.

Το ζήτημα πλέον δεν είναι αν το AI μπορεί να λύσει προβλήματα, αλλά πώς θα αλλάξει ο ρόλος των ίδιων των μαθηματικών. Οι συζητήσεις περιστράφηκαν γύρω από μια πιθανή «πέμπτη βαθμίδα» – προβλήματα που κανείς άνθρωπος δεν μπορεί να λύσει. Αν η τεχνητή νοημοσύνη φτάσει εκεί, οι μαθηματικοί ίσως μετατραπούν σε «καθοδηγητές» και συνομιλητές των AI, συμβάλλοντας μέσω της διατύπωσης ερωτημάτων και της δημιουργικής σκέψης.

Ο Ken Ono κατέληξε με μια προειδοποίηση:

Είναι μεγάλο λάθος να υποθέτει κανείς ότι η γενικευμένη τεχνητή νοημοσύνη δεν θα έρθει ποτέ. Δεν είναι απλώς ένας υπολογιστής. Σε ορισμένους τομείς, ήδη ξεπερνά τους καλύτερους φοιτητές μας.

[via]

Loading