Παρά την εντυπωσιακή πρόοδο που έχει σημειωθεί τα τελευταία χρόνια, οι λεγόμενες «παραισθήσεις» των συστημάτων τεχνητής νοημοσύνης εξακολουθούν να αποτελούν ένα από τα πιο δύσκολα και άλυτα προβλήματα. Με τον όρο αυτόν περιγράφονται οι φαινομενικά εύλογες αλλά εντελώς λανθασμένες πληροφορίες που παράγουν μοντέλα όπως το GPT-5 και διαδεδομένα εργαλεία συνομιλίας όπως το ChatGPT.
Μια πρόσφατη μελέτη της OpenAI ρίχνει φως στις βασικές αιτίες του φαινομένου, δείχνοντας ότι, ακόμη και μεταξύ διαφορετικών εκδόσεων ενός chatbot, οι απαντήσεις μπορεί να φαίνονται ασφαλείς, λεπτομερείς και καλά δομημένες, αλλά στην πραγματικότητα να είναι απολύτως εσφαλμένες.
Χαρακτηριστικό παράδειγμα ήταν όταν οι ερευνητές ζήτησαν από ένα chatbot αντικειμενικές πληροφορίες, όπως τον τίτλο της διδακτορικής διατριβής του Adam Tauman Kalai, ενός εκ των συγγραφέων της μελέτης. Το μοντέλο έδωσε τρεις διαφορετικές εκδοχές, όλες λανθασμένες. Παρόμοιο αποτέλεσμα προέκυψε όταν ζητήθηκε η ημερομηνία γέννησής του: τρεις απαντήσεις, τρεις φορές λάθος, αλλά πάντα με την ίδια βεβαιότητα. Το ερώτημα που γεννιέται είναι προφανές: πώς μπορεί μια τεχνητή νοημοσύνη να εμφανίζεται τόσο σίγουρη, ενώ στην πραγματικότητα λέει ανακρίβειες;
Η απάντηση, σύμφωνα με την OpenAI, βρίσκεται στον ίδιο τον τρόπο εκπαίδευσης αυτών των συστημάτων. Τα γλωσσικά μοντέλα μαθαίνουν προβλέποντας την επόμενη λέξη μέσα σε ένα κείμενο, χωρίς να αξιολογείται άμεσα η αλήθεια του περιεχομένου. Με απλά λόγια, το σύστημα μαθαίνει να παράγει ρέοντα και πειστικά κείμενα, αλλά δεν διαθέτει έναν μηχανισμό που να ξεχωρίζει το αληθές από το ψευδές. Το πρόβλημα γίνεται πιο έντονο όταν πρόκειται για σπάνιες ή ασυνήθιστες πληροφορίες, οι οποίες δεν εμφανίζονται συχνά στα δεδομένα εκπαίδευσης και δεν ακολουθούν αναγνωρίσιμα μοτίβα. Έτσι εξηγείται γιατί, καθώς εξελίσσονται τα μοντέλα, μειώνονται οι ορθογραφικές και συντακτικές αστοχίες, αλλά συνεχίζονται οι «παραισθήσεις» γύρω από εξειδικευμένα δεδομένα.
Η μελέτη, ωστόσο, δεν μένει μόνο στην πηγή του προβλήματος. Εστιάζει και στον τρόπο με τον οποίο αξιολογούνται σήμερα τα γλωσσικά μοντέλα μεγάλης κλίμακας. Η OpenAI τονίζει ότι τα μοντέλα αυτά έχουν κίνητρο να «μαντεύουν» με αυτοπεποίθηση, όπως κάποιος που συμπληρώνει ένα σταυρόλεξο: αν αφήσει ένα πεδίο κενό, παίρνει μηδέν, αλλά αν απαντήσει έστω και στην τύχη, μπορεί να σταθεί τυχερός. Το αποτέλεσμα είναι ότι τα συστήματα προτιμούν να δίνουν μια βέβαιη απάντηση – έστω και λανθασμένη – αντί να παραδεχτούν ότι δεν γνωρίζουν.
Για να αντιμετωπιστεί αυτό το φαινόμενο, οι ειδικοί της OpenAI προτείνουν αλλαγές στον τρόπο αξιολόγησης. Αντί τα συστήματα να επιβραβεύονται για κάθε απάντηση που μοιάζει πειστική, θα πρέπει να τιμωρούνται αυστηρότερα για λάθη και να επιβραβεύονται όταν αναγνωρίζουν τα όριά τους. Η λογική θυμίζει τις σχολικές εξετάσεις: σε ένα τεστ, η λάθος απάντηση μπορεί να κοστίσει περισσότερους βαθμούς απ’ ό,τι μια κενή απάντηση. Έτσι, ενθαρρύνεται η προσοχή και όχι το τυχαίο ρίσκο.
Η αλλαγή αυτή, όπως εξηγούν οι ερευνητές, θα μπορούσε να μεταβάλει ριζικά τη συμπεριφορά των μοντέλων. Με την ενημέρωση των βασικών δεικτών αξιολόγησης, τα chatbots δεν θα ανταγωνίζονται πλέον στο ποιο θα φανεί πιο σίγουρο, αλλά στο ποιο θα είναι πιο αξιόπιστο. Αν η νέα μεθοδολογία εφαρμοστεί σε μεγάλη κλίμακα, οι «παραισθήσεις» θα μπορούσαν να περιοριστούν αισθητά, οδηγώντας σε συστήματα τεχνητής νοημοσύνης που απαντούν με μεγαλύτερη υπευθυνότητα και ειλικρίνεια.
[via]