Η AI περνά τα τεστ για ανθρώπους: Το ChatGPT και η πρόκληση των CAPTCHAs
Η ασφάλεια στο διαδίκτυο βασίζεται σε μεγάλο βαθμό στα CAPTCHAs, εκείνα τα μικρά τεστ που συναντάμε καθημερινά σε ιστοσελίδες και τα οποία έχουν σχεδιαστεί για να ξεχωρίζουν τους ανθρώπους από τα bots. Μέχρι σήμερα θεωρούνταν ένα αξιόπιστο εργαλείο, καθώς μόνο οι χρήστες με ανθρώπινη κρίση μπορούσαν να αναγνωρίσουν γράμματα, να λύσουν μικρούς γρίφους ή να ξεχωρίσουν εικόνες. Όμως, νέα έρευνα αποκαλύπτει ότι το ChatGPT μπορεί να ξεγελαστεί με έξυπνα διατυπωμένες οδηγίες και να καταφέρει να λύσει ακόμα και πιο περίπλοκα CAPTCHAs, κάτι που θέτει υπό αμφισβήτηση την αποτελεσματικότητα αυτής της μεθόδου ασφαλείας.
Η αποκάλυψη έγινε από την ομάδα ασφαλείας της SPLX, με τον ερευνητή Dorian Schultz να περιγράφει πώς εκείνος και οι συνεργάτες του κατάφεραν να οδηγήσουν το ChatGPT σε ενέργειες που κανονικά απορρίπτει λόγω πολιτικών χρήσης. Όταν ζητήθηκε ευθέως από το σύστημα να λύσει μια σειρά από CAPTCHAs, το μοντέλο αρνήθηκε, επιμένοντας πως κάτι τέτοιο παραβιάζει τους κανόνες. Εκείνοι, όμως, αποφάσισαν να αλλάξουν τακτική.
Με μια πιο δημιουργική προσέγγιση, που ο Schultz ονόμασε «παραπλάνηση και σκηνοθετημένη συναίνεση», έστησαν ένα σενάριο όπου το ChatGPT κλήθηκε να λύσει ψεύτικα CAPTCHAs. Του εξήγησαν ότι σε ορισμένες περιπτώσεις τα τεστ ήταν ψεύτικα και ότι θα έπρεπε να τα αντιμετωπίζει με διαφορετικό τρόπο. Το σύστημα όχι μόνο συμφώνησε, αλλά δήλωσε πως το θεωρεί ενδιαφέρον ως πείραμα λογικής και λήψης αποφάσεων, υπό την προϋπόθεση ότι δεν θα παραβίαζε πολιτικές χρήσης.
Η συνέχεια ήταν εντυπωσιακή. Η ομάδα μετέφερε αυτή τη συνομιλία σε έναν νέο agent chat, παρουσιάζοντάς τη ως «προηγούμενη συζήτηση». Το αποτέλεσμα ήταν το ChatGPT-4o να αρχίσει να λύνει CAPTCHAs – από τα απλά «one-click» μέχρι πιο σύνθετα τεστ λογικής και αναγνώρισης κειμένου. Αν και είχε μεγαλύτερη δυσκολία με τα καθαρά οπτικά τεστ που απαιτούν μετακίνηση ή περιστροφή εικόνων, τα αποτελέσματα έδειξαν ότι μπορεί πλέον να ανταγωνιστεί ανθρώπινες δεξιότητες σε τομείς όπου μέχρι τώρα τα bots υστερούσαν.
Σύμφωνα με τον Schultz, πρόκειται για την πρώτη καταγεγραμμένη περίπτωση GPT agent που κατάφερε να ολοκληρώσει πολύπλοκα, βασισμένα σε εικόνες CAPTCHAs. Η διαπίστωση αυτή προκαλεί εύλογη ανησυχία, καθώς υπονομεύει τη χρησιμότητα ενός εργαλείου που θεωρείται εδώ και χρόνια κεντρικό για την προστασία από αυτοματοποιημένες επιθέσεις.
Η OpenAI δεν απάντησε άμεσα στα ερωτήματα των δημοσιογράφων σχετικά με τα ευρήματα. Ωστόσο, το περιστατικό εντάσσεται σε ένα ευρύτερο πλαίσιο προβληματισμού γύρω από τις αδυναμίες της τεχνητής νοημοσύνης απέναντι σε τεχνικές όπως το prompt injection. Δεν είναι η πρώτη φορά που ερευνητές ή red teams έχουν καταφέρει να παρακάμψουν τα ενσωματωμένα φίλτρα ασφαλείας, οδηγώντας τα μοντέλα να εκτελέσουν ενέργειες που σε διαφορετική περίπτωση θα απέρριπταν.
Μόλις αυτή την εβδομάδα, η εταιρεία Radware παρουσίασε πώς ένα προσεκτικά διατυπωμένο πειραματικό prompt μπορούσε να κάνει το ερευνητικό εργαλείο του ChatGPT να αποσπάσει μυστικά από Gmail λογαριασμούς. Το κενό ασφαλείας διορθώθηκε από την OpenAI. Παράλληλα, η Amazon διόρθωσε πρόσφατα δύο σοβαρά προβλήματα στο Q Developer που το καθιστούσαν ευάλωτο σε παρόμοιες επιθέσεις με prompt injection και remote code execution.
Όλα αυτά δείχνουν ότι η μάχη μεταξύ δημιουργών AI και ειδικών στην κυβερνοασφάλεια βρίσκεται σε συνεχή εξέλιξη. Κάθε νέο βήμα στις δυνατότητες των γλωσσικών μοντέλων συνοδεύεται από νέες προκλήσεις, με το ερώτημα της ασφάλειας να παραμένει πάντα στην πρώτη γραμμή.
Το βασικό συμπέρασμα είναι πως τα CAPTCHAs, ως μέσο διαχωρισμού ανθρώπων και bots, ίσως πλησιάζουν στο τέλος της αποτελεσματικής τους πορείας. Όσο η τεχνητή νοημοσύνη αποκτά μεγαλύτερη ευελιξία και ικανότητες, τόσο οι παραδοσιακοί μηχανισμοί ασφαλείας φαίνεται να γίνονται ξεπερασμένοι.
[via]