Η AI ΔΕΝ ΕΙΝΑΙ ο γιατρός σου: Τα ποσοστά αποτυχίας και οι κρυφοί κίνδυνοι για τους ασθενείς

Σύνοψη

Το 50% των ιατρικών συμβουλών που παρέχονται από μοντέλα Τεχνητής Νοημοσύνης χαρακτηρίζονται από ελαφρώς έως εξαιρετικά προβληματικές.
Το Grok της xAI σημείωσε το υψηλότερο ποσοστό λαθών (58%), ακολουθούμενο από το ChatGPT (52%) και το Meta AI (50%).
Κανένα chatbot δεν κατάφερε να παράγει μια πλήρως ακριβή λίστα ιατρικών πηγών, επινοώντας συχνά ανύπαρκτες έρευνες και συγγραφείς.
Ενώ τα μοντέλα μπορούν θεωρητικά να βρουν τη σωστή απάντηση στο 95% των περιπτώσεων, οι χρήστες καταλήγουν στο σωστό συμπέρασμα μόλις στο 35% του χρόνου λόγω κακής ερμηνείας.
Η ακρίβεια των AI μοντέλων εκτοξεύεται άνω του 90% μόνο όταν αναλύουν ήδη υπάρχοντα εργαστηριακά αποτελέσματα, ενώ καταρρέουν (80% αποτυχία) στη διάγνωση βασικών συμπτωμάτων.

Η αναζήτηση ιατρικών συμπτωμάτων στο διαδίκτυο αποτελεί εδώ και δύο δεκαετίες μια πάγια συνήθεια των χρηστών, συχνά με καταστροφικά αποτελέσματα για την ψυχολογία τους. Ωστόσο, η μετάβαση από τις παραδοσιακές μηχανές αναζήτησης στα Μεγάλα Γλωσσικά Μοντέλα (LLMs) δημιουργεί ένα εντελώς νέο, σημαντικά πιο περίπλοκο τοπίο.

Μια νέα, εκτενής επιστημονική μελέτη καταρρίπτει τον μύθο της αλγοριθμικής αυθεντίας στην υγεία, αποδεικνύοντας με σκληρά δεδομένα ότι η Τεχνητή Νοημοσύνη είναι, προς το παρόν, ένας εξαιρετικά αναξιόπιστος ιατρικός σύμβουλος.

Πόσο αξιόπιστες είναι οι ιατρικές συμβουλές από τα AI Chatbots;

Σύμφωνα με την έρευνα, οι ιατρικές απαντήσεις των AI chatbots είναι προβληματικές στο 50% των περιπτώσεων. Εργαλεία όπως τα ChatGPT, Grok και Meta AI παράγουν λανθασμένες παραπομπές, ψευδή δεδομένα και παραπλανητικές οδηγίες, ειδικά σε ερωτήσεις διατροφής. Αντίθετα, η ακρίβειά τους βελτιώνεται δραματικά όταν τροφοδοτούνται με κλινικές εξετάσεις αντί για ασαφή συμπτώματα.

Οι ερευνητές υπέβαλαν 250 εξειδικευμένες ιατρικές ερωτήσεις σε πέντε κορυφαία chatbots Τεχνητής Νοημοσύνης. Τα ευρήματα διαλύουν κάθε ψευδαίσθηση ασφάλειας: σχεδόν το 20% των απαντήσεων αξιολογήθηκαν ως «άκρως προβληματικές» (με άμεσο κίνδυνο για την υγεία του ασθενούς), το 30% ως «προβληματικές» και ένα επιπλέον 30% ως «ελαφρώς προβληματικές». Εντυπωσιακό είναι το γεγονός ότι από τις 250 ερωτήσεις, τα συστήματα αρνήθηκαν να απαντήσουν (ως όφειλαν, λόγω έλλειψης ιατρικής αδείας) μόνο σε δύο. Αυτό υποδηλώνει μια επικίνδυνη απουσία προστατευτικών δικλείδων από τις εταιρείες ανάπτυξης.

Συγκρίνοντας τις επιδόσεις, το Grok (της πλατφόρμας X) κατέγραψε τη χειρότερη επίδοση, με το 58% των απαντήσεών του να χαρακτηρίζονται επικίνδυνες ή λανθασμένες. Το ChatGPT της OpenAI ακολούθησε από κοντά με 52%, ενώ το Meta AI βρέθηκε στο 50%.

Η ακρίβεια των απαντήσεων δεν είναι ομοιόμορφη, αλλά εξαρτάται άμεσα από τη φύση της ερώτησης και τον ιατρικό κλάδο. Τα μοντέλα επέδειξαν την καλύτερη συμπεριφορά σε ερωτήματα σχετικά με τα εμβόλια και την ογκολογία. Ο λόγος είναι αμιγώς τεχνικός: αυτοί οι τομείς διαθέτουν τεράστιες, αυστηρά δομημένες και επιστημονικά ελεγμένες βάσεις δεδομένων, περιορίζοντας το περιθώριο λάθους στο 25%.

Στον αντίποδα, τομείς όπως η διατροφολογία, τα συμπληρώματα και η αθλητική απόδοση αποτελούν «ναρκοπέδια» για την Τεχνητή Νοημοσύνη. Επειδή ο Παγκόσμιος Ιστός βρίθει από αντικρουόμενες απόψεις, SEO-βελτιστοποιημένα blogs αμφίβολης ποιότητας και ψευδοεπιστήμη, τα μοντέλα αδυνατούν να φιλτράρουν τον θόρυβο. Το πρόβλημα γιγαντώνεται στις ανοιχτού τύπου ερωτήσεις (π.χ. «Ποιες εναλλακτικές θεραπείες υπάρχουν για τον καρκίνο;»), όπου το 32% των απαντήσεων κρίθηκε άκρως επικίνδυνο, συγκριτικά με μόλις 7% στις κλειστές ερωτήσεις (Ναι/Όχι).

Το φαινόμενο της πειστικότητας και οι ανύπαρκτες παραπομπές

Ο μεγαλύτερος κίνδυνος που αναδεικνύει η έρευνα δεν είναι η ίδια η παραπληροφόρηση, αλλά ο ακαδημαϊκός μανδύας με τον οποίο αυτή «ντύνεται». Όταν οι ερευνητές ζήτησαν από τα chatbots να παραθέσουν 10 επιστημονικές πηγές για να στηρίξουν τους ισχυρισμούς τους, η διάμεση πληρότητα ανήλθε μόλις στο 40%.

Σε σύνολο 25 ξεχωριστών προσπαθειών, κανένα απολύτως chatbot δεν κατάφερε να δημιουργήσει μια 100% ακριβή λίστα παραπομπών. Τα μοντέλα παρήγαγαν παραισθήσεις: εμφάνιζαν σπασμένα links, απέδιδαν πραγματικές έρευνες σε λάθος συγγραφείς ή, το πιο ανησυχητικό, επινοούσαν εντελώς φανταστικές επιστημονικές δημοσιεύσεις, δίνοντας τους πειστικούς τίτλους και ανύπαρκτους αριθμούς DOI. Για έναν απλό χρήστη, η απάντηση φαντάζει ως ένα άρτιο, επιστημονικά τεκμηριωμένο κείμενο.

Το παράδοξο της διεπαφής: Αλγόριθμος εναντίον χρήστη

Ένα από τα πιο ενδιαφέροντα στατιστικά της μελέτης αφορά τη διαφορά μεταξύ της τεχνικής δυνατότητας του μοντέλου και της πρακτικής εφαρμογής από τον άνθρωπο. Στο εσωτερικό τους περιβάλλον, τα μοντέλα διέθεταν τα δεδομένα για να απαντήσουν σωστά στο 95% των περιπτώσεων. Ωστόσο, όταν πραγματικοί άνθρωποι προσπάθησαν να χρησιμοποιήσουν τα chatbots για να λύσουν ένα ιατρικό πρόβλημα, το ποσοστό επιτυχίας τους έπεσε κάτω από το 35%. Το ποσοστό αυτό είναι στατιστικά ταυτόσημο με το να μην είχαν χρησιμοποιήσει καθόλου την Τεχνητή Νοημοσύνη. Το πρόβλημα εντοπίζεται στην ικανότητα του μέσου χρήστη να συντάξει το σωστό prompt, να αξιολογήσει τις πολλαπλές μεταβλητές που επιστρέφει το AI και να εφαρμόσει τη γνώση στην περίπτωσή του.

Η μοναδική περίπτωση που η AI λειτουργεί

Υπάρχει μια ξεκάθαρη διαχωριστική γραμμή μεταξύ της διάγνωσης και της ανάλυσης δεδομένων. Όταν στους αλγορίθμους δόθηκαν γενικές περιγραφές (ηλικία, φύλο, πόνος, αδυναμία), απέτυχαν να προτείνουν τις σωστές πιθανές παθήσεις σε ποσοστό άνω του 80%. Η ιατρική διάγνωση απαιτεί ολιστική προσέγγιση, οπτική επαφή, ιστορικό και κλινική εμπειρία που οι αλγόριθμοι στερούνται.

Αντιθέτως, όταν οι ερευνητές τροφοδότησαν τα μοντέλα με σκληρά δεδομένα –συγκεκριμένα ευρήματα εξετάσεων, τιμές αιματολογικών τεστ και αναφορές ακτινογραφιών– η ακρίβεια τους εκτοξεύτηκε πάνω από το 90%. Η Τεχνητή Νοημοσύνη, σε αυτό το στάδιο, είναι ένα ισχυρό αναλυτικό εργαλείο συνδυασμού παραμέτρων, όχι ένας γενικός ιατρός πρώτης γραμμής.