GPTBot: Σαρώνει όλες τις ιστοσελίδες για λογαριασμό της OpenAI

Οι δικαστικές διαμάχες για την χωρίς άδεια εκμετάλλευση του…Internet προκειμένου να εκπαιδεύσει τα AI εργαλεία της δεν φαίνεται να πτοούν την OpenAI, η οποία προχωρά στο λανσάρισμα ενός νέου web crawler για να βελτιώσει ακόμη περισσότερο τα μοντέλα της.

Πρόκειται για το GPTBot, ένα σύστημα που σαρώνει όλες τις ιστοσελίδες του Διαδικτύου, όπως περίπου λειτουργούν τα αντίστοιχα συστήματα των Google, Microsoft κλπ. για λογαριασμό των μηχανών αναζήτησης. Η διαφορά, βέβαια, του GPTBot είναι ότι συλλέγει όλες τις πληροφορίες, ακόμα και αυτές που κρύβονται πίσω από paywalls, για να εκπαιδεύσει τα AI μοντέλα της OpenAI.

Ο οργανισμός ξεκαθαρίζει, πάντως, ότι οι διαχειριστές των ιστοσελίδων μπορούν να απαγορεύσουν την πρόσβαση στο GPTBot, είτε μερικώς είτε ολοκληρωτικά, μπλοκάροντας την διεύθυνση IP του web crawler στο αρχείο Robots.txt της ιστοσελίδας τους.

Υπενθυμίζουμε ότι τα ChatGPT 3.5 και ChatGPT 4 έχουν εκπαιδευτεί με online δεδομένα και κείμενα που έχει δημοσιευθεί έως και τον Σεπτέμβριο του 2021. Αντιλαμβάνεστε, λοιπόν, ότι είναι ιδιαίτερα κρίσιμο να ενημερωθεί η βάση με όσο το δυνατόν πιο πρόσφατο υλικό, απλά δεν είναι εφικτό να ακολουθήσουν ανενόχλητοι την ίδια τακτική.

[OpenAI]

Loading