Στα δικαστήρια οι OpenAI και Microsoft από 400 εφημερίδες για τη χρήση δεδομένων στο ChatGPT

Σύνοψη

Ένας συνασπισμός σχεδόν 400 τοπικών και περιφερειακών εφημερίδων των ΗΠΑ, με επικεφαλής την Richner Communications, κατέθεσε αγωγή εναντίον των OpenAI και Microsoft.
Οι εκδότες κατηγορούν τις εταιρείες για τη "συστηματική και μυστική" αντιγραφή εκατομμυρίων προστατευμένων άρθρων τους χωρίς άδεια ή αποζημίωση, για την εκπαίδευση εργαλείων όπως το ChatGPT και το Copilot.
Στο κατηγορητήριο αναφέρεται η παράκαμψη των paywalls και η εσκεμμένη αφαίρεση των μεταδεδομένων διαχείρισης πνευματικής ιδιοκτησίας (CMI) κατά τη φάση ανάλυσης δεδομένων.
Οι ενάγοντες ζητούν αποζημιώσεις, κάλυψη πραγματικών ζημιών, επιστροφή εσόδων και δικαστική απαγόρευση περαιτέρω χρήσης του υλικού.
Η αγωγή κατατέθηκε στο Ομοσπονδιακό Δικαστήριο της Νέας Υόρκης και τονίζει τον κίνδυνο πλήρους απαξίωσης της τοπικής δημοσιογραφίας εξαιτίας των παραγωγικών μοντέλων AI.

Ένας συνασπισμός σχεδόν 400 τοπικών και περιφερειακών εκδοτών των ΗΠΑ, με επικεφαλής την Richner Communications, κατέθεσε μήνυση κατά των OpenAI και Microsoft. Οι εταιρείες κατηγορούνται για την παράνομη και χωρίς άδεια άντληση εκατομμυρίων προστατευμένων άρθρων, τα οποία χρησιμοποίησαν για την εκπαίδευση των μεγάλων γλωσσικών μοντέλων (LLMs) πίσω από το ChatGPT και το Copilot.

Η συγκεκριμένη αγωγή ρίχνει φως στις τεχνικές μεθόδους που φέρονται να ακολούθησαν οι OpenAI και Microsoft για την τροφοδότηση των αλγορίθμων τους. Σύμφωνα με το δικόγραφο, οι εκδότες αναφέρουν ότι οι εταιρείες τεχνολογίας χρησιμοποίησαν εξελιγμένα web crawlers για να σαρώσουν συστηματικά τους ιστότοπους ειδήσεων. Η διαδικασία αυτή δεν περιορίστηκε αποκλειστικά σε ελεύθερα προσβάσιμο περιεχόμενο, αλλά τα συστήματα των Microsoft και OpenAI φέρονται να παρέκαμψαν τεχνητά εμπόδια πρόσβασης, συμπεριλαμβανομένων των paywalls, αντλώντας κείμενα που απαιτούσαν ενεργή συνδρομή για την ανάγνωση τους.

Το πιο κρίσιμο τεχνικό επιχείρημα της αγωγής, το οποίο παρουσιάζεται από τον νομικό εκπρόσωπο των εναγόντων, Matthew J. Platkin (πρώην Γενικός Εισαγγελέας του New Jersey), επικεντρώνεται στην αφαίρεση των Πληροφοριών Διαχείρισης Πνευματικών Δικαιωμάτων (Copyright Management Information - CMI). Τα μοντέλα εκπαίδευσης, κατά τη διαδικασία της «κατάποσης» των δεδομένων, διέγραψαν σκόπιμα τα ψηφιακά ίχνη που συνέδεαν το περιεχόμενο με τους νόμιμους ιδιοκτήτες του, μια πρακτική που παραβιάζει ευθέως το Digital Millennium Copyright Act. Ως αποτέλεσμα αυτής της αφαίρεσης, τα παραγωγικά μοντέλα τεχνητής νοημοσύνης «απομνημόνευσαν» ολόκληρα άρθρα και αποδεδειγμένα αναπαράγουν εκτενή αποσπάσματα αυτολεξεί ως απαντήσεις στα prompts των χρηστών.

Η υπερασπιστική γραμμή του Fair Use και ο κίνδυνος για τη δημοσιογραφία

Από την πλευρά τους, η Microsoft και η OpenAI βασίζονται πάγια στο νομικό δόγμα της «ορθής χρήσης». Οι νομικές τους ομάδες υποστηρίζουν ότι η εκπαίδευση μοντέλων AI σε δημόσια διαθέσιμα δεδομένα στο διαδίκτυο συνιστά μετασχηματιστική χρήση και συνεπώς καλύπτεται από τη νομοθεσία περί πνευματικής ιδιοκτησίας. Επιπλέον, τονίζουν διαρκώς ότι τα συστήματά τους δημιουργούν νέα γνώση μέσω μοτίβων και δεν λειτουργούν ως απλά αποθετήρια αντιγραμμένων κειμένων.

Αυτή η υπερασπιστική γραμμή απορρίπτεται κατηγορηματικά από τους εκδότες. Το κατηγορητήριο υπογραμμίζει ότι η εκρηκτική ανάπτυξη των εργαλείων AI, τα οποία ήδη αποφέρουν δισεκατομμύρια δολάρια στις εμπλεκόμενες εταιρείες, βασίστηκε εξ ολοκλήρου στη δική τους εργασία. Οι τοπικές εφημερίδες χρηματοδοτούν την πρωτογενή δημοσιογραφική έρευνα, πληρώνουν ρεπόρτερ για να καλύψουν τοπικά συμβούλια και κοινοτικά θέματα, περιεχόμενο το οποίο τα AI chatbots αδυνατούν να παράγουν πρωτογενώς. Οι ενάγοντες χαρακτηρίζουν την παρούσα κατάσταση ως την απόλυτη καταστροφή για την τοπική δημοσιογραφία, εφόσον τα μοντέλα συνεχίσουν να προσφέρουν τις ειδήσεις απευθείας στους χρήστες, εκμηδενίζοντας την οργανική επισκεψιμότητα προς τις αρχικές πηγές.

Η σχέση Microsoft και OpenAI και η αξία των δεδομένων εκπαίδευσης

Η αγωγή εστιάζει επίσης στην εξαιρετικά στενή συνεργασία μεταξύ της Microsoft και της OpenAI. Η Microsoft έχει επενδύσει δισεκατομμύρια δολάρια για την ανάπτυξη των τεράστιων υποδομών (AI data centers) και την εξασφάλιση της ενσωμάτωσης των μοντέλων GPT στα προϊόντα της. Αυτή η στρατηγική επιτρέπει στη Microsoft να διαθέτει το Copilot απευθείας στο λειτουργικό σύστημα Windows και στη σουίτα Microsoft 365.

Η βιασύνη της Microsoft να κυριαρχήσει στον τομέα της τεχνητής νοημοσύνης απέναντι στην Google οδήγησε, σύμφωνα με τους ενάγοντες, στην παράκαμψη θεμελιωδών κανόνων διαχείρισης πνευματικών δικαιωμάτων. Καθώς οι τεχνολογικές εταιρείες πλησιάζουν στο να εξαντλήσουν τα ελεύθερα δεδομένα στο διαδίκτυο (γνωστό και ως data wall), η αξία των δομημένων, επαληθευμένων ειδήσεων από τοπικές εφημερίδες αυξάνεται κατακόρυφα. Οι εκδότες αντιλαμβάνονται πλέον ότι αποτελούν την κινητήριο δύναμη της τεχνολογικής ανάπτυξης της δεκαετίας και απαιτούν το ανάλογο μερίδιο.

Το ευρύτερο νομικό πλαίσιο και οι προηγούμενες διαμάχες

Η μήνυση της Richner Communications εντάσσεται σε ένα ευρύ κύμα νομικών αντιδράσεων. Τον Δεκέμβριο του 2023, οι New York Times προχώρησαν σε αντίστοιχη αγωγή, κατηγορώντας ευθέως τη Microsoft ότι ενθάρρυνε ενεργά την OpenAI να εκπαιδεύσει τα συστήματά της με υλικό που προστατεύεται από πνευματικά δικαιώματα. Εκκρεμούν επίσης δεκάδες αγωγές από συγγραφείς, προγραμματιστές και καλλιτέχνες για την ενσωμάτωση του πνευματικού τους έργου στα training sets των LLMs. Το Ομοσπονδιακό Δικαστήριο της Νέας Υόρκης εξελίσσεται στο κεντρικό πεδίο μάχης όπου θα κριθεί το νομικό και οικονομικό πλαίσιο της τεχνητής νοημοσύνης.

Οι επιπτώσεις στην ελληνική αγορά

Τα γεγονότα αυτά έχουν άμεσο αντίκτυπο και στον ελληνικό ψηφιακό εκδοτικό χώρο. Η ελληνική ειδησεογραφία αντιμετωπίζει ακριβώς τις ίδιες προκλήσεις με την εξάπλωση του ChatGPT και των Google AI Overviews, διότι τα εργαλεία αυτά αντλούν διαρκώς δεδομένα από ελληνικά sites, προσφέροντας στον Έλληνα αναγνώστη συνοπτικές απαντήσεις στην πρώτη σελίδα των αποτελεσμάτων αναζήτησης.

Τα ελληνικά μέσα, όπως και το Techgear.gr, τα οποία στηρίζονται στα έσοδα από διαφημίσεις και την επισκεψιμότητα, βρίσκονται σε μειονεκτική θέση. Χωρίς το μέγεθος των αμερικανικών οργανισμών για να ασκήσουν αγωγές τέτοιου βεληνεκούς, τα τοπικά portals πιέζονται οικονομικά. Η νομική έκβαση της υπόθεσης της Richner Communications μπορεί να δημιουργήσει ένα παγκόσμιο προηγούμενο, οδηγώντας ενδεχομένως την Ευρωπαϊκή Ένωση να επιβάλει αυστηρότερους κανόνες αδειοδότησης περιεχομένου και δίκαιης αποζημίωσης, προστατεύοντας τη βιωσιμότητα και της εγχώριας δημοσιογραφίας.