«Κάτω» το μισό Internet παγκοσμίως λόγω προβλήματος στην Cloudflare

Λίγα πράγματα μπορούν να σταματήσουν το διαδίκτυο τόσο απότομα όσο μια κατάρρευση στο Cloudflare, όπως ενδεχομένως έχετε διαπιστώσει οι περισσότεροι εδώ και μερικές ώρες. Ένα τεχνικό ζήτημα σε έναν από τους σημαντικότερους παρόχους διαδικτυακής υποδομής παγκοσμίως μετατράπηκε σε ντόμινο που παρέσυρε μαζί του πλατφόρμες, υπηρεσίες και εργαλεία που εκατομμύρια άνθρωποι χρησιμοποιούν καθημερινά.

Το πρόβλημα ξεκίνησε λίγο μετά τις 12:00, όταν ένα κύμα από error 500 άρχισε να εμφανίζεται σε ιστοσελίδες κάθε είδους. Η επίσημη ανακοίνωση μίλησε για «widespread 500 errors» και «internal server error», αλλά η πραγματικότητα όπως τη βίωσε ο χρήστης ήταν απλούστερη: το web άρχισε να καταρρέει μπροστά του. Αν προσπαθούσες να ανοίξεις το X, αντί για timeline έβλεπες ένα μήνυμα σφάλματος. To ChatGPT της OpenAI αρνιόταν να σηκώσει οποιοδήποτε prompt. Ακόμη και το Canva, εργαλείο-πανάκεια για δημιουργούς και designers, έμεινε εκτός μάχης.

Η λίστα των θυμάτων ήταν εντυπωσιακή: Letterboxd, League of Legends, διάφοροι πάροχοι API, μικρά και μεγάλα sites — όλοι έπεσαν ταυτόχρονα, υπενθυμίζοντας ότι ο ιστός είναι στην πραγματικότητα ένα τεράστιο σύστημα, όπου η αστοχία ενός κόμβου μπορεί να προκαλέσει παγκόσμιες δονήσεις.

Το πιο ειρωνικό; Ακόμη και υπηρεσίες που έχουν σχεδιαστεί για να παρακολουθούν τέτοιου είδους προβλήματα, όπως το Downdetector, κατέρρευσαν και αυτές. Όταν το site που έχει ως αποστολή να σου λέει τι είναι εκτός λειτουργίας… είναι και το ίδιο εκτός λειτουργίας, τότε καταλαβαίνεις ότι κάτι πολύ μεγάλο έχει πάει στραβά.

Όπως επιβεβαίωσε η Cloudflare, το πρόβλημα ήταν παγκόσμιο και επηρέαζε «πολλαπλούς πελάτες». Παράλληλα, τα δικά του monitoring εργαλεία και APIs αρνούνταν να συνεργαστούν, κάτι που δυσκόλεψε ακόμη περισσότερο τις προσπάθειες αποκατάστασης. Με άλλα λόγια, οι μηχανικοί προσπαθούσαν να λύσουν το πρόβλημα χωρίς να έχουν πρόσβαση στα συνήθη εργαλεία εντοπισμού βλαβών — μια κατάσταση που θυμίζει την απόπειρα να σβήσεις φωτιά ενώ έχει κοπεί το νερό.

Παρόλο που η Cloudflare δεν έδωσε συγκεκριμένη αιτία, πολλοί παρατήρησαν ότι την ίδια μέρα υπήρχε προγραμματισμένη συντήρηση στο data center του Santiago. Δεν είναι καθόλου σαφές αν συνδέεται άμεσα με το συμβάν, αλλά ο συγχρονισμός δύσκολα περνά απαρατήρητος.

Το περιστατικό αυτό φέρνει στη μνήμη μεγάλες διακοπές του παρελθόντος, όπως τα περιβόητα outages της Amazon Web Services. Σε όλες αυτές τις περιπτώσεις, η ίδια αλήθεια γίνεται ολοένα και πιο εμφανής: ένα τεράστιο μέρος του σύγχρονου διαδικτύου στηρίζεται σε λίγες εταιρείες-κλειδιά. Κι όταν αυτές αντιμετωπίζουν πρόβλημα, η επίδραση είναι άμεση, εκτεταμένη και συχνά απρόβλεπτη.

Στην Ευρώπη οι υπηρεσίες φάνηκαν να επανέρχονται σχετικά γρήγορα. Στις ΗΠΑ όμως το κύμα αναφορών συνέχισε να αυξάνεται για αρκετή ώρα, δείχνοντας ότι η αποκατάσταση δεν είναι καθόλου ομοιόμορφη.

Loading