Η Amazon αποκάλυψε νέες λεπτομέρειες για το τεχνικό χάος που παρέλυσε εκατοντάδες ιστοσελίδες και εφαρμογές παγκοσμίως, αποδεικνύοντας για ακόμη μία φορά πόσο εύθραυστο μπορεί να είναι το οικοσύστημα του cloud. Η βλάβη, που διήρκεσε σχεδόν μια μέρα και επηρέασε υπηρεσίες όπως το Reddit, το Spotify και το Slack, προκλήθηκε – όπως φαίνεται – από ένα πρόβλημα που ξεκίνησε από εκεί που κανείς δεν θα περίμενε: το DNS.
Σύμφωνα με την ίδια την Amazon, το συμβάν εντοπίστηκε στην περιφέρεια US-East-1, μία από τις πιο κρίσιμες περιοχές λειτουργίας του AWS. Εκεί, ένα σφάλμα στο DNS εμπόδισε τα συστήματα να επικοινωνήσουν με το API της DynamoDB, τη βάση δεδομένων χαμηλής καθυστέρησης που στηρίζει εφαρμογές με υψηλές απαιτήσεις σε ταχύτητα και φόρτο, από online παιχνίδια (π.χ. Roblox, Fortnite) μέχρι υπηρεσίες IoT και πλατφόρμες ηλεκτρονικού εμπορίου.
Η βλάβη, όμως, δεν σταμάτησε εκεί. Ένα υποσύστημα του EC2, της υπηρεσίας που τρέχει τα εικονικά μηχανήματα του AWS, απέτυχε με τη σειρά του, ακριβώς επειδή εξαρτάται από τη DynamoDB. Το αποτέλεσμα ήταν μια αλυσιδωτή αντίδραση που επιβράδυνε ή σταμάτησε κρίσιμες υπηρεσίες σε όλο το δίκτυο.
Η Amazon επιβεβαίωσε το περιστατικό μέσω της επίσημης σελίδας κατάστασης του AWS, τονίζοντας ότι:
Μετά την επίλυση του προβλήματος DNS στη DynamoDB, οι υπηρεσίες άρχισαν να ανακάμπτουν, αλλά ακολούθησε επιπλέον επιβάρυνση στο εσωτερικό υποσύστημα του EC2, το οποίο είναι υπεύθυνο για την εκκίνηση των instances λόγω της εξάρτησής του από τη DynamoDB.
Η διαδικασία αποκατάστασης δεν ήταν άμεση. Αντί να επαναφέρουν απότομα το σύνολο των υπηρεσιών, οι μηχανικοί του AWS επέλεξαν μια σταδιακή, «περιορισμένη» προσέγγιση, ώστε να αποφύγουν νέα κατάρρευση. Μέχρι τις 23:01 ώρα Ελλάδας, σχεδόν μισή μέρα μετά την έναρξη της βλάβης, το μεγαλύτερο μέρος των υπηρεσιών είχε αποκατασταθεί — αν και όχι πλήρως.
«Ορισμένες υπηρεσίες όπως τα AWS Config, Redshift και Connect συνεχίζουν να αντιμετωπίζουν καθυστέρηση στην επεξεργασία μηνυμάτων, κάτι που θα χρειαστεί μερικές ώρες ακόμη για να ομαλοποιηθεί», ανέφερε η Amazon. Με άλλα λόγια, η λειτουργία είχε επανέλθει, αλλά το σύστημα ακόμα “έγλυφε τις πληγές του”.
Η επίπτωση της διακοπής ήταν τεράστια. Για περίπου 70 λεπτά, βασικές πλατφόρμες streaming, επικοινωνίας και παραγωγικότητας κατέρρευσαν, αφήνοντας εκατομμύρια χρήστες χωρίς πρόσβαση. Σύμφωνα με εκτιμήσεις της DesignRush, η διακοπή αυτή θα μπορούσε να έχει κοστίσει στο Netflix γύρω στα 4,5 εκατομμύρια δολάρια, στο Spotify περίπου 2 εκατομμύρια, ενώ η Slack (και κατ’ επέκταση η μητρική εταιρεία Salesforce) ενδέχεται να έχασε πάνω από 1,1 εκατομμύριο δολάρια σε διαφυγόντα έσοδα.
Αυτό το οικονομικό σοκ αναδεικνύει μια ευρύτερη αλήθεια: όταν περισσότεροι από τους μισούς οργανισμούς της λίστας Fortune 500 στηρίζονται στον ίδιο πάροχο cloud, ένα και μόνο σφάλμα μπορεί να προκαλέσει ντόμινο στην παγκόσμια οικονομία.
Το περιστατικό του AWS είναι μια υπενθύμιση ότι ακόμα και οι μεγαλύτεροι παίκτες του cloud δεν είναι απρόσβλητοι. Όσο οι επιχειρήσεις συνεχίζουν να μεταφέρουν κρίσιμες λειτουργίες σε κεντρικά διαχειριζόμενες υποδομές, η εξάρτηση από έναν πάροχο καθίσταται ταυτόχρονα πλεονέκτημα και αχίλλειος πτέρνα.
Αν και η Amazon κατάφερε να επαναφέρει τις υπηρεσίες της σχετικά γρήγορα, το περιστατικό αποδεικνύει πως τα όρια μεταξύ αξιοπιστίας και κατάρρευσης στο cloud είναι πιο λεπτά απ’ όσο θα ήθελε να παραδεχτεί η βιομηχανία. Το cloud υπόσχεται διαθεσιμότητα «24/7», αλλά η πραγματικότητα είναι πως ένα απλό λάθος σε μια γραμμή DNS αρκεί για να ρίξει το μισό διαδίκτυο.
[source]