Φανταστείτε να πληκτρολογείτε μια αλληλουχία DNA σε ένα πεδίο αναζήτησης και μέσα σε δευτερόλεπτα να εντοπίζετε πού ακριβώς εμφανίζεται σε όλα τα γνωστά γενετικά δεδομένα του πλανήτη. Αυτό που μέχρι πρόσφατα ακουγόταν σαν επιστημονική φαντασία είναι πλέον πραγματικότητα, χάρη στο MetaGraph, ένα επαναστατικό εργαλείο που δημιούργησαν ερευνητές του ETH Zurich και που λειτουργεί, όπως λένε οι ίδιοι, σαν ένα “Google για DNA”.
Το MetaGraph υπόσχεται να αλλάξει ριζικά τον τρόπο με τον οποίο οι επιστήμονες αναζητούν, συγκρίνουν και αναλύουν γενετικά δεδομένα. Συμπιέζοντας τεράστιες παγκόσμιες βάσεις δεδομένων κατά 300 φορές, καθιστά δυνατή την αναζήτηση τρισεκατομμυρίων αλληλουχιών DNA και RNA σε λίγα μόλις δευτερόλεπτα, χωρίς να χρειάζεται οι ερευνητές να κατεβάζουν τεράστια αρχεία. Το αποτέλεσμα είναι μια ταχύτητα και αποδοτικότητα που θα μπορούσε να επιταχύνει από την ιατρική έρευνα μέχρι την απόκριση σε πανδημίες.
Η επανάσταση του DNA sequencing τις τελευταίες δεκαετίες έχει αλλάξει τη βιοϊατρική όπως τη γνωρίζουμε. Οι νέες τεχνολογίες επόμενης γενιάς (next-generation sequencing) επιτρέπουν σήμερα την ταχεία αποκωδικοποίηση του γονιδιώματος ανθρώπων, φυτών και μικροοργανισμών. Χάρη σε αυτές, το 2020 και 2021 οι επιστήμονες μπόρεσαν να αναλύσουν και να παρακολουθήσουν σε πραγματικό χρόνο τις μεταλλάξεις του SARS-CoV-2.
Όμως η επιτυχία αυτή είχε και μια παρενέργεια: έναν κατακλυσμό δεδομένων. Οι βάσεις SRA (Sequence Read Archive) στις ΗΠΑ και ENA (European Nucleotide Archive) στην Ευρώπη φιλοξενούν πλέον περίπου 100 petabytes πληροφοριών, ποσότητα αντίστοιχη με όλο το κείμενο που υπάρχει στο διαδίκτυο. Μέχρι σήμερα, για να βρει κανείς κάτι συγκεκριμένο σε αυτόν τον όγκο δεδομένων απαιτούνταν τεράστιοι υπολογιστικοί πόροι και χρόνος.
Η ομάδα του ETH Zurich, με επικεφαλής τον καθηγητή Gunnar Rätsch, αποφάσισε να αλλάξει αυτό το τοπίο. Αντί να χρειάζεται κανείς να κατεβάσει ολόκληρες βάσεις δεδομένων, το MetaGraph επιτρέπει αναζήτηση κατευθείαν μέσα στα ακατέργαστα δεδομένα DNA ή RNA. Ο χρήστης απλώς εισάγει μια αλληλουχία ενδιαφέροντος, και το σύστημα του δείχνει αμέσως πού εμφανίζεται στα διαθέσιμα παγκόσμια δεδομένα.
«Είναι σαν να έχεις ένα Google για το DNA», εξηγεί ο Rätsch. Μέχρι τώρα, οι ερευνητές μπορούσαν να κάνουν αναζήτηση μόνο σε περιγραφικά μεταδεδομένα – για παράδειγμα, σε πληροφορίες για το είδος ή το δείγμα – και έπειτα να κατεβάζουν ολόκληρα αρχεία για να εξετάσουν τις αλληλουχίες. Μια διαδικασία αργή, ακριβή και συχνά αποσπασματική.
Το MetaGraph αλλάζει εντελώς το μοντέλο αυτό. Χάρη στη συμπίεση των δεδομένων και σε ευφυείς μαθηματικές δομές, καθιστά τις αναζητήσεις όχι μόνο γρήγορες αλλά και οικονομικές. Σύμφωνα με τους δημιουργούς του, το συνολικό σύνολο όλων των διαθέσιμων βιολογικών αλληλουχιών θα μπορούσε να χωρέσει σε λίγους μόνο σκληρούς δίσκους, ενώ μια μεγάλη αναζήτηση θα κόστιζε λιγότερο από ένα δολάριο ανά megabase.
Η ομάδα του ETH περιγράφει τη μέθοδό της ως μια τεράστια μαθηματική μήτρα με εκατομμύρια στήλες και τρισεκατομμύρια γραμμές. Το MetaGraph οργανώνει και συμπιέζει τα δεδομένα χρησιμοποιώντας γραφήματα (graphs) που συνδέουν τις αλληλουχίες DNA μεταξύ τους και με τα μεταδεδομένα τους.
Το αποτέλεσμα είναι μια εκπληκτική συμπίεση 300 προς 1, που λειτουργεί όπως η σύνοψη ενός βιβλίου: αφαιρεί τις επαναλήψεις αλλά διατηρεί όλες τις κρίσιμες πληροφορίες. «Πιέζουμε τα όρια του τι είναι τεχνικά εφικτό για να διατηρήσουμε τα δεδομένα όσο πιο συμπαγή γίνεται, χωρίς να χάνονται οι ουσιώδεις πληροφορίες», σημειώνει ο Dr. André Kahles, μέλος της ομάδας Biomedical Informatics Group του ETH Zurich.
Σε αντίθεση με άλλες μεθόδους αναζήτησης DNA, το MetaGraph είναι πλήρως επεκτάσιμο: όσο αυξάνεται ο όγκος των δεδομένων, η απαίτηση σε υπολογιστική ισχύ δεν αυξάνεται αναλογικά. Αυτό σημαίνει ότι το εργαλείο μπορεί να διαχειριστεί τις μελλοντικές εκθετικές αυξήσεις στα γενετικά δεδομένα χωρίς να «γονατίζει» τους υπολογιστές που το τρέχουν.
Η πρώτη έκδοση του MetaGraph παρουσιάστηκε το 2020 και έκτοτε έχει εξελιχθεί σε ένα ανοιχτό και δημόσια διαθέσιμο εργαλείο αναζήτησης (https://metagraph.ethz.ch/search). Σήμερα, περιλαμβάνει εκατομμύρια αλληλουχίες DNA, RNA και πρωτεϊνών από ιούς, βακτήρια, φυτά, ζώα και ανθρώπους. Περίπου το 50% των παγκόσμιων δεδομένων έχει ήδη ενσωματωθεί, με τον στόχο να ολοκληρωθεί το σύνολο έως το τέλος του έτους.
Η ερευνητική ομάδα εκτιμά ότι το MetaGraph μπορεί να επιταχύνει την αναγνώριση νέων παθογόνων, την ανάλυση ανθεκτικότητας στα αντιβιοτικά ή ακόμη και την ανεύρεση ωφέλιμων ιών που καταπολεμούν βακτήρια, μια δυνατότητα που μέχρι σήμερα παρέμενε θαμμένη στα βάθη τεραστίων αρχείων.
[source]