Ζούμε στην εποχή των πόλων δεδομένων . Κοινωνικά δίκτυα, video streaming,ιστοσελίδες και blogs έχουν δημιουργήσει μια τεράστια ποσότητα πολύπλοκων και διάχυτων ψηφιακών δεδομένων. Σήμερα υπάρχουν αποδοτικά μέσα για την δημιουργία την αποθήκευση και τον διαμερισμό αυτών των πληροφοριών. Τα μεγάλα αυτά δεδομένα ευρέως αποκαλούνται ως «Big Data». [7] [5] Υπολογίζεται το σύνολο των δεδομένων που είναι αποθηκευμένα σήμερα είναι περίπου 8 Zettabyte [1]. 1 Zettabyte είναι 1 τρισεκατομμύριο gigabyte. Αν συγκρίνουμε το συνολικό όγκο αυτών των δεδομένων σε gigabyte με τον συνολικό αριθμό των άστρων που υπάρχουν στο γαλαξία μας , αυτά υπολογίζονται περίπου 300 δισεκατομμύρια, μπορούμε να καταλάβουμε το μέγεθος αυτών των δεδομένων που εχουν αποθηκευτεί . [2]. Επιπλέον η τάση που επικρατεί είναι ότι τα δεδομένα θα γίνουν περισσότερα , η ραγδαία ανάπτυξη του cloud computing και του Internet of Things (IoT) βοήθα στην απότομη αύξηση των δεδομένων. Το μοντέλο IoT περιλαμβάνει συλλογή τεράστιων ποσοτήτων δεδομένων από διαφορετικούς αισθητήρες που θα μεταδίδουν και θα αποθηκεύουν δεδομένα στο cloud [3].Υπολογίζεται πως το 2020 τα ψηφιακά δεδομένα που θα έχουν αποθηκευτεί θα είναι 35 Zettabyte[1].
Big data sources
Figure 1
Τα χαρακτηριστικά των μεγάλων δεδομένων μπορούν να περιγράφουν από τα παρακάτω χαρακτηριστικά [4] [14][15]:
1. Τεράστιος Όγκος (Volume)
2. Ποικιλομορφία ( wide Variety)
3. Τρόπος παροχής ( Velocity)
4. Μεταβλητότητα(Variability)
5. Έγκυρα (Veracity)
6. Πολυπλοκότητα (Complexity)
Οι πήγες των δεδομένων αυτών μπορεί να είναι εντελώς άσχετες μεταξύ τους(Ποικιλομορφία).
Τα δεδομένα και μόνο αυτά δεν έχουν καμία αξία θα μπορούσαμε να τα παρομοιώσουμε ως ακατέργαστο πετρέλαιο , χρειάζεται να τα επεξεργαστούμε για να παράγουμε αξία από αυτά . Θα μπορούσαμε να πούμε πως τα δεδομένα είναι ο σύγχρονος χρυσός εάν επεξεργασθούν καταλληλά. Επομένως αυτό που έχει αξία είναι η επεξεργασία αυτών δεδομένων. Αναλύοντας τα μεγάλα δεδομένα συμπεραίνουμε πως μερικά gigabyte δεν θεωρούνται πολλά. Για την επεξεργασία όλων αυτών των τεράστιων δεδομένων επιβάλλεται να χρησιμοποιηθούν νέα εργαλεία και μέθοδοι. Αυτό που έγινε κατανοητό από νωρίς για την επεξεργασία των μεγάλων δεδομένων χρειαζόταν έξυπνες τεχνικές όπως η χρήση χαμηλού κόστους υπολογιστών εν παράλληλο για να δημιουργηθούν ομάδες παράλληλης επεξεργασίας από δεκάδες ή και χιλιάδες μηχανήματα. Η παραπάνω μέθοδος είναι φθηνή και ανεκτική σε λάθη καθώς δημιουργούνται πολλά αντίγραφά των δεδομένων [2]. Για την επεξεργασία των δεδομένων χρησιμοποιούνται ειδικά λογισμικά που είναι σε θέση να αναλύσουν τον όγκο στα cluster. Στην συνέχεια θα χρησιμοποιηθούν τεχνικές machine learning για να μπορέσει κάνεις να αναλύσει τα δεδομένα.
0 Σχόλια