The Big Dater’s Guide to the universe 1.0

Σε διάφορες συζητήσεις γύρω από τα θέματα,  αυτού που στην Microsoft λέμε,  Application Platform, μία έννοια, νέα για μένα έκανε την εμφάνιση της.

Τα Big Data. Μεγάλα δεδομένα (;). Δηλαδή πόσο μεγάλα; Και γιατί  να γίνεται ειδική μνεία γι αυτά;

Επειδή δεν μου αρέσει να έχω άγνωστες λέξεις παρακάλεσα την καλή συνάδελφο Γεωργία Ψυλλίδου, Solutions Specialist στο Application Platform, να μου περιγράψει σε 4-5 γραμμές τι ακριβώς είναι τα Big Data και γιατί τέτοιος θόρυβος τώρα τελευταία γύρω από αυτά.

Ιδού τι μου απάντησε:

Εάν καταφέρω να γράψω «κάτι για τα Big Data σε 4-5 σειρές» τότε πιστεύω πως ο καθένας μπορεί να γράψει 4-5 jobs να τρέχουν στο Hadoop μέχρι να συμφωνήσουμε περί τίνος πρόκειται και γιατί γίνεται τόσο χαμός τελευταία.

Ας ξεκινήσουμε με τη μετάφραση…

Πόσο μεγάλα πρέπει να είναι τα δεδομένα για να τα κατηγοριοποιήσουμε σαν Big Data ; Πολύ, της τάξεως των Petabytes και να μη μοιάζουνε μεταξύ τους, να αλλάζουνε γρήγορα και ακανόνιστα.

Πότε αρχίζει η ιστορία τους ; Είναι τόσο παλιά, όσο και τα ψηφιακά συστήματα.  Απλά μέχρι τούδε  γεννιόταν και πεθαίναν πολύ γρήγορα, αφού δεν άξιζε τον κόπο να τα βάλει κάποιος στη φορμόλη για να τα μελετήσει αργότερα. Κυρίως λόγω του κόστους αποθήκευσης και επεξεργασίας, αλλά και του ρόλου που μπορούν τα Big Data να παίξουν. Τελευταίως, τα ψηφιακά ίχνη της ανθρώπινης δραστήριοτητας, ολοένα και πληθαίνουν μέσα από ιστοσελίδες κοινωνικής δικτύωσης, ηλεκτρονικά μαγαζιά, ηλεκτρονικές παιχνιδοπλατφόρμες, ενημερωτικές σελίδες, εφαρμογές για πάσα νόσο και ανάγκη.

Άρα έχει γίνει πολύ πιο ενδιαφέρον να μελετηθεί αυτή η δραστηριότητα καθώς επιτρέπει να μελετηθεί, για παράδειγμα, η συμπεριφορά των καταναλωτών στην ψηφιακή οικονομία.

Βεβαίως και αν κάποιος έχει πολλά λεφτα και μεγάλο προσδόκιμο ζωής,  η μελέτη αυτή μπορεί να γίνει και με μεθοδολογίες σχεσιακής αποθήκευσης και δομημένα ερωτήματα.

Επειδή όμως και στην ψηφιακή οικονομία, ο χρόνος είναι χρήμα, τεχνολογίες  που χρησιμοποιούνταν σε ερευνητικά εργαστήρια πανεπιστημίων,  μονάδες προσομοίωσης εταιρειών , χρηματοοικονομικούς οργανισμούς, κτλ έχουν «εκδημοκρατιστεί» και έχουν αρχίσει να παίρνουν το mainstream μονοπάτι. Βλέπε Facebook, που χωρίς τεχνολογίες ανάλυσης Big Data θα ήταν ακόμη μια start-up στη Βοστώνη, ενδεχομένως εξαγορασμένη σε μια καλή τιμή.

Η φιλοσοφία ενός Big Data συστήματος, είναι η … ανάποδη από αυτή ενός δομημένου συστήματος επιχειρηματικής ευφυΐας.

Δηλαδη,

  • Δε χρειάζεται να έχουμε αποφασίσει από πριν τι θέλουμε και πως θα το εκφράσουμε.
  • Αποθηκεύουμε φτηνά και χωρίς  προ-εργασία ό,τι πετάει και ό,τι κολυμπάει.
  • Το αποθηκεύουμε χωρίς να το βάζουμε σε κουτάκια, αδόμητα.
  • Δεν «ενημερώνουμε» τη βάση (Αφού δεν έχουμε κουτάκια), άλλα φροντίζουμε η χαρτογράφηση της (mapping) να ακολουθεί κατά πόδας τις τάσεις : Εάν μέχρι χτες κανένας δεν ήξερα τι σημαίνει και πως μοιάζει μια βουβουζέλα , για παράδειγμα, αλλά σήμερα που ξεκίνησε το      μουντιάλ όλοι ψάχνουν απεγνωσμένα μία, πρέπει ο θεματοφύλακας των ορυχείων      που λέγονται Big Data  να τρέξει μια χαρτογράφηση για να δει που έχει τέτοια διαμάντια, ώστε το μαγαζί να είναι σε ετοιμότητα.
  • Η χαρτογράφηση τρέχει γρήγορα και φτηνά γιατί σπάει σε πολλές μικρές δράσεις (jobs) και μοιράζεται σε πολύ κόσμο. Με τη μέθοδο «Εγώ το λέω του σκύλου μου και ο σκύλος της ουράς      του»  σε λουπ, ο καταμερισμός της εργασίας σπάει σε πολλά επίπεδα.
  • Όλες οι μικρές ψηφίδες που μαζεύει κάθε σκύλος και κάθε ουρά ανεβαίνουν και συνθέτουν την απάντησή μου.

Ποιες τεχνολογίες πρέπει να δω για να γίνω Big Dater ?  Επειδή έχουμε ξεπεράσει τις 4-5 γραμμές, θα το ψάξουμε σε επόμενο κομμάτι.

Leave a comment