Η μηχανική μάθηση (Machine Learning ) αποτελεί κλάδο της τεχνητής νοημοσύνης και είναι η κατασκευή και η μελέτη συστημάτων που μπορούν να μάθουν από τα δεδομένα . Για παράδειγμα ένα τέτοιο σύστημα μπορεί να εκπαιδευτεί ώστε να διαχωρίζει το ηλεκτρονικό ταχυδρομείο σε χρήσιμο και μη. Στην συνέχεια μετά την εκπαίδευση θα μπορεί το σύστημα να διαχειρίζεται τα νέα μηνύματα που θα λαμβάνει, χωρίς επίβλεψη, ταξινομώντας στις δυο κλάσεις , χρήσιμα και μη χρήσιμα και στην συνέχεια θα τα επεξεργάζεται με κανόνες που θα έχουν οριστεί .
Βασικές αρχές της μηχανικής μάθησης (machine learning) είναι η αναπαράσταση και η γενίκευση. Η αναπαράσταση των δεδομένων γίνεται με ειδικές εξισώσεις και μεθόδους που πολλές φορές προσομοιώνουν την λειτουργία νευρώνων. Η γενίκευση είναι η ιδιότητα του συστήματος να λειτουργεί καλά σε δεδομένα που δεν έχουν χρησιμοποιηθεί στην εκπαίδευση. Το παραπάνω αποτελεί αντικείμενο της επιστήμης της υπολογιστικής εκμάθησης. Ένα παράδειγμα μηχανικής μάθησης αποτελεί η αναγνώριση φωνής ή η οπτική αναγνώριση κειμένου.
Για την εξόρυξη δεδομένων χρησιμοποιούνται 2 τεχνικές μάθησης, μάθηση με επίβλεψη και μάθηση χωρίς επίβλεψη. Στην μάθηση με επίβλεψη ορίζεται μια συνάρτηση που αποτελεί έκφραση του μοντέλου που περιγράφει τα δεδομένα. Παράδειγμα μάθησης με επίβλεψη είναι τα δέντρα απόφασης. Η μάθηση χωρίς επίβλεψη είναι όταν το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα χωρίς να γνωρίζουμε εάν υπάρχουν
Υπάρχει διαφορά μεταξύ των μεθόδων που χρησιμοποιούνται στους τομείς της τεχνητής νοημοσύνης και της ανάλυσης δεδομένων. Η ανάλυση δεδομένων βασίζεται στην ανίχνευση αγνώστων ιδιοτήτων μέσα στα δεδομένα.
Τελικά τεχνητή νοημοσύνη και ανάλυση δεδομένων αλληλεπικαλύπτονται καθώς χρησιμοποιούν και τις δύο μεθόδους εκμάθησης αλλά διαφέρουν στο σκοπό. Θα μπορούσαμε να πούμε πως η μηχανική μάθηση είναι το κομμάτι του αλγορίθμου για την διαδικασία της εξαγωγής γνώσης . Η τεχνητή νοημοσύνη προσπαθεί να αναπαράγει γνωστό περιεχόμενο ενώ η ανάλυση δεδομένων προσπαθεί να παράγει νέα γνώση . Στην εικόνα 2 παρατηρούμε πως στην εξαγωγή γνώσης εκτός από την Μηχανική μάθηση χρησιμοποιούμε την Στατιστική αλλά και βάσεις δεδομένων.
Η εξόρυξη δεδομένων (data mining) αποτελεί ένα σημαντικό στάδιο της εξαγωγής γνώσης (Knowledge discovery) . Συχνά υπάρχει η πληροφορία κρυμμένη στα δεδομένα που δεν είναι προφανής. Εξόρυξη δεδομένων είναι η διαδικασία προτύπων (patterns) που πριν δεν ήταν γνωστά και πιθανόν να είναι χρήσιμα και κατανοητά. Ακόμα η εξόρυξη δεδομένων είναι και η ανάλυση των δεδομένων για να βρούμε μη αναμενόμενες σχέσεις ανάμεσα στα δεδομένα καθώς και να συνοψίσουμε με νέους τρόπους ώστε να είναι κατανοητά στους Χρήστες. Παρακάτω φαίνονται οι διεργασίες - στάδια για την εξόρυξη δεδομένων.
Data Mining Process
Τα στάδια των διεργασιών πριν από το Data Mining είναι η προ- επεξεργασία και συνήθως πραγματοποιούνται οι παρακάτω διεργασίες:
- · Kαθαρισμός δεδομένων (Data Cleaning )
- · Ενοποίηση Δεδομένων (Data Integration)
- · Μετασχηματισμοί Δεδομένων (Data Transformation).
Τα δυο τελευταία στάδια είναι η εξόρυξη και η αναπαράστασή (Patterns/ Models and Knowledge ). Στην αναπαράσταση των αποτελεσμάτων έχουμε την παρουσίαση των αποτελεσμάτων όπου θα χρησιμοποιηθούν τεχνικές οπτικοποίησης για να κατανοηθούν καλυτέρα τα δεδομένα.
Οι τεχνικές εξόρυξης δεδομένων είναι:
- · Ομαδοποίηση (clustering): Χωρίζουμε τα δεδομένα σε ομάδες (όμοια σύνολα).
- · Κανόνες συσχέτισης (Association rule mining): βρίσκουμε συσχετίσεις ανάμεσα στα δεδομένα πχ ποια δεδομένα εμφανίζονται συχνά σε συναλλαγές.
- · Κατηγοριοποίηση (Classification) : Κατηγοριοποιούμε τα δεδομένα τοποθετώντας τα σε μια ή περισσότερες κατηγορίες
- · Εξόρυξη στο διαδίκτυο: Μηχανές αναζήτησης – ενδιαφέρουσες σελίδες με βάση τους συνδέσμους
0 Σχόλια