Ανάπτυξη αλγορίθμου εξόρυξης δεδομένων για ανίχνευση απάτης πιστωτικών καρτών και επίδειξη σε σύστημα μηχανικής μάθησης τεχνητής ευφυΐας
Development of a data mining algorithm to detect fraud and demonstration of the algorithm in an artificial intelligence machine learning system - environment
Subject
TPSH::Επιστήμη Υπολογιστών::Ασφάλεια Ηλεκτρονικών Υπολογιστών ; TPSH::Επιστήμη Υπολογιστών::Έξυπνες Κάρτες ; TPSH::Επιστήμη Υπολογιστών::Τεχνητή ΝοημοσύνηKeywords
Ανίχνευση παρεκτροπών ; Αλγόριθμος δασικής απομόνωσης ; Τοπικός συντελεστής απόκλισης ; Μηχανική μάθηση ; Εξόρυξη δεδομένων ; Anomaly detection ; Forest isolation algorithm ; Local outlier factor ; Machine learning ; Data miningAbstract
Η παρούσα εργασία αποτελεί διπλωματική εργασία στα πλαίσια του μεταπτυχιακού προγράμματος «Δικτυωμένα Ηλεκτρονικά Συστήματα» του τμήματος Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών του Πανεπιστημίου Δυτικής Αττικής.Στόχος είναι να τεκμηριώσουμε ότι είναι αναγκαίο να διαθέτουμε ένα εργαλείο για την ανάλυση και ερμηνεία μιας σημαντικής ποσότητας πληροφορίας που είναι οργανωμένη σε βάσεις δεδομένων και επιπλέον να αποτελέσει κίνητρο για μελλοντικές ερευνητικές εργασίες στα ζητήματα αυτά. Δομείται σε τρία κεφάλαια εκ των οποίων στα δυο πρώτα εισάγονται οι προαπαιτούμενες γνώσεις που είναι αναγκαίες για την ανάλυση της μεθόδου που εφαρμόσαμε. Πιο συγκεκριμένα στο 1οκεφάλαιο δίνεται ο ορισμός της εξόρυξης δεδομένων, οι τύποι μοντέλων που παράγονται από αυτήν, οι τομείς με τους οποίους συνδυάζεται, οι τομείς εφαρμογής της, όπως και οι τεχνικές επεξεργασίας των δεδομένων. Στο 2οκεφάλαιο στο 1ομέροςδίνεται η γενική ιδέα που κρύβεται πίσω από το Machine Learning και αναπτύσσονται οι θεωρίες μάθησης, ενώ στο 2ομέρος γίνεται ανάλυση του προγράμματος Machine Learning που χρησιμοποιήθηκε για την ανάλυση των δεδομένων μας, όπως και περιγραφή της μεθόδου PCA που χρησιμοποιήσαμε ώστε να μετατρέψουμε τα δεδομένα σε αριθμούς. Στο 3ο κεφάλαιο που αποτελεί και το ερευνητικό μέρος της παρούσας διπλωματικής,αφού αναλυθούν οι τεχνικές ανίχνευσης παρεκτροπών αναπτύσσονται οι βασικές ιδέες των δύο αλγορίθμων που επιλέξαμε για την έρευνά μας, του Local Outlier Factor και τουIsolation Forest.Η ανάλυσή μας αναφέρεται σε δείγμα 284.807 συναλλαγών με πιστωτικές κάρτες που πραγματοποιήθηκαν τον Σεπτέμβριο του 2013 από Ευρωπαίους κατόχους καρτών. Αρχικά έγινε μία στατιστική ανάλυση σε ποσοστό 100% και στη συνέχεια έγινε εισαγωγή της μεταβλητής classόπου για περίπτωση απάτης παίρνει την τιμή 1 και για μη δόλια συναλλαγή παίρνει την τιμή 0.Έπειτα χρησιμοποιώντας μόνο το 10% των δεδομένων με τυχαία κατάσταση έγιναν δύο διαφορετικές αναλύσεις, μία με τον αλγόριθμο Local Outlier Factor και μία με τον Isolation Forest. Τέλος συγκρίνονται τα αποτελέσματα των δύο μεθόδων και παρουσιάζονται τα συμπεράσματά μας ως προς το ποια μέθοδος πλεονεκτεί και γιατί, όπως και προτάσεις για βελτίωση της ακρίβειας της πρόβλεψης της μεθόδου.
Abstract
This present thesis is a thesis within the framework of the postgraduate course «Internetworked Electronic Systems»of the department of electronic engineering University of West Attica. Our objective is to manifest the necessity for the existence of a tool for the analysis and the interpretation of a significant amount of information organized into databases, as well as to serve as a motive paving the way towards conducting further research. The thesis is divided into three units. In the first two units there is a presentation of the prerequisite knowledge, which is indispensable for the analysis of the applied method. More specifically, the definition of the term ‘’data mining’’, the model types deriving from data mining, the sectors to which it can be applied, as well as the data processing techniques are presented in the first unit. In the first part of the second unit the underlying idea behind Machine Learning, as well as the existent learning theories are presented. The second part of unit -2 the program ‘’Machine Learning’’, which was used for our data analysis, is presented. Moreover, in this second part of unit 2 the PCA method, which was used for the conversion of our data into numbers, is described. Unit 3 constitutes the research of the thesis. After the deviation detection techniques are analyzed in Unit 3, the two algorithms that were selected for our research are presented. These two algorithms are the Local Outlier Factor and the Isolation Forest. Our analysis is based on a sample of 284.807 credit card transactions that took place during September 2013 by European credit card holders. Initially a statistical analysis upon 100% of the sample took place. In continuation, the ‘’class’’ variable was introduced, which takes the value of 1 in the case of fraud and the value of 0 in the case of non-fraudulent transactions. Afterwards two different analyses were conducted on 10% of the data, which was selected randomly. The first analysis made use of the Local Outlier Factor and the second made use of the Isolation Factor. Finally, the results of the two methodsare compared and our drawn conclusions are presented regarding which of the aforementioned methods is more advantageous and why. Last but not least, suggestions are made concerning the improvement of the prediction accuracy of the method.