Χρήση μεθόδων της Ανάλυσης Δεδομένων πριν τη χρήση αλγορίθμων της Μηχανικής Μάθησης:πρόβλεψη σε δεδομένα μικτού τύπου


Δημοσιευμένα: Apr 22, 2024
Λέξεις-κλειδιά:
Πολυμεταβλητά δεδομένα Πολυδιάστατα δεδομένα Μεικτού τύπου δεδομένα Ανάλυση σε Κύριες Συνιστώσες Ανάλυση Πολλαπλών Αντιστοιχιών Μηχανική Μάθηση Εφαρμογή αλγορίθμων Μηχανικής Μάθησης
Νικόλαος Παπαφιλίππου
https://orcid.org/0009-0003-3148-7229
Ζαχαρένια Κυρανά
Εμμανουήλ Πρατσινάκης
Άγγελος Μάρκος
Γεώργιος Μενεξές
Περίληψη

Στην παρούσα εργασία διερευνήθηκε η δυνατότητα χρήσης ορισμένων μεθόδων της Ανάλυσης Δεδομένων ως προπαρασκευαστικό στάδιο μεθόδων της Μηχανικής Μάθησης, με στόχο τη βελτίωση της προβλεπτικής τους ικανότητας. Οι μέθοδοι της Ανάλυσης Δεδομένων που εξετάστηκαν ήταν η Ανάλυση σε Κύριες Συνιστώσες (PCA), η Ανάλυση των Πολλαπλών Αντιστοιχιών(AFC) και η Μη Γραμμική - Κατηγορική Ανάλυση σε Κύριες Συνιστώσες με βέλτιστη κλιμάκωση (CATPCA). Οι μέθοδοι της Μηχανικής Μάθησης που εξετάστηκαν ήταν οι Support Vector Machine (SVM) και ειδικότερα Support Vector Classifier (SVC), Stochastic Gradient Descent (SGDClassifier), Naïve Bayes (GaussianNB), K-Nearest Neighbor (KNN), Decision Tree Classifier, Random Forest Classifier και Logistic Regression Multinomial. Οι δοκιμές έγιναν με πραγματικά δεδομένα, τα οποία συλλέχθηκαν στο πλαίσιο Πανελλαδικής έρευνας. Το συνολικό δείγμα ήταν 42.593 έφηβοι, οι οποίοι ερωτήθηκαν και απάντησαν σε περισσότερες από 155 ερωτήσεις, αναφορικά με τις διατροφικές τους συνήθειες. Ως εξαρτημένη μεταβλητή τέθηκε ο Δείκτης Μάζας Σώματος (Body Mass Index-BMI), ο οποίος μετρήθηκε και χρησιμοποιήθηκε στις αναλύσεις ως ποσοτική μεταβλητή, αλλά και ως ποιοτική, αφού προηγουμένως οι τιμές του δείκτη χωρίστηκαν σε κλάσεις, με βάση τις συστάσεις του Παγκόσμιου Οργανισμού Υγείας. Με βάση τα αποτελέσματα των δοκιμών για το συγκεκριμένο σύνολο δεδομένων, η πρόβλεψη είναι πιο ασφαλής όταν χρησιμοποιούμε ως εξαρτημένη μεταβλητη τον δείκτη ΒΜΙ ως ποιοτική μεταβλητή διάταξης με 4 κλάσεις. Ο σχεδιασμός με μια στρατηγική ανάλυσης δεδομένων, συμβάλλει στην εξοικονόμηση χρόνου, αλλά και στην επιλογή του καλύτερου υποδείγματος πρόβλεψης, ενώ η μείωση διαστάσεων, αν δεν βελτιώνει την προβλεπτική ικανότητα των μοντέλων, τουλάχιστον συμβάλει στην “ερμηνευσιμότητα” των αποτελεσμάτων.

Λεπτομέρειες άρθρου
  • Ενότητα
  • Εμπειρικές μελέτες
Λήψεις
Τα δεδομένα λήψης δεν είναι ακόμη διαθέσιμα.
Αναφορές
Anderson, T. W. (1984). An Introduction to Multivariate Statistical Analysis (2nd ed.). New York: John Wiley & Sons, Inc.
Bhandari, A. K., & Gupta, M. (2021). A comprehensive survey of machine learning algorithms for image classification. Journal of Ambient Intelligence and Humanized Computing, 12(2), 2117–2136. https://doi.org/10.1007/s12652-020-02741-3
Bisong, E. (2019). Logistic regression. Building machine learning and deep learning models on google cloud platform: A comprehensive guide for beginners, 243-250.
Bond, J., & Michailidis, G. (1996). Homogeneity Analysis in Xlisp-Stat. Journal of Statistical Software, 1(2). https://doi.org/10.18637/jss.v001.i02
Carvalho, D. V., Pereira, E. M., & Cardoso, J. S. (2019). Machine learning interpretability: A survey on methods and metrics. Electronics, 8(8), 832
Eidelman, A. (2020). Python Data Science Handbook by Jake VANDERPLAS (2016). Statistique et Société, 8(2), 45-47
Grandini, M., Bagli, E., & Visani, G. (2020). Metrics for multi-class classification: an overview. arXiv preprint arXiv:2008.05756.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis: A Global Perspective (7th ed.). New Jersey: Pearson Education, Inc.
Ketkar, N. (2017). Stochastic gradient descent. Deep learning with Python: A hands-on introduction, 113-132.
Liu, Y., Liu, Y., & Zhao, Y. (2020). Research on the Application of Decision Tree Algorithm in Credit Risk Evaluation. In 2020 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS) (pp. 1-5). IEEE.
Mahesh, B. (2020). Machine learning algorithms-a review. International Journal of Science and Research (IJSR).[Internet], 9, 381-386.
Μενεξές, Γ. (2006). Πειραματικοί Σχεδιασμοί στην Ανάλυση Δεδομένων. Διδακτορική Διατριβή στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας. Θεσσαλονίκη.
Michailidis, G., & De Leeuw, J. (1998). The Gifi System of Descriptive Multivariate Analysis. Statistical Science, 13(4), 307-336. https://doi.org/10.1214/ss/1028905828
Mohr, F., Wever, M., Tornede, A., & Hüllermeier, E. (2021). Predicting machine learning pipeline runtimes in the context of automated machine learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(9), 3055-3066.
Parmar, A., Katariya, R., & Patel, V. (2019). A review on random forest: An ensemble classifier. In International Conference on Intelligent Data Communication Technologies and Internet of Things (ICICI) 2018 (pp. 758-763). Springer International Publishing.
Ray, S. (2019, February). A quick review of machine learning algorithms. In 2019 International conference on machine learning, big data, cloud and parallel computing (COMITCon) (pp. 35-39). IEEE.
Singh, A., Thakur, N., & Sharma, A. (2016, March). A review of supervised machine learning algorithms. In 2016 3rd International
Conference on Computing for Sustainable Global Development (INDIACom) (pp. 1310-1315). Ieee.
Tangirala, S. (2020). Evaluating the impact of GINI index and information gain on classification using decision tree classifier algorithm. International Journal of Advanced Computer Science and Applications, 11(2), 612-619.
Wang, W., & Sun, D. (2021). The improved AdaBoost algorithms for imbalanced data classification. Information Sciences, 563, 358-374.
Τα περισσότερο διαβασμένα άρθρα του ίδιου συγγραφέα(s)