Σύγκριση μεθόδων και στρατηγικών μείωσης των διαστάσεων κατηγορικών πολυμεταβλητών δεδομένων


Δημοσιευμένα: Ιαν 2, 2026
Λέξεις-κλειδιά:
Πολυμεταβλητή Ανάλυση Ανάλυση Πολλαπλών Αντιστοιχιών (MCA); Μη Γραμμική Κατηγορική Ανάλυση σε Κύριες Συνιστώσες (CATPCA); Παραγοντική Ανάλυση για Μεικτά Δεδομένα (FAMD); Μη Γραμμική Ανάλυση Κανονικής Συσχέτισης (NLCCA); Πολλαπλή Παραγοντική Ανάλυση (MFA); Ανάλυση σε Κύριες Συνιστώσες (PCA)
ΝΙΚΟΛΑΟΣ ΠΑΠΑΦΙΛΙΠΠΟΥ
https://orcid.org/0009-0003-3148-7229
Ζαχαρένια Κυρανά
https://orcid.org/0000-0001-9269-0675
Εμμανουήλ Πρατσινάκης
https://orcid.org/0000-0002-3725-3525
Χρήστος Δόρδας
https://orcid.org/0000-0002-7027-474X
Άγγελος Μάρκος
Γεώργιος Μενεξές
https://orcid.org/0000-0002-1034-7345
Περίληψη

Η ανάλυση κατηγορικών δεδομένων ‘μεγάλου όγκου’ θέτει σημαντικές προκλήσεις στην Επιστήμη των Δεδομένων, τη Μηχανική Μάθηση και τη Στατιστική, ιδιαίτερα όσον αφορά στη μελέτη της μεταβλητότητας (αδράνειας) των μετρούμενων χαρακτηριστικών, στη δομή και  τις συνιστώσες αυτής, καθώς και στην ερμηνεία των αποτελεσμάτων. Η εργασία αυτή αντιμετωπίζει τα παραπάνω ζητήματα, διερευνώντας και συγκρίνοντας μεθόδους και στρατηγικές για τη μείωση των διαστάσεων κατηγορικών δεδομένων. Οι στρατηγικές αυτές εφαρμόστηκαν στο σύνολο δεδομένων "Τύπος Δασικής Κάλυψης, (Forest Covertype), n=581.012" από το αποθετήριο μηχανικής μάθησης UCI. Οι προτεινόμενες στρατηγικές, οι οποίες παρείχαν περισσότερη και μερικές φορές διαφορετική πληροφορία σχετικά με τη δομή της μεταβλητότητας, αξιολογήθηκαν εφαρμόζοντας και συγκρίνοντας  μεθόδους, όπως η Ανάλυση Πολλαπλών Αντιστοιχιών (MCA), η Μη Γραμμική Κατηγορική Ανάλυση σε Κύριες Συνιστώσες με Βέλτιστη Κλιμακοποίηση (CATPCA), η Ανάλυση σε Κύριες Συνιστώσες (PCA), η Παραγοντική Ανάλυση για Μικτού Τύπου Δεδομένα (FAMD), η Μη Γραμμική Ανάλυση Κανονικής Συσχέτισης (NLCCA) και η Πολλαπλή Παραγοντική Ανάλυση (MFA). Τα αποτελέσματα έδειξαν ότι μάλλον απαιτείται η χρήση διαφορετικών στρατηγικών ανάλογα με τη φύση των δεδομένων και τους ερευνητικούς στόχους. Επίσης, αποδείχθηκε η δυνατότητα εφαρμογής κάθε μεθόδου σε διαφορετικά πλαίσια και αναδείχθηκε, ότι ενώ καμία μεμονωμένη προσέγγιση δεν είναι “καθολικά” ανώτερη, στρατηγικές προσαρμοσμένες στη φύση των δεδομένων, όπως η Διάσπαση σε Χαρακτηριστικές Τιμές (SVD) σε διάφορους πίνακες συσχέτισης που ακολουθούνται από Ανάλυση σε Κύριες Συνιστώσες (PCA), ο συνδυασμός της Ανάλυσης Πολλαπλών Αντιστοιχιών (MCA) και της Μη Γραμμικής Κατηγορικής Ανάλυσης σε Κύριες Συνιστώσες με Βέλτιστη Κλιμακοποίηση (CATPCA) ή προηγμένες μέθοδοι όπως η FAMD, η NLCCA ή η MFA, προσφέρουν εναλλακτικές λύσεις. Γενικότερα, είναι σοφότερο να εφαρμόζονται διαφορετικές στρατηγικές ανάλυσης ανάλογα με τους στόχους της μελέτης και την προθυμία-επιθυμία του ερευνητή για τον τρόπο χειρισμού των μεταβλητών αναφορικά με την κλίμακα μέτρησής τους (ονομαστική, τακτική, διαστήματος ή αναλογίας) σε ένα συγκεκριμένο επιστημονικό πλαίσιο.

Λεπτομέρειες άρθρου
  • Ενότητα
  • Εμπειρικές μελέτες
Λήψεις
Τα δεδομένα λήψης δεν είναι ακόμη διαθέσιμα.
Αναφορές
Abdi, H., Williams, L. J., & Valentin, D. (2013). Multiple Factor Analysis: principal component analysis for multitable and multiblock data sets. Wiley Interdisciplinary Reviews: Computational Statistics, 5(2), 72-74.
Agresti, A. (2012). Categorical data analysis (Vol. 792). John Wiley & Sons.
Benzécri, J.-P. (1992). Correspondence Analysis Handbook. New York: Marcel Dekker, Inc.
Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
Blackard, J. (1998). Covertype [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C50K5N.
Bond, J., & Michailidis, G. (1996). Homogeneity Analysis in Xlisp-Stat. Journal of Statistical Software, 1(2). https://doi.org/10.18637/jss.v001.i02
Gifi, A. (1990). Nonlinear multivariate analysis. Edited by Heiser W., Meulman J.J., & van den Berg, G., Wiley, Chichester.
Greenacre, M. (1991). Interpreting Multiple Correspondence Analysis. Applied Stochastic Models and Data Analysis, 7, 195-210.
Greenacre, M., & Blasius, J. (2006). Multiple correspondence analysis and related methods. Chapman and Hall/CRC.
Greenacre, M., Groenen, P. J., Hastie, T., d’Enza, A. I., Markos, A., & Tuzhilina, E. (2022). Principal component analysis. Nature Reviews Methods Primers, 2(1), 100.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis: A Global Perspective (7th ed.). New Jersey: Pearson Education, Inc.
Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: a review and recent developments. Philosophical transactions of the royal society A: Mathematical, Physical and Engineering Sciences, 374(2065), 20150202.
Kassambara, A. (2017). Practical guide to principal component methods in R: PCA, M (CA), FAMD, MFA, HCPC, factoextra (Vol. 2). Sthda.
Le Roux, B., & Rouanet, H. (2004). Geometric data analysis: from correspondence analysis to structured data analysis. Dordrecht: Springer Science & Business Media.
Μενεξές, Γ. (2006). Πειραματικοί Σχεδιασμοί στην Ανάλυση Δεδομένων. Διδακτορική Διατριβή στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας. Θεσσαλονίκη.
Meulman, J. J., Van der Kooij, A. J., & Heiser, W. J. (2004). Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. In D. Kaplan (Ed.) Handbook of quantitative methodology for the social sciences (pp. 49-70). London: Sage.
Michaeli, T., Wang, W., & Livescu, K. (2016). Nonparametric canonical correlation analysis. In International conference on machine learning (pp. 1967-1976). PMLR.
Michailidis, G., & De Leeuw, J. (1998). The Gifi System of Descriptive Multivariate Analysis. Statistical Science, 13(4), 307-336. https://doi.org/10.1214/ss/1028905828
Nanga, S., Bawah, A. T., Acquaye, B. A., Billa, M. I., Baeta, F. D., Odai, N. A., ... & Nsiah, A. D. (2021). Review of dimension reduction methods. Journal of Data Analysis and Information Processing, 9(3), 189-231.
Oseledets, I. V., & Tyrtyshnikov, E. E. (2009). Breaking the curse of dimensionality, or how to use SVD in many dimensions. SIAM Journal on Scientific Computing, 31(5), 3744-3759.
Pagès, J. (2014). Multiple factor analysis by example using R. CRC Press.
Painsky, A., Feder, M., & Tishby, N. (2020). Nonlinear canonical correlation analysis: A compressed representation approach. Entropy, 22(2), 208.
Τα περισσότερο διαβασμένα άρθρα του ίδιου συγγραφέα(s)