Σύγκριση πέντε μεθόδων μείωσης διαστάσεων στο πολυδιάστατο σύνολο δεδομένων «Forest Cover Type»


Δημοσιευμένα: Jan 2, 2026
Λέξεις-κλειδιά:
Πολυμεταβλητά δεδομένα Μεγάλου όγκου δεδομένα Ανάλυση σε Κύριες Συνιστώσες Παραγοντική Ανάλυση Παραγοντική Ανάλυση Αντιστοιχιών Κατηγορική Ανάλυση σε Κύριες Συνιστώσες Παραγοντική Ανάλυση για Μεικτού τύπου Δεδομένα
Ζαχαρένια Κυρανά
https://orcid.org/0000-0001-9269-0675
Εμμανουήλ Πρατσινάκης
Νικόλαος Παπαφιλίππου
Άγγελος Μάρκος
Γεώργιος Μενεξές
Περίληψη

Μια πολυδιάστατη και πολυμεταβλητή δομή, με μεικτού τύπου δεδομένα, δίνει τη δυνατότητα εφαρμογής πολλών στατιστικών μεθόδων μείωσης των μαθηματικών διαστάσεων που στοχεύουν σε μια μειωμένη αναπαράσταση του αρχικού συνόλου δεδομένων, η οποία θα είναι μικρότερη σε «όγκο», αλλά θα εξακολουθεί να περιέχει κρίσιμη και χρήσιμη πληροφορία. Στην παρούσα εργασία, οι στατιστικές μέθοδοι μείωσης των διαστάσεων που συγκρίθηκαν μεταξύ τους, μέσω κατάλληλου συνόλου δεδομένων, ήταν η Ανάλυση σε Κύριες Συνιστώσες, η Παραγοντική Ανάλυση, η Παραγοντική Ανάλυση των Αντιστοιχιών, η Κατηγορική Ανάλυση σε Κύριες Συνιστώσες και η Παραγοντική Ανάλυση για Μεικτού τύπου Δεδομένα. Για τις συγκρίσεις των μεθόδων εφαρμόσθηκαν ποικίλες στρατηγικές. Στόχοι της μελέτης ήταν η σύγκριση των αποτελεσμάτων των πέντε μεθόδων μείωσης των διαστάσεων, ο έλεγχος εφαρμογής αυτών των μεθόδων σε πολυδιάστατα μεικτού τύπου δεδομένα και η σύγκριση των χρόνων εξαγωγής των αποτελεσμάτων από διαφορετικά στατιστικά λογισμικά, με σκοπό την ανάδειξη σημαντικών υπολογιστικών και ερμηνευτικών μειονεκτημάτων. Τα στατιστικά λογισμικά που χρησιμοποιήθηκαν ήταν η Python και το SPSS. Σημαντικά μειονεκτήματα των εν λόγω μεθόδων ήταν η “κατάρα των διαστάσεων”, με την έννοια του καθορισμού του αριθμού των σημαντικών διαστάσεων, η αυξημένη υπολογιστική ισχύς που απαιτούνταν, η έλλειψη κώδικα των λογισμικών για ορισμένες μεθόδους, η διαφοροποίηση ως προς τους υπολογισμούς μεταξύ των λογισμικών και, κατ’ επέκταση, η εξαγωγή διαφορετικών αποτελεσμάτων, η κατάρρευση ορισμένων λογισμικών ως προς τη διαχείριση πολλών ψευδομεταβλητών (0-1) και η δυσκολία ανάδειξης της καταλληλότερης μεθόδου μείωσης των μαθηματικών διαστάσεων.

Λεπτομέρειες άρθρου
  • Ενότητα
  • Εμπειρικές μελέτες
Λήψεις
Τα δεδομένα λήψης δεν είναι ακόμη διαθέσιμα.
Αναφορές
Anderson, T. W. (1984). An Introduction to Multivariate Statistical Analysis (2nd ed.). New York: John Wiley & Sons, Inc.
Bellman, R. E. (1961). Adaptive Control Processes: A Guided Tour. Princeton University Press.
Cunningham, J. P., & Ghahramani, Z. (2015). Linear Dimensionality Reduction: Survey, Insights, and Generalizations. Journal of Machine Learning Research, 16(89), 2859−2900. https://doi.org/10.48550/arXiv.1406.0873
Dash, M., Liu, H., & Yao, J. (1997). Dimensionality reduction of unsupervised data. In Proceedings of the International Conference on Tools with Artificial Intelligence. IEEE.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis: A Global Perspective (7th ed.). New Jersey: Pearson Education, Inc.
Hendrickson, J. L. (2014). Methods for Clustering Mixed Data. Doctoral dissertation in University of South Carolina. Columbia.
Kassambara, A. (2017). Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning (vol. 1). STHDA.
Linting, M., Meulman, J. J., Groenen, P. J., & van der Koojj, A. J. (2007). Nonlinear principal components analysis: introduction and application. Psychol Methods, 12(3), 336-358. https://doi.org/10.1037/1082-989X.12.3.336
Μενεξές, Γ. (2006). Πειραματικοί Σχεδιασμοί στην Ανάλυση Δεδομένων. Διδακτορική Διατριβή στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας. Θεσσαλονίκη.
Messaoud, R. B., Boussaïd, O., & Loudcher-Rabaseda, S. (2007). A Multiple Correspondence Analysis to Organize Data Cubes. Frontiers in Artificial Intelligence and Applications, 155 (1), 133-146. https://halshs.archives-ouvertes.fr/halshs-00476483
Nguyen, L. H., & Holmes, S. (2019). Ten quick tips for effective dimensionality reduction. PLoS Computational Biology, 15 (6). https://doi.org/10.1371/journal.pcbi.1006907
Pagès, J. (2014). Multiple Factor Analysis by Example Using R (1st ed.). USA: Chapman & Hall/CRC.
Sharma, S. (1996). Applied Multivariate Techniques. New York: John Willey & Sons, Inc.
Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics (5th ed.). New York: Allyn & Bacon/Pearson Education.
UCI Machine Learning Repository. Covertype Data Set. https://archive.ics.uci.edu/ml/datasets/covertype.
Τα περισσότερο διαβασμένα άρθρα του ίδιου συγγραφέα(s)