Σύγκριση μεθόδων και στρατηγικών μείωσης των διαστάσεων κατηγορικών πολυμεταβλητών δεδομένων
Περίληψη
Η ανάλυση κατηγορικών δεδομένων ‘μεγάλου όγκου’ θέτει σημαντικές προκλήσεις στην Επιστήμη των Δεδομένων, τη Μηχανική Μάθηση και τη Στατιστική, ιδιαίτερα όσον αφορά στη μελέτη της μεταβλητότητας (αδράνειας) των μετρούμενων χαρακτηριστικών, στη δομή και τις συνιστώσες αυτής, καθώς και στην ερμηνεία των αποτελεσμάτων. Η εργασία αυτή αντιμετωπίζει τα παραπάνω ζητήματα, διερευνώντας και συγκρίνοντας μεθόδους και στρατηγικές για τη μείωση των διαστάσεων κατηγορικών δεδομένων. Οι στρατηγικές αυτές εφαρμόστηκαν στο σύνολο δεδομένων "Τύπος Δασικής Κάλυψης, (Forest Covertype), n=581.012" από το αποθετήριο μηχανικής μάθησης UCI. Οι προτεινόμενες στρατηγικές, οι οποίες παρείχαν περισσότερη και μερικές φορές διαφορετική πληροφορία σχετικά με τη δομή της μεταβλητότητας, αξιολογήθηκαν εφαρμόζοντας και συγκρίνοντας μεθόδους, όπως η Ανάλυση Πολλαπλών Αντιστοιχιών (MCA), η Μη Γραμμική Κατηγορική Ανάλυση σε Κύριες Συνιστώσες με Βέλτιστη Κλιμακοποίηση (CATPCA), η Ανάλυση σε Κύριες Συνιστώσες (PCA), η Παραγοντική Ανάλυση για Μικτού Τύπου Δεδομένα (FAMD), η Μη Γραμμική Ανάλυση Κανονικής Συσχέτισης (NLCCA) και η Πολλαπλή Παραγοντική Ανάλυση (MFA). Τα αποτελέσματα έδειξαν ότι μάλλον απαιτείται η χρήση διαφορετικών στρατηγικών ανάλογα με τη φύση των δεδομένων και τους ερευνητικούς στόχους. Επίσης, αποδείχθηκε η δυνατότητα εφαρμογής κάθε μεθόδου σε διαφορετικά πλαίσια και αναδείχθηκε, ότι ενώ καμία μεμονωμένη προσέγγιση δεν είναι “καθολικά” ανώτερη, στρατηγικές προσαρμοσμένες στη φύση των δεδομένων, όπως η Διάσπαση σε Χαρακτηριστικές Τιμές (SVD) σε διάφορους πίνακες συσχέτισης που ακολουθούνται από Ανάλυση σε Κύριες Συνιστώσες (PCA), ο συνδυασμός της Ανάλυσης Πολλαπλών Αντιστοιχιών (MCA) και της Μη Γραμμικής Κατηγορικής Ανάλυσης σε Κύριες Συνιστώσες με Βέλτιστη Κλιμακοποίηση (CATPCA) ή προηγμένες μέθοδοι όπως η FAMD, η NLCCA ή η MFA, προσφέρουν εναλλακτικές λύσεις. Γενικότερα, είναι σοφότερο να εφαρμόζονται διαφορετικές στρατηγικές ανάλυσης ανάλογα με τους στόχους της μελέτης και την προθυμία-επιθυμία του ερευνητή για τον τρόπο χειρισμού των μεταβλητών αναφορικά με την κλίμακα μέτρησής τους (ονομαστική, τακτική, διαστήματος ή αναλογίας) σε ένα συγκεκριμένο επιστημονικό πλαίσιο.
Λεπτομέρειες άρθρου
- Πώς να δημιουργήσετε Αναφορές
-
ΠΑΠΑΦΙΛΙΠΠΟΥ Ν., Κυρανά Ζ., Πρατσινάκης Ε., Δόρδας Χ., Μάρκος Ά., & Μενεξές Γ. (2026). Σύγκριση μεθόδων και στρατηγικών μείωσης των διαστάσεων κατηγορικών πολυμεταβλητών δεδομένων. Τετράδια Ανάλυσης Δεδομένων, 21(1). ανακτήθηκε από https://ejournals.epublishing.ekt.gr/index.php/dab/article/view/39563
- Ενότητα
- Εμπειρικές μελέτες

Αυτή η εργασία είναι αδειοδοτημένη υπό το CC Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0 4.0.
Οι Συγγραφείς που δημοσιεύουν εργασίες τους στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ συμφωνούν στους παρακάτω όρους:
- Οι Συγγραφείς δεν χρεώνονται με έξοδα υποβολής, επεξεργασίας ή δημοσίευσης των εργασιών τους. Τα κόστη αυτά καλύπτονται από την Ελληνική Εταιρία Ανάλυσης Δεδομένων.
- Τα πνευματικά δικαιώματα των εργασιών που δημοσιεύονται στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ προστατεύονται από την άδεια Creative Commons Attribution-NonCommercial-ΝοDerivatives 4.0 International. Οι Συγγραφείς διατηρούν τα Πνευματικά Δικαιώματα και χορηγούν στο περιοδικό το δικαίωμα της πρώτης δημοσίευσης. Η άδεια αυτή επιτρέπει σε τρίτους - αποδέκτες της άδειας να χρησιμοποιούν την εργασία σε οποιαδήποτε μορφή μόνο για μη εμπορικούς σκοπούς. Αν οι τρίτοι τροποποιήσουν ή προσαρμόσουν το περιεχόμενο, οφείλουν να κοινοποιήσουν το τροποποιημένο περιεχόμενο for noncommercial purposes only. If others modify or adapt the material, they must license the modified material under identical terms.
- Με την προϋπόθεση της διατήρησης των διατυπώσεων που προβλέπονται στην άδεια σχετικά με την αναφορά στον αρχικό δημιουργό και την αρχική δημοσίευση στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ.
- Οι Συγγραφείς μπορούν να συνάπτουν ξεχωριστές και πρόσθετες συμβάσεις και συμφωνίες για τη μη αποκλειστική διανομή της εργασίας όπως δημοσιεύτηκε στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ (π.χ. κατάθεση σε ακαδημαϊκά καταθετήρια), με την προϋπόθεση της αναγνώρισης και την αναφοράς της πρώτης δημοσίευσης στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ.
- Το περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ Α επιτρέπει και ενθαρρύνει τους συγγραφείς να καταθέτουν τις εργασίες τους σε θεσμικά (π.χ. το αποθετήριο του Εθνικού Κέντρου Τεκμηρίωσης) ή θεματικά αποθετήρια, μετά τη δημοσίευσή τους στο ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ και με όρους Ανοικτής Πρόσβασης, όπως κατά περίπτωση προσδιορίζονται από τους χρηματοδότες της έρευνάς τους ή/και τα ιδρύματα με τα οποία συνεργάζονται. Κατά την κατάθεση της εργασίας τους, οι συγγραφείς πρέπει να παρέχουν πληροφορίες σχετικά με τη δημοσίευση της εργασίας στο περιοδικό και τις πηγές χρηματοδότησης της έρευνάς τους. Κατάλογοι των ιδρυματικών και θεματικών αποθετηρίων ανά χώρα υπάρχουν στη βάση http://opendoar.org/countrylist.php. Οι συγγραφείς έχουν τη δυνατότητα να καταθέσουν χωρίς κόστος την εργασία τους στο αποθετήριο www.zenodo.org, το οποίο υποστηρίζεται από το OpenAIRE (www.openaire.eu ), στο πλαίσιο των πολιτικών της Ευρωπαϊκής Επιτροπής για την ενίσχυση της Ανοικτής ακαδημαϊκής έρευνας.