Σύγκριση μεθόδων και στρατηγικών για την εφαρμογή της Ταξινόμησης (Ανάλυση σε Συστάδες) στο πολυδιάστατο σύνολο δεδομένων «Forest Cover Type»


Δημοσιευμένα: Ιαν 2, 2026
Λέξεις-κλειδιά:
Πολυμεταβλητά δεδομένα Μεγάλου όγκου δεδομένα Ιεραρχική Ταξινόμηση Διαιρετική Ταξινόμηση Δεδομένα Μεικτού Τύπου
Εμμανουήλ Πρατσινάκης
https://orcid.org/0000-0002-3725-3525
Ζαχαρένια Κυρανά
https://orcid.org/0000-0001-9269-0675
Νικόλαος Παπαφιλίππου
https://orcid.org/0009-0003-3148-7229
Άγγελος Μάρκος
Γεώργιος Μενεξές
https://orcid.org/0000-0002-1034-7345
Περίληψη

Μια πολυδιάστατη και πολυμεταβλητή δομή με μεικτού τύπου δεδομένα δίνει τη δυνατότητα εφαρμογής διαφορετικών στρατηγικών και στατιστικών μεθόδων Tαξινόμησης, μέσω στατιστικών πακέτων και γλωσσών προγραμματισμού. Είναι γνωστό ότι τα αποτελέσματα της Ταξινόμησης εξαρτώνται από την απόσταση και τη μέθοδο συννένωσης που θα χρησιμοποιηθεί. Οι μέθοδοι Tαξινόμησης που θα συγκριθούν, μέσω του συνόλου δεδομένων «Forest Cover Type», είναι η Διαιρετική Ταξινόμηση (Partitioning Clustering) ή αλλιώς η μέθοδος των k-μέσων και η Ιεραρχική Ταξινόμηση (Hierarchical Clustering). Στόχος της εργασίας είναι η σύγκριση των εν λόγω μεθόδων στη διαμέριση του συγκεκριμένου συνόλου δεδομένων σε ομάδες-συστάδες (clusters). Με βάση τα αποτελέσματα της μελέτης προκύπτει ότι υπάρχουν πολλές στρατηγικές (κωδικοποίηση δεδομένων και επιλογή της κλίμακας μέτρησης των μεταβλητών εισόδου) για την ταξινόμηση δεδομένων μεικτού τύπου. Η Python εξήγαγε τα αποτελέσματα γρηγορότερα, έως και περισσότερο από 100%, σε σύγκριση με το SPSS, ενώ παρατηρήθηκε ότι τα αποτελέσματα και των δύο λογισμικών ήταν τα ίδια εκτός από κάποιες μικροδιαφορές λόγω αριθμητικών στρογγυλοποιήσεων. Διαπιστώθηκε ότι η Ιεραρχική Ταξινόμηση δεν μπορεί να πραγματοποιηθεί στο συγκεκριμένο ή σε άλλα σύνολα δεδομένων παρόμοιου μεγέθους, και με τη συγκεκριμένη σύνθεση Η/Υ που χρησιμοποιήθηκε για τις αναλύσεις, αφού και τα δύο λογισμικά “κατέρρευσαν”. Αυτό αποτελεί μάλλον μειονέκτημα, καθώς η Ιεραρχική Ταξινόμηση μέσω του δενδρογράμματος δίνει τη δυνατότητα εκτίμησης του πλήθους των συστάδων συνδυάζοντας ποικίλες αποστάσεις και μεθόδους συνένωσης, κάτι που δεν μπορεί να επιτευχθεί με τη μέθοδο των k-μέσων. Τέλος, διαπιστώθηκε ότι τα αποτελέσματα της Ταξινόμησης εξαρτώνται από τη στρατηγική κωδικοποίησης και επιλογής της κλίμακας μέτρησης των μεταβλητών που θα χρησιμοποιηθούν στην ανάλυση.

Λεπτομέρειες άρθρου
  • Ενότητα
  • Εμπειρικές μελέτες
Λήψεις
Τα δεδομένα λήψης δεν είναι ακόμη διαθέσιμα.
Αναφορές
Ahmad, A., & Dey, L. (2007). A k-mean clustering algorithm for mixed numeric and categorical data. Data and Knowledge Engineering, 63(2), 503-527.
Ahmad, A., & Khan, S. S. (2019). Survey of State-of-the-Art Mixed Data Clustering Algorithms. IEEE Access, 7, 31883-31902.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis: A Global Perspective (7th ed.). New Jersey: Pearson Education, Inc.
Hennig, C., & Liao, T. F. (2013). How to find an appropriate clustering for mixed‐type variables with application to socio‐economic stratification. Journal of the Royal Statistical Society: Series C (Applied Statistics), 62(3), 309-369.
Jain, A. K., & Dubes, R. C. (1988). Algorithms for clustering data. Englewood Cliffs: Prentice Hall.
Michos, M. C., Mamolos, A. P., Menexes, G. C., Tsatsarelis, C. A., Tsirakoglou, V. M., & Kalburtji, K. L. (2012). Energy inputs, outputs and greenhouse gas emissions in organic, integrated and conventional peach orchards. Ecological indicators, 13(1), 22-28.
Morlini, I., & Zani, S. (2010). Comparing approaches for clustering mixed mode data: An application in marketing research. Data Analysis and Classification (pp. 49-57). Springer, Berlin, Heidelberg.
Pagès, J. (2004). Analyse factorielle de données mixtes. Revue de statistique appliquée, 52(4), 93-111.
Tripathi, S., Bhardwaj, A., & Poovammal, E. (2018). Approaches to clustering in customer segmentation. International Journal of Engineering & Technology, 7(3.12), 802-807.
Van Rijckevorsel, J. & De Leeuw, J. (Eds) (1988). Component and Correspondence Analysis. Dimension Reduction by Functional Approximation (pp. 103-114). Chichester: John Willey and Sons Ltd.
Witten, I. H., & Frank, E. (2005). Data Mining: Practical machine learning tools and techniques. San Fransisco: Morgan Kaufmann.
Young, F. (1981). Quantitative Analysis of Qualitative Data. Psychometrika, 46(4), 357-388.
Μενεξές, Γ. (2006). Πειραματικοί Σχεδιασμοί στην Ανάλυση Δεδομένων. Διδακτορική Διατριβή στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας. Θεσσαλονίκη.
Παπαδημητρίου, Γ. (1994). Μέθοδοι Ανάλυσης Δεδομένων: Πανεπιστημιακές Παραδόσεις. Θεσσαλονίκη: Έκδοση Πανεπιστήμιου Μακεδονίας Οικονομικών και Κοινωνικών Επιστημών.
Φλώρου, Γ. (1997). Προσδιορισμός της Ιδανικότερης Μετρικής Απόστασης και Καλύτερου Τρόπου Ομαδοποίησης στις Διάφορες Μεθόδους της Αυτόματης Ταξινόμησης κατά Αύξουσα Ιεραρχία. Διδακτορική Διατριβή που υποβλήθηκε στο Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας.
Τα περισσότερο διαβασμένα άρθρα του ίδιου συγγραφέα(s)