Σύγκριση αλγορίθμων μηχανικής μάθησης στην προβλεπτική ταξινόμηση και την επιλογή των σημαντικών χαρακτηριστικών
Περίληψη
Στην παρούσα εργασία συγκρίθηκαν αλγόριθμοι Μηχανικής Μάθησης στο πλαίσιο της προβλεπτικής τους ικανότητας στην ταξινόμηση (classification) και της ανάδειξης των χαρακτηριστικών (features) που συνεισφέρουν περισσότερο σε αυτή. Οι αλγόριθμοι που αξιολογήθηκαν κυρίως ως προς την ακρίβεια (accuracy) της ταξινόμηση τους, ήταν τα Διανύσματα Στήριξης για Ταξινόμηση (Support Vector Classification, SVC), η πολυωνυμική Λογιστική Παλινδρόμηση (Logistic multinomial Regression), η Καθοδική Στοχαστική Κλίση (Stochastic Gradient Descent, SGD), τα Δέντρα Απόφασης (Decision Trees), οι Κ-Πλησιέστεροι Γείτονες (Κ-Nearest Neighbors, Κ-NN), η Gaussian Naive Bayes, τα Νευρωνικά Δίκτυα (Neural Networks), ενώ χρησιμοποιήθηκαν και μέθοδοι ενίσχυσης, όπως τα Τυχαία Δάση (Random Forest) και Extra Trees. Παράλληλα αναζητήθηκαν οι βέλτιστες παράμετροι των αλγορίθμων μέσω της μεθόδου GridSearch, ενώ εφαρμόστηκαν οι μέθοδοι Adaboosting και διασταυρωμένη επικύρωση (cross-validation), για την ενίσχυση των αποτελεσμάτων. Το σύνολο δεδομένων που χρησιμοποιήθηκε ήταν το ‘Forest Covertype, n=581.012’ από το αποθετήριο μηχανικής μάθησης UCI, το οποίο περιλαμβάνει δεδομένα για διάφορους τύπους δασικών εκτάσεων, με στόχο την πρόβλεψη του τύπου δασικής κάλυψης. Οι αλγόριθμοι αξιολογήθηκαν τόσο στα αρχικά όσο και στα τυποποιημένα (standardized) δεδομένα. Τα αποτελέσματα έδειξαν ότι ο αλγόριθμος Κ-NN είχε την μεγαλύτερη ακρίβεια στα αρχικά δεδομένα, ενώ οι αλγόριθμοι Random Forest και Extra Tree παρουσίασαν την μεγαλύτερη ακρίβεια και στις δύο περιπτώσεις. Η τυποποίηση των δεδομένων δεν είχε καμία επίδραση στην ακρίβεια στους αλγόριθμους Decision Trees, Random Forest, Extra Trees και Logistic multinomial Regression, βελτίωσε την ακρίβεια στους αλγορίθμους SVC, Neural Networks και SGD, ενώ μείωσε την ακρίβεια των αλγορίθμων Κ-NN και Gaussian Naive Bayes. Επιπλέον, η ανάλυση της σημαντικότητας των χαρακτηριστικών έδειξε ότι το υψόμετρο (Elevation), ο τύπος του εδάφους (Soil type) και η περιοχή άγριας φύσης (Wilderness Area) είχαν την μεγαλύτερη συνεισφορά στην ταξινόμηση. Επίσης, η πρόβλεψη ενός τυχαίου διανύσματος δεδομένων ήταν η ίδια σε όλους τους αλγορίθμους που εφαρμόστηκαν στα τυποποιημένα δεδομένα, ενώ διαφοροποιήθηκε στα αρχικά δεδομένα στους αλγορίθμους Κ-NN και Extra Tree.
Λεπτομέρειες άρθρου
- Πώς να δημιουργήσετε Αναφορές
-
ΠΑΠΑΦΙΛΙΠΠΟΥ Ν., Κυρανά Ζ., Πρατσινάκης Ε., Δόρδας Χ., Μάρκος Ά., & Μενεξές Γ. (2026). Σύγκριση αλγορίθμων μηχανικής μάθησης στην προβλεπτική ταξινόμηση και την επιλογή των σημαντικών χαρακτηριστικών. Τετράδια Ανάλυσης Δεδομένων, 21(1). ανακτήθηκε από https://ejournals.epublishing.ekt.gr/index.php/dab/article/view/39468
- Ενότητα
- Εμπειρικές μελέτες

Αυτή η εργασία είναι αδειοδοτημένη υπό το CC Αναφορά Δημιουργού – Μη Εμπορική Χρήση – Όχι Παράγωγα Έργα 4.0 4.0.
Οι Συγγραφείς που δημοσιεύουν εργασίες τους στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ συμφωνούν στους παρακάτω όρους:
- Οι Συγγραφείς δεν χρεώνονται με έξοδα υποβολής, επεξεργασίας ή δημοσίευσης των εργασιών τους. Τα κόστη αυτά καλύπτονται από την Ελληνική Εταιρία Ανάλυσης Δεδομένων.
- Τα πνευματικά δικαιώματα των εργασιών που δημοσιεύονται στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ προστατεύονται από την άδεια Creative Commons Attribution-NonCommercial-ΝοDerivatives 4.0 International. Οι Συγγραφείς διατηρούν τα Πνευματικά Δικαιώματα και χορηγούν στο περιοδικό το δικαίωμα της πρώτης δημοσίευσης. Η άδεια αυτή επιτρέπει σε τρίτους - αποδέκτες της άδειας να χρησιμοποιούν την εργασία σε οποιαδήποτε μορφή μόνο για μη εμπορικούς σκοπούς. Αν οι τρίτοι τροποποιήσουν ή προσαρμόσουν το περιεχόμενο, οφείλουν να κοινοποιήσουν το τροποποιημένο περιεχόμενο for noncommercial purposes only. If others modify or adapt the material, they must license the modified material under identical terms.
- Με την προϋπόθεση της διατήρησης των διατυπώσεων που προβλέπονται στην άδεια σχετικά με την αναφορά στον αρχικό δημιουργό και την αρχική δημοσίευση στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ.
- Οι Συγγραφείς μπορούν να συνάπτουν ξεχωριστές και πρόσθετες συμβάσεις και συμφωνίες για τη μη αποκλειστική διανομή της εργασίας όπως δημοσιεύτηκε στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ (π.χ. κατάθεση σε ακαδημαϊκά καταθετήρια), με την προϋπόθεση της αναγνώρισης και την αναφοράς της πρώτης δημοσίευσης στο περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ.
- Το περιοδικό ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ Α επιτρέπει και ενθαρρύνει τους συγγραφείς να καταθέτουν τις εργασίες τους σε θεσμικά (π.χ. το αποθετήριο του Εθνικού Κέντρου Τεκμηρίωσης) ή θεματικά αποθετήρια, μετά τη δημοσίευσή τους στο ΤΕΤΡΑΔΙΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ και με όρους Ανοικτής Πρόσβασης, όπως κατά περίπτωση προσδιορίζονται από τους χρηματοδότες της έρευνάς τους ή/και τα ιδρύματα με τα οποία συνεργάζονται. Κατά την κατάθεση της εργασίας τους, οι συγγραφείς πρέπει να παρέχουν πληροφορίες σχετικά με τη δημοσίευση της εργασίας στο περιοδικό και τις πηγές χρηματοδότησης της έρευνάς τους. Κατάλογοι των ιδρυματικών και θεματικών αποθετηρίων ανά χώρα υπάρχουν στη βάση http://opendoar.org/countrylist.php. Οι συγγραφείς έχουν τη δυνατότητα να καταθέσουν χωρίς κόστος την εργασία τους στο αποθετήριο www.zenodo.org, το οποίο υποστηρίζεται από το OpenAIRE (www.openaire.eu ), στο πλαίσιο των πολιτικών της Ευρωπαϊκής Επιτροπής για την ενίσχυση της Ανοικτής ακαδημαϊκής έρευνας.