Το
K-means είναι κλασικός αλγόριθμος για ομαδοποίηση δεδομένων στην εξόρυξη κειμένου, αλλά χρησιμοποιείται σπάνια για την επιλογή χαρακτηριστικών. … Χρησιμοποιούμε τη μέθοδο k-means για να καταγράψουμε πολλά κεντροειδή συμπλέγματα για κάθε τάξη και, στη συνέχεια, επιλέγουμε τις λέξεις υψηλής συχνότητας σε κεντροειδή ως χαρακτηριστικά κειμένου για κατηγοριοποίηση.
Λειτουργεί το k-means με κατηγορικά δεδομένα;
Ο αλγόριθμος k-Means δεν ισχύει για κατηγορικά δεδομένα, καθώς οι κατηγορικές μεταβλητές είναι διακριτές και δεν έχουν φυσική προέλευση. Επομένως, ο υπολογισμός της ευκλείδειας απόστασης για όπως το διάστημα δεν έχει νόημα.
Μπορεί το k-means να χρησιμοποιηθεί για ομαδοποίηση κειμένου;
Η ομαδοποίηση
K-means είναι ένας τύπος μεθόδου μάθησης χωρίς επίβλεψη, η οποία χρησιμοποιείται όταν δεν έχουμε δεδομένα με ετικέτα, όπως στην περίπτωσή μας, έχουμε δεδομένα χωρίς ετικέτα (σημαίνει, χωρίς καθορισμένες κατηγορίες ή ομάδες). Ο στόχος αυτού του αλγορίθμου είναι να βρει ομάδες στα δεδομένα, ενώ ο αρ. των ομάδων αντιπροσωπεύεται από τη μεταβλητή K.
Μπορούμε να χρησιμοποιήσουμε k-means για ταξινόμηση;
KMeans είναι ένας αλγόριθμος ομαδοποίησης που χωρίζει τις παρατηρήσεις σε k συστάδες. Εφόσον μπορούμε να υπαγορεύσουμε τον αριθμό των συστάδων, μπορεί εύκολα να χρησιμοποιηθεί στην ταξινόμηση όπου χωρίζουμε τα δεδομένα σε συστάδες που μπορεί να είναι ίσες ή περισσότερες από τον αριθμό των κλάσεων.
Ποιος αλγόριθμος ομαδοποίησης είναι καλύτερος για δεδομένα κειμένου;
για την ομαδοποίηση διανυσμάτων κειμένου, μπορείτε να χρησιμοποιήσετε αλγόριθμους ιεραρχικής ομαδοποίησης , όπως HDBSCAN που λαμβάνει επίσης υπόψη την πυκνότητα. στο HDBSCAN δεν χρειάζεται να εκχωρήσετε τον αριθμό των συμπλεγμάτων όπως στο k-means και είναι πιο ισχυρό κυρίως σε θορυβώδη δεδομένα.