Unsupervised Machine Learning

Glossar
SchlüsselwörterUnüberwachtes Lernen, unsupervised learning, unüberwachten Lernen, unsupervised machine learning
TypKI-Methode

Beim unüberwachten Lernen (unsupervised Learning) suchen Algorithmen ohne menschliches Zutun Strukturen in Daten.

Unsupervised Machine Learning bezieht sich auf Techniken des Maschinellen Lernens, bei denen ein Modell ohne vorgegebene Lösungen trainiert wird. Es ermöglicht komplexe Datenstrukturen zu erkunden und neue Erkenntnisse zu gewinnen, ohne auf vordefinierte Labels oder Kategorien angewiesen zu sein. Es hat zum Ziel Muster und Strukturen in den Daten selbst zu finden. Das Modell nutzt dann diese Strukturen um ähnliche oder zusammengehörige Daten zu gruppieren. Ein Beispiel für die Anwendung ist die Segmentierung von Kunden auf Grundlage von ihrem Einkaufsverhalten oder Interessen, ohne dass diese vorher einer bestimmten Gruppe zugeordnet wurden.

Lernansätze

K-Means Clustering

K-Means Clustering ist ein Verfahren, welches Daten gruppiert und sogenannte "k-Cluster" bildet. Jedes Cluster stellt dabei eine Gruppe von Datenpunkten mit ähnlichen Eigenschaften dar. Zunächst wird eine Anzahl k von Clustern definiert und für jedes Cluster ein zufälliger Schwerpunkt (Centroid) bestimmt. Die Datenpunkte werden anschließend entsprechenden den Schwerpunkten in die Cluster eingeteilt. Die Schwerpunkte werden anhand der neu zugewiesenen Datenpunkte aktualisiert und der Prozess wird widerholt. Dies wird solange fortgesetzt, bis die Schwerpunkte stabil sind oder eine maximale Anzahl von Iterationen erreicht wurde. In Bezug auf K-Clustering gilt es zu beachten, dass es empfindlich auf die Auswahl bzw. Anzahl der Schwerpunkte bzw. Cluster reagiert. Eine schlechte initiale Auswahl kann zu suboptimalen Clustering-Ergebnissen führen.

Principal Component Analysis (PCA)

PCA ist eine Methode zur Dimensionsreduktion und Datenvisualisierung. Die Anzahl der Dimensionen wird auf Basis der größten Varianz reduziert, indem die Korrelationen zwischen den Variablen untersucht und Komponenten in den Daten extrahiert werden. Die Komponenten stellen Linearkombinationen der ursprünglichen Variable dar, die die meiste Varianz in den Daten erklären (Die erste Komponente erklärt die größte Varianz, die zweite die nächst größte Varianz etc.). Durch die Auswahl der ersten Komponenten können die Daten auf eine n-dimensionale Ebene reduziert werden, wodurch das Modell einfacher und interpretierbarer wird.


WEITERFÜHRENDE LITERATUR