Semi-Supervised Learning ist maschineller Lernansatz der überwachte und unüberwachte Lernmethoden kombiniert. Es werden sowohl gekennzeichnete (labeled) als auch ungekennzeichnete Daten für das Training eines Modells verwendet. Ziel ist es, dadurch die Leistung des Modells zu verbessern.
Generative Modelle
Generative Modelle versuchen die Wahrscheinlichkeitsverteilung der Eingabedaten zu erlernen und daraus neue ähnliche Daten zu generieren, die den Mustern und Strukturen der vorhandenen Daten ähnlich sind. Sie eignen sich weniger um Grenzen zwischen verschiedenen Klassen zu unterscheiden (diskriminativ) bzw. Vorhersagen zu treffen, aber gut zum Verständnis der Struktur und Eigenschaften der Eingabedaten. Ziel ist es ein Modell zu trainieren, welches in der Lage ist neue Daten zu generieren, die aussehen als ob sie von einem echten Datensatz stammen würden. Notwendig ist dies beispielsweise für die Anwendung von Bildsynthese, Textgenerierung und Sprachmodellierung.
Self-Training
Self-Training ist ein Lernverfahren, bei dem ein Modell mit gelabelten und ungelabelten Daten trainiert wird. Datenlabeling beschreibt den Prozess, dass den Eingabedaten (bzw. Merkmalen) eine Ausgabe oder ein Zielwert zugeordnet ist. Beim Self-Training wird das Modell zunächst mit einer begrenzten Anzahl von gelabelten Daten trainiert. Anschließend wird dieses Modell dazu verwendet, die ungelabelten Daten zu klassifizieren bzw. zu annotieren. Das Modell nutzt die also Kombination um seine Leistung zu verbessern. Dies geschieht in der Regel iterativ, wobei das Modell in jeder Iteration erneut trainiert wird und neue Vorhersagen für die ungelabelten Daten generiert. Das Verfahren wird besonders eingesetzt, wenn es schwierig ist, eine große Anzahl von gelabelten Daten zu sammeln. Self-Training hat aber den Nachteil, dass die Verwendung von ungelabelten Daten das Modell anfällig für Fehler macht, die durch falsche Klassifizierungen entstehen können. Die Qualität der ungelabelten Daten sollte somit besonders hoch sein um zuverlässige Ergebnisse zu erzielen.
Transductive Support Vector Machine (TSVM)
Die Transductive Support Vector Machine ist eine Erweiterung der klassischen Support Vector Machine (SVM). Das Ziel besteht darin, die ungelabelte Daten zunächst mithilfe von gelabelten Daten zu annotieren. Durch den transduktiven Lernansatz soll anschließend die Klassifikationsleistung mithilfe der ungelabelte Daten verbessert werden. Dieser Ansatz ist vorteilhaft, wenn es eine geringe Menge an gelabelten Daten gibt.