Glossar | |
---|---|
Typ | KI-Methode |
Transformer-Modelle gehören zur Gruppe des maschinellen Lernens, auf Basis künstlich neuraler Netze, aus dem Bereich des Deep-Learnings, mit einer neuartigen parallelisierten Netzwerkarchitektur.
Die Transformer-Modelle erweitern die KI-Methoden im Bereich des NLP (Natural Learning Processing), in welchen bisher primär Recurrent Neural Network (RNN) oder Convolutional Neural Network (CNN) zum Einsatz kamen und dienen aktuell primär der Sprachmodellierung und Übersetzung.
Während CNN-Modelle linear einen Input in ein Output überführen, basieren RNN-Modelle bereits auf hierarchischen Architekturen, welche gewichtete Umfeldinformationen „Aufmerksamkeiten“ mit einbeziehen, deren Bearbeitung jedoch weiterhin linear erfolgt und damit zeitintensiv ist. Transformer-Modelle nutzen eine Multi-Head Attention (= der Multi-Selbstaufmerksamkeit) als Architektur, welche aufgrund der Parallelisierung wesentlich schneller in der Lage ist zu lernen.
Natural Learning Processing (NLP) auf Grundlage der bisherigen Architektur wie RNN verfügen lediglich über einen Encoder-Decoder-Attention-Mechanismus. Bei der Transformer-Architektur gibt es dagegen eine Forward-Schicht in jeder Encoder-Schicht, sowie drei Mechanismen, der „Encoder-Decoder-Attention“ zur Abfragen der vorherigen Decoder-Schicht; der „Self-Attention-Schicht“ innerhalb des Encoders, zur Abfragen von der gleichen Stelle und damit der vorherigen Schicht im Kodierer und nach gleichem System der „Self-Attention-Schicht“ innerhalb des Decoders, eine höhere Output-Qualität erzielt.
Transformer-Modelle werden vorwiegend mit großen Datenmengen in Zusammenhang gebracht. Desweiteren besitzen sie aufgrund einer konstanten Anzahl an Optionen einer verringerten effektiven Auflösung.
1. Model-Effizienz: Die Ineffizienz bei der Verarbeitung langer Sequenzen, welche auf die Rechen- und Speicherkomplexität des Selbstbeobachtungsmoduls zurückzuführen ist, stellt eine zentrale Herausforderung bei der Anwendung von Transformer dar. Zu den Verbesserungsmethoden zählen die leichtgewichtige Aufmerksamkeit (z. B. spärliche Aufmerksamkeitsvarianten) und Divide-and-Conquer-Methoden (z. B. rekurrente und hierarchische Mechanismen).
2. Modellverallgemeinerung: Da der Transformator eine flexible Architektur ist und nur wenige Annahmen über die strukturelle Verzerrung der Eingabedaten macht, lässt er sich nur schwer auf kleinere Datenmengen trainieren. Zu den Verbesserungsmethoden gehören die Einführung struktureller Verzerrungen oder die Regularisierung, Pre-Training auf großen, unbeschrifteten Daten und weitere.
3. Modellanpassung: Der Arbeitsbereich der Modelanpassung zielt darauf ab, den Transformer an spezifische nachgelagerte Aufgaben und Anwendungen anzupassen.