WiWiEn

Plattform zur Entwicklung KI-basierter Geschäftsmodelle

Transformer-Modelle

Glossar
TypKI-Methode

Transformer-Modelle gehören zur Gruppe des maschinellen Lernens, auf Basis künstlich neuraler Netze, aus dem Bereich des Deep-Learnings, mit einer neuartigen parallelisierten Netzwerkarchitektur.

Die Transformer-Modelle erweitern die KI-Methoden im Bereich des NLP (Natural Learning Processing), in welchen bisher primär Recurrent Neural Network (RNN) oder Convolutional Neural Network (CNN) zum Einsatz kamen und dienen aktuell primär der Sprachmodellierung und Übersetzung.

Während CNN-Modelle linear einen Input in ein Output überführen, basieren RNN-Modelle bereits auf hierarchischen Architekturen, welche gewichtete Umfeldinformationen „Aufmerksamkeiten“ mit einbeziehen, deren Bearbeitung jedoch weiterhin linear erfolgt und damit zeitintensiv ist. Transformer-Modelle nutzen eine Multi-Head Attention (= der Multi-Selbstaufmerksamkeit) als Architektur, welche aufgrund der Parallelisierung wesentlich schneller in der Lage ist zu lernen.

Natural Learning Processing (NLP) auf Grundlage der bisherigen Architektur wie RNN verfügen lediglich über einen Encoder-Decoder-Attention-Mechanismus. Bei der Transformer-Architektur gibt es dagegen eine Forward-Schicht in jeder Encoder-Schicht, sowie drei Mechanismen, der „Encoder-Decoder-Attention“ zur Abfragen der vorherigen Decoder-Schicht; der „Self-Attention-Schicht“ innerhalb des Encoders, zur Abfragen von der gleichen Stelle und damit der vorherigen Schicht im Kodierer und nach gleichem System der „Self-Attention-Schicht“ innerhalb des Decoders, eine höhere Output-Qualität erzielt.

Transformer-Modelle werden vorwiegend mit großen Datenmengen in Zusammenhang gebracht. Desweiteren besitzen sie aufgrund einer konstanten Anzahl an Optionen einer verringerten effektiven Auflösung.

Methoden

  1. Transformer-Encoder: Der Transformer wurde von Vaswani et al. (2017) in der Arbeit „Attention is All You Need“ erstmals vorgestellt. Er wurde entwickelt, um sequenzielle Daten wie Text- oder Zeitreihendaten zu verarbeiten, indem er einen Mechanismus der Selbstaufmerksamkeit nutzt, der es ihm ermöglicht, sich auf verschiedene Teile der Eingabesequenz zu konzentrieren. Das Modell konnte bei Aufgaben zur Verarbeitung natürlicher Sprache, einschließlich maschineller Übersetzung und Stimmungsanalyse überzeugen.
  2. BERT: Das BERT-Modell (Bidirectional Encoder Representations from Transformers) wurde in der Veröffentlichung „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“ von Devlin et al. (2018) vorgestellt. Das Modell wird auf großen Mengen von Textdaten mit einem maskierten Sprachmodellierungsziel vortrainiert, wodurch es kontextuelle Repräsentationen von Wörtern und Sätzen lernen kann. Das BERT-Modell bewährte sich für Aufgaben zur Verarbeitung natürlicher Sprache, darunter die Beantwortung von Fragen und die Inferenz natürlicher Sprache.
  3. T5 (Text-to-Text Transfer Transformer): Dieses Modell von Google kann für verschiedene Text-zu-Text-Aufgaben verwendet werden, z. B. Übersetzung, Textzusammenfassung oder auch Fragenbeantwortung und bietet eine breite Anwendungspalette in der natürlichen Sprachverarbeitung.
  4. Das GPT-Modell (Generative Pre-trained Transformer) ist ein weiterer Typ von Transformer, der in der Arbeit „Improving Language Understanding by Generative Pre-Training“ von Radford et al. (2018) vorgestellt wurde. Das GPT-Modell wird ebenfalls auf großen Mengen von Textdaten vortrainiert, verwendet aber ein generatives Sprachmodellierungsziel, um zu lernen, kohärenten Text zu erzeugen. Das GPT-Modell hat sich in einer Reihe von Aufgaben zur Erzeugung natürlicher Sprache hervorgetan, z. B. bei der Übersetzung und Vervollständigung von Texten.

Herausforderungen

1. Model-Effizienz: Die Ineffizienz bei der Verarbeitung langer Sequenzen, welche auf die Rechen- und Speicherkomplexität des Selbstbeobachtungsmoduls zurückzuführen ist, stellt eine zentrale Herausforderung bei der Anwendung von Transformer dar. Zu den Verbesserungsmethoden zählen die leichtgewichtige Aufmerksamkeit (z. B. spärliche Aufmerksamkeitsvarianten) und Divide-and-Conquer-Methoden (z. B. rekurrente und hierarchische Mechanismen).

2. Modellverallgemeinerung: Da der Transformator eine flexible Architektur ist und nur wenige Annahmen über die strukturelle Verzerrung der Eingabedaten macht, lässt er sich nur schwer auf kleinere Datenmengen trainieren. Zu den Verbesserungsmethoden gehören die Einführung struktureller Verzerrungen oder die Regularisierung, Pre-Training auf großen, unbeschrifteten Daten und weitere.

3. Modellanpassung: Der Arbeitsbereich der Modelanpassung zielt darauf ab, den Transformer an spezifische nachgelagerte Aufgaben und Anwendungen anzupassen.

WEITERFÜHRENDE LITERATUR