====== Maschinelles Übersetzen ====== Maschinelle Übersetzungssysteme stellen mehr oder weniger ein Teilbereich der [[dokumentanalyse|Dokumentenanalyse]] dar, mit dem Unterschied, dass sie nicht darauf ausgelegt sind, nützliche Informationen oder Erkenntnisse zu extrahieren. Sie konzentrieren sich ausschließlich auf die Übersetzung von Texten von einer Sprache in eine andere. Der Fokus liegt darauf, die semantische Bedeutung des Originaltextes beizubehalten und diese in einer anderen Sprache korrekt darzustellen. Daher kann das maschinelle Übersetzen auch ein Bestandteil oder die Voraussetzung für ein Dokumentenanalysesystem sein. Maschinelle Übersetzungssysteme werden u.a. benötigt für technische Dokumentationen ( wie z.B. Bedienungsanleitungen), Kunden-Support und Echtzeit-Übersetzung in Konferenztools. {{ :wissen:glossar:st_maschinelles_uebersetzen_erste_grafik.svg |}} ===== Problemstellung & Zielsetzung ===== Die Herausforderungen im maschinellen Übersetzen liegen in der Fähigkeit, Sprache zu verstehen und zu reproduzieren, die voller Nuancen, Idiome, Redewendungen und Kontextabhängigkeiten ist. Sprache ist etwas sehr komplexes und geht über das einfache "Wörterbuch-Übersetzen" hinaus. Die Komplexität im Verständnis liegt zum einen %%an der sehr schnellen Wandlung von Umgangssprache, weshalb die Bedeutung einzelner Wörter oder Phrasen möglicherweise nicht bekannt ist. Zum anderen müssen in der Zielsprache oft kreative Lösungen für eine passende Entsprechung der Ausgangssprache gefunden werden, um die vielschichtige Bedeutung und die transportierten Informationen abzubilden. Die Anforderungen sind daher nahtlose, präzise, skalierbare, flüssige und menschenähnliche Übersetzungsleistung in einer Vielzahl von Sprachen (im besten Fall inkl. Dialekte) und Textarten. {{ :wissen:glossar:st_maschinelles_uebersetzen_zweite_grafik.svg |}} ===== MÖGLICHE KI-METHODIKEN ===== Das Übersetzen von Sprache setzt das Verstehen voraus. Daher gilt das [[wissen:glossar:sprachverarbeitung|Natural Language Processing (NLP) ]]und u.a. Large Language Modelle als Voraussetzung für solche Use Cases. Das erlernen der Sprache(n) kann hingegen über verschiedene Lernansätze erfolgen. Allerdings haben sich aus der Erfahrung heraus besonders Ansätze des Deep-Learning als eine sehr natürliche Übersetzung erwiesen, da Sie den gesamten Eingabetext als Einheit ("Sequenz") modellieren und versuchen, den Kontext jedes Wortes in Bezug auf den gesamten Text zu berücksichtigen. Folgende Lernansätze kommen dabei häufig zum Einsatz: * [[wissen:glossar:rnn|Recurrent neural network (RNN)]] - z.B. können mittels Long Short-Term Memory Zellen (LSTM), das "Vergessen" von Kontext in längeren Sequenzen verhindern. * [[wissen:glossar:cnn|Convolutional Neuronal Network (CNN)]] - z.B. für das erkennen von Muster in den Eingabedaten (wie bspw. bestimmte Wortkombinationen) * [[wissen:glossar:autoencoder|Autoencoder ]]- z.B. um die Bedeutung eines Satzes in einer kompakten Form darzustellen, unabhängig von Satzbau und Formulierung. ===== Risiken & Chancen ===== * Es besteht die Chance als besser bewertet zu werden als konkurrierende Anbieter ohne diese Anwendung. * Maschinelle Übersetzungen können fehlerhaft sein. * Die idiomatische und natürlich klingende Übersetzung kann zum Nachteil werden, wenn dadurch Be- deutungsunterschiede zwischen Ausgangswort und Übersetzung übersehen werden. * Unabhängig von der Textart müssen maschinelle Übersetzungen und Programme die KI verwenden anschließend von einem Menschen bearbeiten werden. * Bei ungewöhnlichen Wortbedeutung kann eine unpassende Übersetzung gewählt werden. * Übersetzungsprogramme können Fehler im Bereich der Syntax, z. B. Begleitsätze bei direkter Rede, machen und innerhalb von einer Passage sowohl siezen als auch duzen. ===== Best Practice ===== * [[wissen:bestpractice:tecent|]] ===== Weiterführende Informationen ===== * 
{{https://web.archive.org/web/20220708130958/https://www.einfachgutelehre.uni-kiel.de/wp-content/uploads/2020/08/KI_DeepL_Rottler.pdf| Übersetzung von Umgangssprache mit DeepL}} (2020)\\ **Kerstin Rottler**