Überblick
Da Daten die Grundlage jeder KI-Anwendung sind, ist es wichtig alle relevanten Aspekte dieses Themas zu erfassen. KI-Experten benötigen verschiedene Informationen über Daten, um dementsprechend Modelle und Werkzeuge (bspw. für die Übertragung oder Verarbeitung von Daten) auszuwählen.
Was ist zu tun?
Nachfolgend werden Daten auf verschiedene technische und nicht-technische Aspekte hin untersucht, die eine Grundlage für eine erste Einschätzung der Datenlage und somit auch für Machbarkeitsuntersuchungen seitens Experten bilden.
Für die Bearbeitung dieses Themas sind allerdings fundierte Fachkenntnisse notwendig, da die Vorbereitung und die Entwicklung von KI-Anwendungsfällen spezifisches methodisches und mathematisches Wissen verlangen. Sollte solch eine Expertise im eigenen Unternehmen nicht vorhanden sein, empfiehlt sich hier die Beschaffung eines Experten. Sollten Sie momentan nicht die Möglichkeiten haben, auf einen Experten zuzugreifen, können Sie die folgenden Inhalte trotzdem als Information nutzen, eine alleinige Umsetzung des Anwendungsfalls ist so aber nur sehr schwer realisierbar. Falls Sie trotzdem erste Vorbereitungen treffen wollen, können erste Notizen zu den einzelnen Aspekten bezüglich Ihres KI-Use Cases Experten den Einstieg dennoch erleichtern.
Was ist das Ergebnis?
Anhand der verschiedenen Aspekte konnten Sie Informationen über Daten aufnehmen, die KI-Experten für erste Machbarkeitsuntersuchungen benötigen. Im nächsten Teil werden weitere relevante Informationen für eine erste Modellbildung aufgenommen.
Technische Aspekte - Datenmenge
Wie Sie schon erfahren haben, benötigen KI-Anwendungen eine große Menge an Daten. Doch wie viele Daten sind überhaupt ausreichend? Die Datenmenge hängt grundlegend von verschiedenen Rahmenbedingungen ab und zwar unter anderem:
- vom Anwendungsfall an sich,
- von der Anzahl an Varianten innerhalb des Anwendungsfalls und
- von relevanten Eingangsgrößen.
Wie daran deutlich wird, ist die Menge an benötigten Daten von Anwendungsfall zu Anwendungsfall individuell und hängt von verschiedenen Faktoren ab. Verallgemeinert kann gesagt werden, dass mit der Komplexität (also mit einer steigenden Anzahl an Eingangsgrößen) des Anwendungsfall auch die Menge an benötigten Daten wächst. Soll eine KI bspw. Entscheidungen in einem Prozess mit einer Vielzahl unterschiedlicher Varianten treffen, sollten dementsprechend auch möglichst viele Daten für all diese verschiedenen Szenarien vorliegen. Nur durch ein ausreichendes Training von verschiedenen Situationen kann das Modell auch auf unbekannte Situationen zufriedenstellend reagieren. Die Modellwahl hat zwar einen Einfluss auf die benötigte Menge an Daten, in der Praxis wird aber eher das Modell auf Grundlage der verfügbaren Datenpunkte gewählt. Mit mehr Daten können komplexere Zusammenhänge festgestellt werden und folglich wird auch ein komplexeres Modell benötigt. Doch die Menge der Daten ist nicht der einzige Faktor, um ein gutes Modell zu bilden. Andere Bereiche wie die Datenqualität können ebenso einen großen Einfluss haben.
Quellen
Wie viele Daten braucht Künstliche Intelligenz?
Dorina Weichert - Lamarr (Juni 2021)
Technische Aspekte - Datentyp
Bei einem Datentyp handelt es sich um einen bestimmten Wertbereich, innerhalb dessen eine bestimmte Menge von Operationen (z.B. Addieren oder Subtrahieren) durchführbar ist. Bei der Verarbeitung von Daten ist also darauf zu achten, welchen Datentyp sie haben und inwiefern Operationen mit anderen Datentypen möglich sind.
Technische Aspekte - Skalenniveaus von Daten
Skalenniveaus geben eine Auskunft darüber, anhand welcher Eigenschaften oder Merkmale Daten klassifiziert werden. Es bestimmt dabei, welche Art der Messung zulässig ist und welche (mathematischen) Operationen mit den Daten ausgeführt werden können. Weit verbreitet ist die Einteilung von Skalenniveaus anhand nachfolgender Rangfolge (Ordinalskala):
- Nominalskala
Bei der Nominalskala werden Daten in bestimmte Klassen oder Kategorien zugeordnet, ohne dass dabei eine Rangordnung oder Rangfolge besteht. Beispiele sind das Geschlecht, Haarfarbe oder gewählte Parteien bei einer Wahl. Hierbei kann nur Gleichheit oder Ungleichheit geprüft werden.
- Ordinalskala
Bei der Ordinalskala werden Daten ebenfalls Klassen oder Kategorien zugeordnet, hierbei können sie aber in eine Rangordnung gebracht werden. Beispiele sind bspw. qualitative Bewertungen (schlecht-befriedigend-gut). Neben Gleichheit oder Ungleichheit kann auch ein Vergleich gemacht werden (größer oder kleiner als).
- Metrische Skala
Metrische Daten sind solche Daten, die numerische Werte verwenden.
- Intervallskala
Bei der Intervallskala haben Daten eine klare Rangordnung und zusätzlich ist auch der Abstand zwischen den Werten bekannt. Der natürliche Nullpunkt (Abwesenheit eines Messwertes) ist im Gegensatz zur Verhältnisskala und zur Absolutskala nicht bekannt. Beispiele sind Skalen von 0 bis 100 oder auch Schulnoten mit einer Skala von 1 bis 6, IQ oder auch Temperatur in °Celsius. Zwar enthält das erste Beispiel eine 0, jedoch ist diese konstruiert und zeigt nicht die Abwesenheit eines Messwertes an. Neben der Prüfung von Gleichheit oder Ungleichheit und Vergleichen sind hier nun auch Addition und Subtraktion möglich.
- Verhältnisskala
Die Verhältnisskala weist die gleichen Eigenschaften wie die Intervallskala auf, allerdings ist der natürliche Nullpunkt bekannt. Beispiele sind Temperatur in Kelvin, Körpergröße oder Alter. Ab der Verhätnisskala sind sämtliche mathematischen Operationen zugelassen, also auch Multiplikation und Division.
- Absolutskala
Die Absolutskala weist die gleichen Eigenschaften wie die Verhältnisskala auf, zusätzlich ist die natürliche Einheit bekannt. Die natürliche Einheit kann als „Stück“ beschrieben werden. Beispiele sind die Anzahl an Fachsemestern im Studium, die Bevölkerungszahl eines Landes oder auch Anzahl an konsumierten Getränken auf einer Feier. Analog zur Verhältnisskala sind auch hier alle mathematischen Operationen zulässig.
Quellen
Was du schon immer über Skalenniveaus wissen wolltest...
Statistik für Psychologie (o.J.)
Technische Aspekte - Einheiten und Bezeichnungen von Daten
Insbesondere wenn Daten aus verschiedenen Quellen stammen und in eine einheitliche Datenbank oder ein anderes Speicherformat integriert werden, ist auf die Einheiten und Bezeichnungen der Daten zu achten.
So ist bspw. bei Gewichts- oder Längenmaßen auf einheitliche Einheiten zu achten (z.B. einheitlich in kg statt g oder in m statt cm). Vor allem Zeiteinheiten können vielfältig dargestellt werden, auch hier ist auf eine einheitliche Darstellungsweise zu achten (z.B. dd-mm-yyyy (01.01.2001) oder dd-mm-yy (01.01.01)).
Quellen
Die „beängstigende“ Sieben: Herausforderungen von Big Data und deren Lösungswege
Alex Becker - ScienceSoft (Juni 2018)
Zehn Big-Data-Herausforderungen und wie man sie bewältigt
George Lawton - ComputerWeekly (Oktober 2022)
Technische Aspekte - Datenstrukturierung
Unter Datenstruktur versteht man die Art und Weise, wie Daten organisiert und angeordnet sind. Unterschieden werden können:
- Strukturierte Daten
Strukturierte Daten sind Daten, die in einer festen Struktur organisiert und in einem vordefinierten Format strukturiert sind. Ein Beispiel dafür ist eine SQL-Datenbank.
- Unstrukturierte Daten
Unstrukturierte Daten sind Daten ohne eine identifizierbare Struktur und werden in der Regel erst bearbeitet, wenn sie verwendet werden. Beispiele sind Bilder, Videos oder Texte.
- Semi-strukturierte Daten
Semi-strukturierte Daten lassen sich zwischen strukturierten und unstrukturierten Daten einordnen. Es liegt zwar eine gewisse Struktur vor, aber die Inhalte sind im Gegensatz zu strukturierten Daten nicht immer vordefiniert. Ein Beispiel dafür sind E-Mails, die zwar strukturierte Felder wie Absender, Empfänger, Betreff und Text enthalten, deren Inhalte können aber individuell sein.
Quellen
Was sind unstrukturierte und strukturierte Daten und wie unterscheiden sie sich?
Pierre Dorion - ComputerWeekly (September 2014)
Strukturierte vs. unstrukturierte Daten: ein Leitfaden
talend (o.J.)
Technische Aspekte - Interne vs. Externe Daten
Unternehmensdaten oder auch generell Big Data können in interne und externe Daten unterteilt werden. Daten, die ein Unternehmen selbst generiert, besitzt oder verwaltet, werden als interne Daten bezeichnet. Mögliche Quellen sind bspw. ERP-Module, interne Dokumente, Sensoren oder andere Möglichkeiten der Datenerfassung, Kundenbestellungen oder auch Website Logs. Unter externen Daten werden hingegen Daten bezeichnet, die ein Unternehmen nicht selbst besitzt oder verwaltet. Solche Daten sind öffentlich oder werden außerhalb des eigenen Unternehmens erzeugt. Externe Datenquellen sind unter anderen Produktionsdaten anderer Unternehmen, soziale Medien, offizielle Statistiken, Wettervorhersagen oder auch öffentlich zugängliche Datensätze, die für maschinelles Lernen geeignet sind. Die Beschaffung solcher Daten kann ggf. kostenpflichtig sein. Für KI-Anwendungen kann es zudem erforderlich sein, über Schnittstellen kontinuierlich oder in bestimmten Intervallen benötigte Daten anzufordern. Beispiele für öffentlich zugängliche Datenquellen:
Quellen
- Was ist Big Data?
Alex Bekker - ScienceSoft (Juni 2018) - Kombination von internen und externen Datenquellen
Erich Kern - Polynorm (o.J.)
Technische Aspekte - Datenqualität
Die Datenqualität definiert die Übereinstimmung von den Datenkonsumenten (z.B. Datenanalysten, KI-Experten, …) gestellten Anforderungen und den tatsächlichen Ausprägungen der Qualität der Daten. Es wird also untersucht, inwiefern die Daten für den Zweck geeignet sind, für den sie eingesetzt werden sollen.
Bestimmt wird die Datenqualität dabei anhand verschiedener (Datenqualitäts-)Dimensionen wie z.B. Genauigkeit, Zuverlässigkeit oder Relevanz. Mit verschiedenen Strategien und Methoden lässt sich nicht nur der Informationsgehalt, sondern auch die einzelnen Qualitätsdimensionen verbessern. Bei der Bestimmung der Datenqualität geht es weniger darum, einen konkreten Wert zu ermitteln und viel mehr darum, ob die Datenqualität für einen bestimmten Einsatzzweck ausreichend ist. Daher sind die Datenqualität und zugehörige Dimensionen spezifisch für den konkreten Use Case zu bestimmen und zu bewerten. In Umgebungen, in denen bspw. ein Datenstrom stattfindet, werden die fünf Dimensionen Korrektheit, Vertrauenswürdigkeit, Vollständigkeit, Datenvolumen und Aktualität empfohlen.
Quellen
Nicht-Technische Aspekte
Zur Beschreibung und Bewertung von Daten können außerdem nicht-technische Aspekte untersucht werden. Dazu gehören unter anderem:
- Verzerrungen in der Datenverteilung (unconscious bias), die ggf. zu ungerechten Entscheidungen führen können,
- Kosten bei der Datenbeschaffung
- Rechtliche Aspekte von personengebundenen Daten.
weiterführende Literatur
- Unconscious Bias
Uni Bonn (o.J.)