Die Datenqualität definiert die Übereinstimmung von den Datenkonsumenten (z.B. Datenanalysten, KI-Experten, …) gestellten Anforderungen und den tatsächlichen Ausprägungen der Qualität der Daten. Es wird also untersucht, inwiefern die Daten für den Zweck geeignet sind, für den sie eingesetzt werden sollen.
Bestimmt wird die Datenqualität dabei anhand verschiedener (Datenqualitäts-)Dimensionen wie z.B. Genauigkeit, Zuverlässigkeit oder Relevanz. Mit verschiedenen Strategien und Methoden lässt sich nicht nur der Informationsgehalt, sondern auch die einzelnen Qualitätsdimensionen verbessern. Bei der Bestimmung der Datenqualität geht es weniger darum, einen konkreten Wert zu ermitteln und viel mehr darum, ob die Datenqualität für einen bestimmten Einsatzzweck ausreichend ist. Daher sind die Datenqualität und zugehörige Dimensionen spezifisch für den konkreten Use Case zu bestimmen und zu bewerten. In Umgebungen, in denen bspw. ein Datenstrom stattfindet, werden die fünf Dimensionen Korrektheit, Vertrauenswürdigkeit, Vollständigkeit, Datenvolumen und Aktualität empfohlen.