Data Warehouse 15.04.2024, 10:13 Uhr

Datenbanken besser aufsetzen mit Data Vault

Einführung in Data Vault: Eine skalierbare und flexible Lösung für komplexe Datenumgebungen
(Quelle: dotnetpro)
Vor dem Hintergrund der Grenzen herkömmlicher Data-Warehousing-Techniken entwickelte Dan Linstedt – mittlerweile schon vor über 30 Jahren – das Data Vault-Konzept. Es besticht durch eine modulare, skalierbare Architektur und liegt derzeit in Version 2.0 vor. 
Wer sich mit seinen aktuellen Features beschäftigt, dem wird schnell klar, warum die Beliebtheit dieser Methode zur Verwaltung und Strukturierung von Data Warehouses in komplexen und dynamischen Umgebungen nach wie vor groß ist und weiter wächst.
Gleichzeitig muss klar sein: Ohne spezialisierte Data-Warehouse-Automatisierungstools dürfte es schwierig werden, Data Vault zu implementieren und zu betreiben. Für kleinere Umgebungen mit wenig Änderungen könnte der Ansatz dann doch zu komplex sein; hier dürfte ein einfaches Kimball-Modell die bessere Lösung darstellen. 

Schema-Struktur

Zugegeben: Besonders einfach macht es Data Vault Neueinsteigerinnen und Neueinsteigern nicht - ganz anders als die traditionellen Modellierungskonzepte von Kimball oder Inmon. Berichte und Analysen sind dort einfacher nutzbar. 
Zugleich aber stoßen diese schnell an ihre Grenzen, wenn es um an größere organisatorische Änderungen oder die Erfassung historischer Daten geht. Und genau hier punktet Data Vault. Dessen Kernschema kann für Laien und nur gelegentliche Anwender jedoch kompliziert wirken. Um das Reporting deutlich zu vereinfachen, setzt man daher häufig eine deutlich vereinfachte Präsentationsschicht obendrauf. Das Kernschema kann dabei als Isolationsschicht verstanden werden, die historische Daten schützt, während Änderungen im Unternehmen über die öffentlichen Layer vorgenommen werden.

Aufbau eines Data Vault-Schemas

Die Data-Vault-Architektur setzt sich aus drei Bausteinen zusammen:  Hubs, Satelliten und der Linkstruktur. An dieser Dreiteilung offenbart sich der Hauptvorteil des Ansatzes: Ohne das Gesamtsystem zu beeinträchtigen, sind schrittweise Änderungen und Aktualisierungen möglich. In der Tat führt genau dies zu einer einfacheren Wartung und Weiterentwicklung des Data Warehouse. 
Hub-Tabellen dienen als zentrale Ablage für bestimmte Geschäftskonzepte wie Kunden, Produkte und Bestellungen. Sie speichern Geschäftsschlüssel und stellen die grundlegende Schicht für die Organisation und Kategorisierung von Daten dar. Ein typisches Schema würde Hub-Tabellen für Kunden, Produkte, Bestellungen usw. enthalten.
Satelliten enthalten die beschreibenden Attribute, die mit Hubs und Links verknüpft sind, und liefern kontextbezogene Informationen und historische Daten. Sie spielen eine entscheidende Rolle bei der Wahrung der Integrität und der Abstammung der Daten.
Verknüpfungen stellen Beziehungen zwischen Hubs her und erfassen die Verbindungen und Interaktionen zwischen verschiedenen Entitäten. So entwickelt sich ein umfassenderes Verständnis des Datenökosystems.

Data Vault ist prädestiniert für… 

Für mehr oder weniger statische Unternehmen mit nur geringfügigen organisatorischen Änderungen wurde der Data-Vault-Ansatz nicht explizit konzipiert. Prädestiniert ist er insbesondere für folgende Szenarien: 
1. Komplexe Datenumgebungen mit vielfältigen Datenquellen. Die flexible Architektur von Data Vault kann sich sehr gut an mehrere Systeme, unterschiedliche Datenformate und sich ändernde Geschäftsanforderungen anpassen.
2. Agile Entwicklung: Unternehmen, die agile Methoden für die Softwareentwicklung einsetzen, können von Data Vault 2.0 stark profitieren. Seine modulare Struktur passt gut zu iterativen Entwicklungspraktiken und ermöglicht es den Teams, schrittweise Änderungen und Erweiterungen vorzunehmen, ohne umfangreiche Nacharbeiten zu verursachen. Außerdem können Sie Arbeitspakete entlang spezifischer Geschäftskonzepte aufteilen.
3. Hoher Compliance-Anforderungen: Überall, wo strenge gesetzliche Vorschriften zu beachten sind, im Finanz- und Gesundheitswesen oder bei Behörden, ist die Wahrung der Datenintegrität und Prüfbarkeit von größter Bedeutung. Die in Data Vault eingebauten Mechanismen zur Nachverfolgung von Änderungen und zur Erhaltung der Datenreihenfolge machen es zur idealen Wahl für Compliance-gesteuerte Umgebungen.
4. Skalierbarkeit: Datenmengen wachsen exponentiell, deshalb ist Skalierbarkeit ein entscheidender Faktor für Data-Warehousing-Lösungen. Die Fähigkeit von Data Vault zur horizontalen Skalierung durch Hinzufügen zusätzlicher Hubs, Links und Satelliten stellt sicher, dass die Lösung steigende Datenlasten ohne Leistungsverluste bewältigen kann.
5. Datenqualität und -konsistenz: Durch die Trennung von Geschäftsschlüsseln und beschreibenden Attributen fördert Data Vault die Konsistenz und Qualität der Daten. Diese Trennung verringert das Risiko von Datenanomalien und gewährleistet, dass die Integrität der Daten während ihres gesamten Lebenszyklus erhalten bleibt.
 
Quelle: Christoph Papenfuß
Christoph Papenfuss
ist verantwortlich für den Geschäftsaufbau am deutschsprachigen Markt des finnischen Datenspezialisten Agile Data Engine. Der Spezialist für Data Analytics hat als Unternehmensberater im Silicon-Valley-Büro von KPMG mit Unternehmen wie Apple, Electronic Arts und Daimler an Datenprojekten gearbeitet und bekleidete später Führungspositionen bei Analytikunternehmen wie Cognos, OSIsoft und msg global. www.agiledataengine.com


Das könnte Sie auch interessieren