Data Mesh: Daten sind das Produkt
Öl, digitales schwarzes Gold, strategisches Asset… Daten haben schon viele verschiedene metaphorische Bezeichnungen erhalten – Bei Data Mesh werden Daten als Produkt betrachtet. Die Data-Domains sind für die Verwaltung des Lebenszyklus dieser Produkte und für die gemeinsame Nutzung und Bereitstellung dieser Produkte im gesamten Unternehmen verantwortlich. Diese Strukturierung in Datenprodukte ist die zweite der vier Säulen von Data Mesh.
Dieser Artikel ist der dritte in einer Reihe, die wir dem Thema Data Mesh widmen. Das Konzept Data Mesh vereint alle notwendigen Zutaten, um die gesamte Organisation rund um die Herausforderungen der Datenoptimierung herum auszurichten.
Um dies zu demonstrieren und unsere Überzeugungen bezüglich Data Mesh zu teilen, verfassen wir diese Artikelserie, die diesem innovativen Thema gewidmet ist. Unser Ziel ist es, Ihnen zu helfen, die Auswirkungen und Vorteile von Data Mesh für Ihre eigene Transformation zu einer Data-Driven-Culture im Unternehmen fassen zu können.
Dieser Artikel erschien in einer früheren Version in englischer Sprache auf dem Data & AI Blog von Business & Decision.
- Artikel 1: Data Mesh – das ultimative Modell für Data-Driven-Unternehmen?
- Artikel 2: Data Domains: Data Mesh verleiht den Business Domains Superkräfte!
Die Avantgarde der Unternehmen arbeiten heute bereits mit dem Konzept der Datenprodukte. Sie beauftragen Stellen wie ihre Data Factory, ihr Data Office oder ihre IT-Abteilung mit der Erstellung dieser Produkte.
Data Mesh geht bei der Verallgemeinerung dieses Konzepts noch weiter, indem es nicht nur die Erstellung von Produkten auf die jeweiligen Bereiche verteilt, sondern auch Daten selbst als eigenständiges Produkt und nicht nur als Bestandteil eines größeren digitalen Produkts betrachtet. Indem Data Mesh nur Datenprodukte hervorbringt und die Schnittstellen für den Zugriff darauf bereitstellt, gibt es den Anwender-Domains die Verantwortung und die Freiheit, die Daten durch Anwendungen so zu analysieren und neu zu erstellen, wie es für ihre Bedürfnisse am besten geeignet ist, wobei die ihnen zur Verfügung stehenden Werkzeuge berücksichtigt werden.
Für Data Mesh sind die Daten das Produkt
Hinweis: Data Mesh unterscheidet zwischen den Begriffen “Datenprodukt” und “Daten als Produkt”. Ein Datenprodukt ist definiert als “ein Produkt, das ein Endziel durch die Verwendung von Daten ermöglicht”, d. h. die Verwendung von Daten in einem digitalen Produkt. Das Prinzip der Daten als Produkt, das von Data Mesh eingeführt wurde, ist eine Untergruppe von Datenprodukten, bei denen die Daten selbst zum Produkt werden. Sie werden also zum Zweck und nicht nur zum Mittel. Im Folgenden werden wir der Einfachheit halber den Begriff “Datenprodukt” verwenden, um uns auf “Daten als Produkt” zu beziehen.
Bei Data Mesh werden die Daten selbst buchstäblich zum Produkt, das in der Regel in Form eines Datensatzes konsumiert werden soll. Um effektiv zu sein, müssen Datenprodukte einer Reihe von Merkmalen entsprechen, die sie an der Schnittstelle von Nutzbarkeit, Durchführbarkeit und Wert platzieren (Diagramm Marty Cagan).
Die Analogie mit einer Flasche Wasser hilft, das Wesen dieser Daten als Produkt zu verdeutlichen. In dieser Metapher sind die Daten Wasser. Um verwendet werden zu können, benötigt das Wasser einen Behälter, die Flasche. Bei Daten ist dies im Allgemeinen ein Datensatz.
Aber auch Marketing, Informationen über die Zusammensetzung, Gebrauchsanweisungen, ein Schaufenster oder eine Verkaufsfläche wie ein Supermarktregal oder die Produktseite eines Online-Händlers werden hier mitgedacht.
Produkt | Wasser in der Flasche | Datenprodukt |
Verbrauchsmaterial | Wasser | Daten |
Verpackung | Flasche | Datensatz |
Information | Etikett mit Zusammensetzung, Gesundheitsinformationen, Rezepten usw. | Metadaten und Dokumentation |
Bereitstellung | Website, E-Commerce Plattform, Katalog | Datenkatalog, Marketplace |
Distribution | Point of Sale, Lieferung | API, spezielles Tool (Dataviz, Data Science Studio) |
Data Nach der Data-Mesh-Theorie muss ein Produkt sechs grundlegende Kriterien erfüllen.
- Auffindbar: Das Produkt wird in einem Datenkatalog oder auf einem Marketplace referenziert und von einer Reihe von Metadaten begleitet, um seine Erkundung und Identifizierung durch die Verbraucher in allen Phasen seines Lebenszyklus zu erleichtern.
- Adressierbar: Um die Produktivität zu gewährleisten, befindet sich jedes Datenprodukt an einer dauerhaften und eindeutigen Adresse, die die Kontinuität seiner Nutzung durch die Anwender-Domains unabhängig von seiner Entwicklung im Laufe der Zeit und in Übereinstimmung mit der Zugriffspolitik garantiert.
- Dokumentiert: Die Daten werden von der Domain in einem föderalen Katalog definiert und dokumentiert, um ein klares und eindeutiges Verständnis und eine Interpretation durch die Verbraucher zu gewährleisten (Herkunft, Standort, Aktualität der Daten, Semantik, Lebenszyklus, Datenmodell usw.).
- Zuverlässig: Die Qualität der Daten wird von den bereitstellenden Domains kontinuierlich gemessen und überwacht (mittels Qualitätsindikatoren), um die Produkte zuverlässig zu machen und ein hohes Maß an Vertrauen der Nutzer zu gewährleisten.
- Interoperabel: Die Produkte beruhen auf gemeinsamen Standards, was ihre Verfügbarkeit, Wiederverwendung, Querverweise usw. erleichtert.
- Sicher: Als strategisches Gut werden die Daten entsprechend ihrer Vertraulichkeit und Berechtigung (Zugangsrechte, Authentifizierung, Verschlüsselung usw.) geschützt.
Vereinfacht gesagt, besteht ein Produkt im Allgemeinen aus einem Datensatz.
Es gibt 5 Haupttypen von Datenprodukten:
- Rohdaten, direkt aus einer Datenquelle. Es werden nur wenige grundlegende Verarbeitungs- oder Bereinigungsvorgänge durchgeführt. Für die Optimierung der bereitgestellten Daten sind dann ausschließlich die Anwender-Domains verantwortlich.
- Abgeleitete Daten, die mit Rohdaten gleichgestellt werden können, angereichert mit ergänzenden Daten auf der Grundlage von Zusammenstellungs- und Aufbereitungsarbeiten, die von der Eigentümer-Domain durchgeführt werden. Für die Optimierung der bereitgestellten Daten sind dann ausschließlich die Anwender-Domains verantwortlich.
- Daten, die sich aus der Verarbeitung von Quelldaten (Rohdaten oder abgeleiteten Daten) durch einen Algorithmus (Recommendation, Scoring, Classification oder einen anderen Algorithmus) ergeben, der von der Eigentümer-Domain entworfen und implementiert wurde. Die Anwender-Domain bleibt für die Interpretation und die endgültige Nutzung zuständig.
- Daten zur Entscheidungsunterstützung, bei denen es sich um entscheidungsrelevante analytische Daten handelt, die aus einer tendenziell fortgeschrittenen Verarbeitung resultieren. Während die Eigentümer-Domain für die Analyse der Daten verantwortlich ist, bleiben die Anwender-Domains für deren Interpretation und Endnutzung zuständig.
- Automatisierte entscheidungsunterstützende Daten sind ein ähnlicher Typ wie der vorhergehende, mit dem Unterschied, dass die gesamte Intelligenz, einschließlich der Interpretation und der Entscheidungsrelevanz, in die Verantwortung der Eigentümer-Domain fällt, wobei die Anwender-Domains in diesem Zusammenhang auf die Rolle des Konsumenten beschränkt sind.
Aber um ganz präzise zu sein, ist ein Datenprodukt die Kombination aus einem Datensatz, der zugehörigen Governance, den für seine Erstellung erforderlichen Mitteln (Prozess), seinem Ziel (Analyse, Kommunikation usw.) und seiner Bereitstellung zur Distribution. Es kann auch die Form eines Data-Science-Algorithmus annehmen, der, wenn er als API zur Verfügung gestellt wird, von den Domains abgefragt werden kann. Inspiriert von der DevOps-Philosophie bringt ein Datenprodukt erforderliche Daten, Code und Infrastruktur zusammen.
Ein Produkt kann auch andere Datenprodukte nutzen; dies wird sogar empfohlen. Ein Algorithmus zur Kundenbewertung, der von der E-Commerce-Domain bereitgestellt wird, nutzt beispielsweise das Produkt “Kundendaten”, das vom Marketing bereitgestellt wird.
Um auf Basis Self-Service konsumiert werden zu können, müssen die Produkte außerdem auf standardisierte Weise zur Verfügung gestellt werden, vor allem über APIs. Für spezifische Bedürfnisse sind auch andere Formen der Bereitstellung möglich (Konnektoren, Datenvisualisierungstool, Data Science Studio, usw.). Der Vorteil dieser Kanäle ist, dass sie den Einsatz eines Berechtigungsmanagements zur Kontrolle des Datenzugriffs ermöglichen. Das Management der Produkte erfordert auch die Festlegung von Governance- und Standardisierungsregeln und -prozessen, um seine Nutzung im gesamten Unternehmen zu ermöglichen.
Erstellung eines Datenprodukts: Anleitung und Vorteile
Abgesehen von den sechs wesentlichen Merkmalen des Datenprodukts basiert die Gestaltung dieser Produkte auf operativen Tätigkeiten. Es ist daher notwendig, die Datenquellen auszuwählen, sie zu dokumentieren, die technische Prozesse für die Bereitstellung der Daten (Werkzeuge und Methoden, Aktualisierungsrate usw.) und ihre Distributionsmethoden im Detail zu beschreiben.
Wetterdaten zum Beispiel können auf unterschiedlichste Weise verbreitet werden: Zeitreihen, Trendkurven, algorithmische Berechnungen, usw. Jede Distributionsmethode kann auf verschiedene Produkte abgestimmt werden. Dieselben Daten können je nach Verwendungszweck und Nutzer auf unterschiedliche Weise verbreitet werden. Dieser Ansatz hat eine Reihe von Vorteilen, unter anderem die Standardisierung der Distributionsmethoden, die es den Domains ermöglicht, die Anwendung im Detail zu überwachen und den vorrangigen Bedarf zu bewerten.
Wie implementieren Sie diesen Datenproduktansatz?
Diese Säule des Data Mesh kann in ihrer Umsetzung anspruchsvoll sein, ebenso wie die Aufteilung nach Domains. Sie impliziert eine Transformation der Organisation mit einer starken Ausrichtung auf Agilität im großen Maßstab, sei es in einer Spotify- oder SAFe-Variante. Die Umsetzung solcher Organisationen, die auf Tribes oder Gruppen basieren, erfordert ein hohes Maß an Mitarbeiterbeteiligung und eine radikale Veränderung der Arbeitsmethoden.
Während die Digital- und IT-Abteilungen gelernt haben, diese Methoden einzusetzen, sind die jeweiligen anderen Unternehmensbereiche nicht sehr vertraut mit ihnen. Die Einführung soll daher schrittweise erfolgen. Die einzelnen Bereiche können auch auf agile Teams zurückgreifen, die in Kompetenzzentren oder speziellen Abteilungen angesiedelt sind.
Das Design und der Lebenszyklus von Produkten werden durch eine Schlüsselfunktion, den Datenproduktmanager:In, unterstützt. Er/Sie ist einem Bereich zugeordnet und hat die Aufgabe, alle notwendigen Aktivitäten für das/die Produkt(e), für das/die er/sie verantwortlich ist, zu koordinieren.
Das Design eines ersten Produkts ist die wichtigste Initiierungsphase. Sie trägt zur Transformation bei, indem sie die Grundsätze der Produkt-Roadmap und des MVP (Minimum Viable Product) einführt und gleichzeitig die Agilität und ihre Vorteile ermöglicht. Sie ermutigt die Bereitsteller, Prioritäten zu setzen und so die Funktionen und Produkte zu identifizieren, die den größten Wert schaffen.
Das Pilotprodukt wird sich idealerweise auf einen relevanten Anwendungsfall konzentrieren, der den Zugang zu mehreren Datenquellen erfordert, die nahe am Kerngeschäft liegen und im Unternehmen als schwer zugänglich gelten.
Die Erstellung des Produkts ist eine Gelegenheit, methodische und organisatorische Fähigkeiten aufzubauen. Aber um Agilität zu erreichen, brauchen die Bereiche auch eine IT-Plattform und Services, die dies ermöglichen. Dies ist die Herausforderung des dritten Pfeilers von Data Mesh: die Self-Service-Data Infrastructure as a Platform.
Amadeus & Data Mesh: Hunderte von Datenprodukten
Als Anbieter von Lösungen für die Reisebranche (Flug- und Bahngesellschaften, Flughäfen, Hotels, Agenturen, Reiseveranstalter usw.) setzt Amadeus auf einen Data Mesh-Ansatz. Yan Morvan (Cloud Data Platform Principal Engineer) und Damien Claveau (Data Platforms Operations Lead Engineer) haben auf der Messe Big Data & AI 2022 ein Update über die Fortschritte dieses Ansatzes gegeben.
Amadeus arbeitet demzufolge parallel an den vier Säulen: föderale Governance, Automatisierung der Datenplattform in der Cloud, Organisation in Data-Domains, aber auch Bereitstellung von Datenprodukten. So bietet das Unternehmen seinen internen Kunden und Partnern Hunderte von direkt konsumierbaren Datenprodukten an. Zum Beispiel BI-Berichte über die Reservierungslisten eines Unternehmens, die nach mehreren Indikatoren aggregiert sind.
Um die Datenprodukte bereitzustellen, hat Amadeus unabhängige “Anwendungs-Workspaces” implementiert, die mit einer Anwendung oder einem Entwicklungsteam verbunden sind. Die Workspaces enthalten die für die Umwandlung der Daten erforderlichen Analytik-Services. Die Anwendungen in diesen Bereichen sind mit den verschiedenen Datenspeichern in Data Mesh verbunden.
Das sollten Sie mitnehmen:
- Sechs Merkmale für Datenprodukte: auffindbar, adressierbar, dokumentiert, zuverlässig, interoperabel und sicher.
- Verfügbarkeitsstandards (API, Marketplace, etc.).
- Schrittweiser Übergang zu Agilität in großem Umfang.
- Die Entwicklung des ersten Datenprodukts – ein entscheidender Implementierungs-Schritt.
- Entwicklung und Nutzung werden durch die Plattform erleichtert.
Über den Autor:
Benjamin Wratin
Business & Decision
Der ursprüngliche Artikel wurde in Zusammenarbeit mit Christophe Auffray, die deutsche Version von Martin Lehofer erstellt.