Datensammlung zur Auswertung

Data-Warehouse

aus Wikipedia, der freien Enzyklopädie

Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Betriebswirtschaft. Ein Data-Warehouse dient der Informationsintegration.

Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde:

  1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
  2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data-Warehouse z. B. für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.

Das Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden im Rahmen des ETL-Prozesses aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data-Warehouse geladen zu werden. Dieser Prozess kann turnusgemäß durchgeführt werden, so dass im Data-Warehouse nicht nur Daten nach inhaltlichen Aspekten, sondern auch nach dem Aspekt Zeit – also langfristig – vorgehalten werden, was auch Analysen über die Zeit ermöglicht.

In den letzten Jahren hat sich mehr und mehr die Abkehr von turnusmäßiger Beladung hin zum Real-Time-Data-Warehousing vollzogen. Manche Branchen, wie die Telekommunikationsindustrie und der Einzelhandel (z. B. Wal-Mart), hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen.

Es gibt derzeit keine einheitliche Definition für den Begriff Data-Warehouse. Weitgehend einig ist man sich in Folgendem:
  • Ein Data-Warehouse ermöglicht eine globale Sicht auf heterogene und verteilte Datenbestände, indem die für die globale Sicht relevanten Daten aus den Datenquellen zu einem gemeinsamen konsistenten Datenbestand zusammengeführt werden.
  • Somit entsteht der Inhalt eines Data-Warehouse durch Kopieren und Aufbereiten von Daten aus unterschiedlichen Quellen.
  • Meist ist ein Data-Warehouse die Basis für die Aggregation von betrieblichen Kennzahlen und Analysen innerhalb mehrdimensionaler Matrizen (OLAP-Cube), dem sogenannten Online Analytical Processing (OLAP).
  • Ein Data-Warehouse ist häufig Ausgangsbasis für Data Mining (auch Datenschürfung).
  • In der Regel arbeiten die Anwendungen mit anwendungsspezifisch erstellten Auszügen aus dem Data-Warehouse, den sogenannten Data-Marts.

Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data-Warehouses sowie im Umfang und Umgang mit den Daten im Data-Warehouse.

  • Das Spektrum der Definitionen beginnt mit der restriktiven Sicht von Inmon:
    „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“
    Im Original: „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management’s decision-making process.“ (Lit.: Inmon (1996), S. 33)
    Die Definition nach Inmon kann wie folgt interpretiert werden:
    • subject-oriented (Themenorientierung): Die Auswahl der in das Data-Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma, …), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen
    • integrated (Vereinheitlichung): Im Data-Warehouse werden die in verschiedenen (operativen) Quellsystemen in meist heterogenen Strukturen vorliegenden ausgewählten Daten in vereinheitlichter Form gehalten.
    • time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data-Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data-Warehouse nötig (Einführung der Dimension „Zeit“).
    • nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
  • Die folgende Definitionen von Bauer und Günzel wie auch die von Kimball sind weniger restriktiv, sind aber auf einen speziellen Zweck, die Analysefunktion, ausgerichtet:
    „Ein Data-Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen.“ (Lit.: Bauer)
    „A data warehouse is a copy of transaction data specifically structured for querying and reporting.“ (Lit.: Kimball)
  • Das Spektrum der Definitionen endet bei der Definition von Zeh, die ohne Restriktionen an Umfang und Umgang der Daten sowie ohne Zweckbestimmung ist:
    „Ein Data-Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht.“ (Lit.: Zeh)

Die Einschränkung „physisch“ ist notwendig, um das Data-Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.

Geschichte des Begriffs

Der Data-Warehouse-Begriff wurde Mitte der 1980er Jahre bei IBM geprägt und mit „information warehouse“ bezeichnet. Der Terminus „data warehouse“ wurde erstmals 1988 von Devlin verwendet. In jüngerer Zeit werden Data-Warehouse-Systeme auch als Business-Warehouse-Systeme (z. B. SAP) oder als Business-Intelligence-Systeme (Auswertungsorientierte Sicht) bezeichnet, wodurch die geschäftliche Bedeutung derartiger Systeme betont werden soll. Mittlerweile wird auch die Bezeichnung Datenlager in der deutschen Literatur verwendet.

Betrieb eines Data-Warehouse (Data-Warehousing)

Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data-Warehouses wird auch als Data-Warehousing bezeichnet. Zum Data-Warehousing gehören:

  • Datenbeschaffung, Datenintegration (Staging) und Weiterverarbeitung im ETL-Prozess
  • Datenhaltung, das heißt die langfristige Speicherung der Daten im Data-Warehouse (siehe auch Langzeitarchivierung)
  • Versorgung und Datenhaltung der für die Analyse notwendigen separaten Datenbestände, den Data-Marts
  • Datenauswertung und -analyse.

In den Data Marts werden die Daten häufig als mehrdimensionale Matrizen im sogenannten Sternschema oder in verwandten Datenschemata wie Schneeflocken- und Galaxy-Schema abgelegt. Denkbar sind auch Mischformen wie das Sternflocken- bzw. Starflakeschema, die Vorteile aus den vorgenannten Modellen vereinen.

Data-Warehouse-Anwendungen

Schema Datawarehouse
Ausschnitt aus dem Data-Warehouse-System
  • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen
  • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining
  • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können
  • Umfassende Information über Geschäftsobjekte und Zusammenhänge
  • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
  • Informationsbereitstellung z. B. für die Erstellung von Produktkatalogen.

Dieser Artikel basiert auf dem Artikel Data-Warehouse aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.

Login-Footer

Copyright © 2017 OCToConsult - Oliver C. Tank. Alle Rechte vorbehalten.
Joomla! ist freie, unter der GNU/GPL-Lizenz veröffentlichte Software.