Datensammlung zur Auswertung
Data-Warehouse
aus Wikipedia, der freien EnzyklopädieEin Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Betriebswirtschaft. Ein Data-Warehouse dient der Informationsintegration.
Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde:
- Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
- Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data-Warehouse z. B. für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.
Das Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden im Rahmen des ETL-Prozesses aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data-Warehouse geladen zu werden. Dieser Prozess kann turnusgemäß durchgeführt werden, so dass im Data-Warehouse nicht nur Daten nach inhaltlichen Aspekten, sondern auch nach dem Aspekt Zeit – also langfristig – vorgehalten werden, was auch Analysen über die Zeit ermöglicht.
In den letzten Jahren hat sich mehr und mehr die Abkehr von turnusmäßiger Beladung hin zum Real-Time-Data-Warehousing vollzogen. Manche Branchen, wie die Telekommunikationsindustrie und der Einzelhandel (z. B. Wal-Mart), hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen.
Es gibt derzeit keine einheitliche Definition für den Begriff Data-Warehouse. Weitgehend einig ist man sich in Folgendem:- Ein Data-Warehouse ermöglicht eine globale Sicht auf heterogene und verteilte Datenbestände, indem die für die globale Sicht relevanten Daten aus den Datenquellen zu einem gemeinsamen konsistenten Datenbestand zusammengeführt werden.
- Somit entsteht der Inhalt eines Data-Warehouse durch Kopieren und Aufbereiten von Daten aus unterschiedlichen Quellen.
- Meist ist ein Data-Warehouse die Basis für die Aggregation von betrieblichen Kennzahlen und Analysen innerhalb mehrdimensionaler Matrizen (OLAP-Cube), dem sogenannten Online Analytical Processing (OLAP).
- Ein Data-Warehouse ist häufig Ausgangsbasis für Data Mining (auch Datenschürfung).
- In der Regel arbeiten die Anwendungen mit anwendungsspezifisch erstellten Auszügen aus dem Data-Warehouse, den sogenannten Data-Marts.
Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data-Warehouses sowie im Umfang und Umgang mit den Daten im Data-Warehouse.
- Das Spektrum der Definitionen beginnt mit der restriktiven Sicht von Inmon:
- „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“
- Im Original: „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management’s decision-making process.“ (Lit.: Inmon (1996), S. 33)
Die Definition nach Inmon kann wie folgt interpretiert werden:
- subject-oriented (Themenorientierung): Die Auswahl der in das Data-Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma, …), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen
- integrated (Vereinheitlichung): Im Data-Warehouse werden die in verschiedenen (operativen) Quellsystemen in meist heterogenen Strukturen vorliegenden ausgewählten Daten in vereinheitlichter Form gehalten.
- time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data-Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data-Warehouse nötig (Einführung der Dimension „Zeit“).
- nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
- Die folgende Definitionen von Bauer und Günzel wie auch die von Kimball sind weniger restriktiv, sind aber auf einen speziellen Zweck, die Analysefunktion, ausgerichtet:
- „Ein Data-Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen.“ (Lit.: Bauer)
- „A data warehouse is a copy of transaction data specifically structured for querying and reporting.“ (Lit.: Kimball)
- Das Spektrum der Definitionen endet bei der Definition von Zeh, die ohne Restriktionen an Umfang und Umgang der Daten sowie ohne Zweckbestimmung ist:
- „Ein Data-Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht.“ (Lit.: Zeh)
Die Einschränkung „physisch“ ist notwendig, um das Data-Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.
Geschichte des Begriffs
Der Data-Warehouse-Begriff wurde Mitte der 1980er Jahre bei IBM geprägt und mit „information warehouse“ bezeichnet. Der Terminus „data warehouse“ wurde erstmals 1988 von Devlin verwendet. In jüngerer Zeit werden Data-Warehouse-Systeme auch als Business-Warehouse-Systeme (z. B. SAP) oder als Business-Intelligence-Systeme (Auswertungsorientierte Sicht) bezeichnet, wodurch die geschäftliche Bedeutung derartiger Systeme betont werden soll. Mittlerweile wird auch die Bezeichnung Datenlager in der deutschen Literatur verwendet.
Betrieb eines Data-Warehouse (Data-Warehousing)
Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data-Warehouses wird auch als Data-Warehousing bezeichnet. Zum Data-Warehousing gehören:
- Datenbeschaffung, Datenintegration (Staging) und Weiterverarbeitung im ETL-Prozess
- Datenhaltung, das heißt die langfristige Speicherung der Daten im Data-Warehouse (siehe auch Langzeitarchivierung)
- Versorgung und Datenhaltung der für die Analyse notwendigen separaten Datenbestände, den Data-Marts
- Datenauswertung und -analyse.
In den Data Marts werden die Daten häufig als mehrdimensionale Matrizen im sogenannten Sternschema oder in verwandten Datenschemata wie Schneeflocken- und Galaxy-Schema abgelegt. Denkbar sind auch Mischformen wie das Sternflocken- bzw. Starflakeschema, die Vorteile aus den vorgenannten Modellen vereinen.
Data-Warehouse-Anwendungen
- Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen
- Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining
- Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können
- Umfassende Information über Geschäftsobjekte und Zusammenhänge
- Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
- Informationsbereitstellung z. B. für die Erstellung von Produktkatalogen.
Dieser Artikel basiert auf dem Artikel Data-Warehouse aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.
- CMS
- CSS
- Coding
- Cognos
- Cognos 10
- Cognos 8.2
- Cognos 8.4
- Cognos-Berater
- Cognos-Experte
- Consultant
- DataWareHouse
- Datenbanken
- Dienstleistung
- Freelancer
- Freiberufler
- HTML
- Internet
- JavaScript
- Joomla
- Know-How
- Kontakt
- Leistungen
- Oliver C. Tank
- Oracle
- Oracle-Administrator
- Partner
- Profil
- Projekte
- Projekttätigkeit
- Referenzen
- Reporting
- Service
- Snippets
- Zur Person
- jQuery