Back to top

Bachelorarbeit Andreas Gerö

Last modified Apr 30, 2015
   No tags assigned

Abstract


With increasing amounts of data, complex processes, and rising demands regarding velocity and stability, the necessity for a central and user-friendly source of information in support of data management in the data warehouse has become apparent. This comprises management of operational data as well as, e.g., management of data quality.


Currently, out-of-the-box data monitoring functionality of databases mostly covers technical details, such as space usage or number of recently loaded data records. Questions regarding the specific architecture are insufficiently dealt with. A data warehouse administrator, for instance, might be interested in tracing the course of recently finished ETL processes or debugging them. Thus, a conventional layer architecture may be analyzed with respect to the use cases spanning multiple layers. By identifying the relationships
and dependencies among database objects and use cases, use cases affected by erroneous database objects and corresponding users can be determined. Hence, the need for a methodology to systematically analyze and cover the informational requirements of common business stakeholders in context of data management in the data warehouse has evolved.


This Bachelor’s Thesis develops a concept for monitoring data warehouses, which bridges this gap. The research results comprise a tripartite methodology:

  1. Goals of common business stakeholders from data management and IT service management
    are determined.
  2. The KPI catalog facilitates measurement of the accomplishment of the stakeholders’
    goals.
  3. A meta model defines relationships among technical components, metrics, and business
    entities, and enables modelling data flow in the data warehouse as well as visualization
    of metrics in a data flow graph.

Additionally, the Thesis presents further analyses facilitated by the graph. Lineage and impact analysis as well as computation of critical paths count among them.


ITIL and the Data Management Body of Knowledge (DMBOK) serve as the underlying frameworks of recommendatory nature for the analysis of stakeholders and identification of their goals. Metrics contained in the KPI catalog were deduced from those goals utilizing the Goal-Question-Metric approach. The concept was prototypically implemented in the scope of a case study involving a large carsharing data warehouse. A concluding evaluation by the experts from the IT industry validated the suitability of the prototype for the requirements of the case study.

 

 

Zusammenfassung


Mit zunehmendem Datenvolumen, komplexen Abläufen und steigenden Anforderungen an Schnelligkeit und Stabilität entsteht der Bedarf nach einer zentralen und benutzerfreundlichen Informationsquelle zur Unterstützung des Datenmanagements im DataWarehouse (DWH). Dies umfasst sowohl die Verwaltung der operativ anfallenden Datenmengen als auch bspw. das Management der Datenqualität.


Die bislang bei Datenbanken mitgelieferte Funktionalität zur Überwachung der Daten deckt vor allem technische Detailaspekte, wie z.B. Speicherverbrauch oder die Anzahl neu geladener Datensätze ab. Darüber hinausgehende, auf die konkrete Architektur bezogene Fragen werden nicht in ausreichendem Maße adressiert. Für einen DWH-Administrator ist beispielsweise die Nachverfolgung des Ablaufs bzw. eine eventuelle Fehleranalyse bei kürzlich erfolgten Extract-Transform-Load (ETL)-Vorgängen von Interesse. So kann eine klassische Schichtenarchitektur auf die schichtenübergreifenden Anwendungsfälle hin untersucht
werden. Durch die Identifizierung der Beziehungen und Abhängigkeiten zwischen einzelnen Datenbankobjekten und Anwendungsfällen können auf diese Weise die von einem fehlerhaften Datenbankobjekt betroffenen Anwendungsfälle und damit die entsprechenden Anwender ermittelt werden. So entsteht der Bedarf nach einer Methodik zur systematischen Analyse und Deckung des Informationsbedarfs typischer betrieblicher Stakeholder im Rahmen des Datenmanagements im DataWarehouse.


In dieser Bachelorarbeit wird ein Überwachungskonzept erarbeitet, welches diese Lücke schließt. Die Forschungsergebnisse umfassen eine dreiteilige Methodik:

  1. Für eine Auswahl typischer betrieblicher Stakeholder aus Datenmanagement und
    IT-Servicemanagement wurden Ziele für das Datenmanagement ermittelt.
  2. Ein Kennzahlenkatalog ermöglicht es, die Erfüllung der Ziele der Stakeholder zu
    messen.
  3. Ein Metamodell spezifiziert die Zusammenhänge zwischen Metriken, Messobjekten
    und fachlichen Entitäten und erlaubt die Modellierung des Datenflusses im DWH
    sowie Visualisierung von Kennzahlen in einem Datenflussgraphen.

Zudem werden weitere Analysen vorgestellt, die durch den Datenflussgraphen ermöglicht werden. Hierzu zählen Abstammungs- und Auswirkungsanalyse sowie die Berechnung von kritischen Pfaden auf dem Graphen.


ITIL und Data Management Body of Knowledge (DMBOK) liegen als Frameworks mit empfehlendem Charakter der Analyse von Stakeholdern und Zielen zugrunde. Die Metriken aus dem Kennzahlenkatalog wurden mithilfe von Goal-Question-Metric (GQM) aus den zuvor ermittelten Zielen abgeleitet. Das Konzept wurde im Rahmen einer Fallstudie als Monitoring-Cockpit für ein großes Carsharing-DWH prototypisch umgesetzt. Eine abschließende Evaluation durch Experten aus der IT Industrie hat die Eignung des Prototyps für die Anforderungen in der Fallstudie validiert.

Files and Subpages

Name Type Size Last Modification Last Editor
BA_geroe_final.pdf 2,72 MB 15.09.2014
geroe_end.pdf 935 KB 29.09.2014
geroe_kickoff.pdf 567 KB 27.05.2014