Big Data Technologien – Meine Erfahrung mit dem Microsoft Professional Programm

Es war noch nicht mal Sommer, sondern Anfang April 2019, als ich mich für die Weiterbildung zum “Microsoft Professional Big Data” bei Edx angemeldet habe. Mein Ziel: “Hands-On” Erfahrung mit neuen (Microsoft-)Technologien bekommen, die für aktuelle oder zukünftige Projekte relevant sein werden. An Edx (ebenso wie bei Coursera) als Online-Lernplattform schätze ich, dass es nicht nur Informationshäppchen gibt. Themen werden strukturiert aufgearbeitet und detailliert besprochen. Es gibt Repetitions- und Prüfungsfragen und praktischen Aufgaben mit Zertifikat am Ende.

Das Programm bestand aus neun Kursen plus einem Abschlussprojekt (“Capstone”), in dem man drei Miniprojekte/Aufgaben u.a. in Hive, Azure Data Factory lösen musste. Vorher standen natürlich Kurse an, nach einem Einführungskurs (DAT229x: Big Data Orientation) ging es um die neun folgende Themen:

  • Implementing Predictive Analytics with Spark in Azure HDInsight (DAT202.3x): Hier hat mich die Technologie besonders interessiert. Da ich letztes Jahr rund eine Woche mit Statistik und R verbracht hatte und einmal sehr kurz mit SAP Predictive Analytics gearbeitet hatte, war ich hier neugierig auf die Integrationsmöglichkeit in eine Gesamtarchitektur.
  • Orchestrating Big Data with Azure Data Factory (DAT223.3x): Mit der Azure Data Factory bietet Microsoft eine Technologie unter anderem zur Orchestrierung und dem Scheduling von ETL-Prozessen und Datenflüssen zwischen Applikationen an.
  • Processing Real-Time Data Streams in Azure (DAT223.2x): Event-Hubs und Verarbeitung von Echtzeit-Events / Stream Data Processing – ein Thema, das in der Forschung ungefähr dann aufkam, als ich die Welt der Universitäten am Verlassen war.
  • Processing Big Data with Hadoop in Azure HDInsight (DAT202.1x): Hier ging es um Hive und Hadoop. Faszinierend ist hier, wie leicht Hive den Zugang zur Big-Data-Welt für Informatiker mit SQL-Knowhow macht. Die Sprache ist sehr ähnlich, gleichzeitig eröffnet die darunterliegende Technologie ganz neue Möglichkeiten, wie beispielsweise bei der Logfile-Analyse.
  • Querying Data with Transact-SQL (DAT201x): ein SQL-Kurs, also nichts wirklich etwas Neues…
  • Introduction to NoSQL Data Solutions (DAT221x): Überblick über verschiedene NoSQL-Technologien für das Datenmanagement wie Key-Value-Stores oder Dokumentenspeicher (Azure Cosmos DB, Azure Storage, Mongo DB, Solr)
  • Analyzing and Visualizing Data with Power BI (DAT207x): Der Kurs umfasst eine Übersicht über Microsofts “Self-Service-“-BI-Lösung.

Jetzt ist es Anfang November 2019 und ich habe alle Kurse erfolgreich abgeschlossen. Der Gesamtaufwand lag bei rund 20 Tagen. Das führt zu deutlich mehr Know-How speziell in Microsoft- und Azure-Technologien als wenn man ein paar Whitepapers liest, ein paar kurze Videos schaut und Konferenzvorträge hört. Drei Punkte sind mir in der Zeit klar geworden:

  1. Wer im Data Management/Analytics/Azure-Umfeld bestehen muss, braucht ein bisschen Mathematik- und Statistik-Know-How und ganz viel Technologiekenntnisse und Architekturerfahrung. 
  2. Microsoft Azure umfasst Third-Party- und Microsoft-Technologien. Bei Letzteren ist die Integration sehr gut, bei den Open Source-Technologien teils nicht so stark.  
  3. Die Arbeitsdichte und die Ansprüche an die Engineers steigen mit der Cloud. Einfache IT-Tätigkeiten werden weniger. Eine Betriebssysteminstallation oder Datenbankinstallation, bei der man innerhalb von 5 Stunden 10-mal die Diskette wechseln muss und dann einen Experten für 10, 20 Minuten Fine-Tuning dazu nimmt, das gibt es in der Cloud so nicht mehre. Die Cloud führt die Installation automatisch aus und man braucht nur noch den Experten für die 10, 20 Minuten Fine-Tuning. 

Wie geht es für mich weiter? Bei mir stehen weitere Cloud- und Data Management-Technologien auf der Liste, auch jenseits der Welt von Azure und Microsoft. Dazu an ein anderes Mal mehr. Wer sich übrigens eine konzeptionelle Sicht auf die Trends im Datenmanagement sucht, hier noch einen Link zu einem Artikel von mir: Trends in Data Managemenet and Analytics

Noch ein Hinweis: Zu dieser Edx/Microsoft-Big Data-Weiterbildung kann man sich nicht mehr anmelden. Sie läuft Ende 2019 aus.