Data Engineering, Data Analytics & Data Science

Längst hat die Digitalisierung in vielen Unternehmen Einzug gehalten. Eine Folge davon sind gewaltige Datenmengen – „Big Data“ ist eines der Buzzwords der Stunde. Fraglich bleibt, wie diese meist unstrukturierten Daten gebändigt werden können, um deren Potential abzuschöpfen. Business Intelligence (BI) setzt dabei auf einfache und beschreibende Analysen, um Ursachen zu ermitteln; Advanced Analytics versucht mithilfe von Machine Learning und Künstlicher Intelligenz (KI) künftige Entwicklungen möglichst präzise zu prognostizieren.Viele Unternehmen suchen deshalb händeringend nach Experten, die mit den Datenbanken umgehen, Analysen erstellen und dem Management relevante Zahlen vermitteln können. Solche Fachleute sind entweder sehr teuer oder nicht verfügbar. Von daher lohnt es sich, die eigenen Mitarbeiter in den Bereichen Big Data und Data Analytics auszubilden. Bei Integrata Cegos finden Sie hierzu einzelne Seminare und eine mehrstufige Ausbildungsreihe. Gerne entwickeln wir auch ein passgenaues Rollenmodell für Ihr Unternehmen, um Ihren individuellen Ansprüchen bestmöglich gerecht zu werden

Data Science und Big Data Analytics


Big Data als Grundlage für Zukunftsentscheidungen

Der Einsatz von KI leitet eine Evolution der Datenanalyse ein: traditionelle Business Intelligence (BI) orientiert sich an diagnostizierenden, in die Vergangenheit gerichteten Fragen (Was passierte? Warum passierte es?). Advanced Analytics prognostiziert zukünftige Entwicklungen mit dem Ansatz, diese vorrausschauend zu beeinflussen. Erkenntnisse aus riesigen Datenmengen werden durch KI-basierte Erkenntnisse Grundlage für Entscheidungsprozesse. Die Herausforderung dabei ist, künstliche Systeme mit großen Datenmengen auf bestimmte Muster und Gesetzmäßigkeiten zu „trainieren“ – z.B.durch maschinelles Lernen. Abstrahierte Aufgabenstellungen und Lösungswege können so erlernt und in künftigen Situationen eingesetzt werden. KI ist in der Lage, ein Gesamtbild aller verfügbaren Informationen zu berücksichtigen und verschiedene Zukunftsszenarien zu simulieren. Als Voraussetzung für die Unterstützung bei komplexen Entscheidungen ist ein „Einbetten“ der KI-Systeme in ein passendes Big-Data-Szenario.

Auf die passende Architektur kommt es an

Die meisten Unternehmen verlassen sich bei der Speicherung und Verwaltung großer Datenmengen bislang auf Data Warehouses (DWH). Diese Grundlage eignet sich hervorragend für die klassische Business Intelligence. Umfassende Reports lassen sich schnell erstellen und Fragen zu spezifischen KPIs beantworten. Die DWH-Architektur ist bewährt, ausgereift und wird gleichermaßen von IT-Abteilungen und Anwendern beherrscht. Daten werden entlang von Hypothesen strukturiert, bei neuen Fragestellungen hilft ein DWH aber kaum weiter. Diese Fragestellungen fallen in den Aufgabenbereich von KI, Big Data und Advanced Analytics,. Mit Big Data entstehen völlig neue Auswertungs- und Analysemöglichkeiten. Mit Hilfe dieser Technologie kann man extrem große Datenmengen aus dem Internet of Things (IoT) verwerten. Auch unstrukturierte Informationen, zum Beispiel aus den Bereichen Social Media, Logfiles und Rohdaten lassen sich untersuchen. Weil sie explorativ (erforschend) vorgeht ist es möglich, völlig neue Zusammenhänge zu entdecken. Die Heraussforderung: in der klassischen Architektur eines Data Warehouses funktioniert Big Data nicht.

Seminarüberblick

 

Data Lakes – Voraussetzung für Big Data und KI

die Architektur eines Data Lakes ist die Voraussetzung für Big Data. In einem Data Lake lassen sich digitale Informationen unabhängig von Quelle, Relevanz und aktuellem Bedarf speichern. Diese Informationen behalten ihre ursprüngliche Form im „Datensee“, hier gilt das Prinzip „Schema on Read“: Erst wenn die Daten genutzt und ausgelesen werden bekommen sie eine Struktur. So fließen die Informationen direkt vom Entstehungsort (beispielsweise einem Maschinensensor, E-Mail-Server oder Twitter-Kanal) in den Speicher. Dort lassen sie sich direkt und zeitnah einsetzten – oder erst in Zukunft. Verfügbare Rechenpower und Speicherkapazität ermöglichen Abfragen und Auswertungen auch in Echtzeit. Als Basis dient meist das Open Source Framework Apache Hadoop. Die Berechnung der Daten wird damit über viele Knoten vernetzter Computer verteilt und ist so enorm schnell. Geschwindigkeit ist aber kein Selbstzweck; der zur Verfügung stehende Datenschatz muss in wertschöpfende Anwendungsfälle und Erkenntnisse münden. Künstliche Intelligenz sorgt dafür, dass analytische Systeme die passenden Informationen situationsgerecht bereitstellen.

Big Data ist keine Schwarz-oder-Weiss Frage

Für eine technologischen Ausrichtung auf Analytics-Umgebungen mit Big Data und KI geht es in keinem Fall darum, das Data Warehouse einzureißen und alles auf Data Lakes zuzuschalten. Die Lösung 2ter Ordnung ist, beide Technologien und ihre jeweiligen Stärken zu kombinieren. Sowohl bewährte Business Intelligence und erprobte Use Cases im DWH – als auch schneller Datenzugriff sowie Advanced Analytics im Data Lake. Die Herausforderung liegt in der Verbindung beide Systeme! Wie schafft man es, eine hybride Gesamtarchitektur zu erstellen, in der nicht zwei Systeme parallel gepflegt werden?In einer hybriden Architektur erhält das DWH seine Daten aus dem Data Lake, welches zum „Single Point of Truth“ wird. Alle denkbaren Daten kommen im „Datensee“ und werden dauerhaft gespeichert. Daran angebunden ist das Data Warehouse, das bereits strukturierte Daten vorhält – ready for business und nach definierten Vorgaben.

Der hybride Ansatz für Anwender und Experten

Für Endanwender, die bestimmte Informationen wie Business Reports benötigen, bleibt das DWH unverändert der Zugriffspunkt. Gleichzeitig können sie in einer hybriden Architektur aber auch direkt auf den Data Lake zugreifen. Dort haben sie alle Möglichkeiten, die sich in der Big-Data-Welt bieten, explorative Untersuchungen oder Data Science mit Rohdaten. Die Ergebnisse lassen sich dann in das Data Warehouse übertragen und stehen aufbereitet zur Verfügung. Wichtig ist, zusätzlich zu den technologische Aspekten die Menschen im Blick zu behalten. Gefragt sind Experten, die das Potenzial einer hybriden Architektur aktivieren – mit einem Verständnis für die Anforderungen der klassischen BI-Welt und neuer Analyse-Konzepte. Unternehmen, die den Einstieg in KI und Big Data suchen, sollten also frühzeitig in Mitarbeiter investieren und eigene Talente weiterentwickeln: Data Engineers für die Datenbewirtschaftung; Data Scientists für Advanced Analytics und AI sowie Data Artists zur Datenvisualisierung.

Expertise weiter ausbauen