Business Anwender und Marketing Professionals aus der ganzen Welt gaben sich am 13. und 14. November dieses Jahres im Berliner Estrel Hotel die Klinke in die Hand. Trotz der wachsenden Teilnehmerzahl und der zunehmenden Heterogenität des Publikums erlebten die Besucher erstklassige Vorträge und einen inhaltlichen Austausch über alle Facetten der Predictive Analytics auf höchstem Niveau.
Data Scientists und Anwender namhafter Unternehmen gaben tiefe Einblicke in ihre abgeschlossenen Projekte und teils auch in laufende Data-Science-Vorhaben. Neben Fragen nach der eingesetzten Technik drehten sich die Diskussionen vornehmlich um die drei folgenden Themen.
- Die Bedeutung der Datenvorbereitung für die Analyse
- Die Erstellung sauberer Automatisierungsprotokolle schon in Pilotprojekten
- Die Regressionen als Methode für Predictive Analytics
Analytics-Erfolgsfaktoren: Datenvorbereitung und Expertenwissen
Dass in Data Science Projekten üblicherweise mehr als 80 Prozent des Aufwands auf die Datenextraktion und -aufbereitung entfallen, ist keine wirkliche Neuigkeit mehr. Dennoch betonten viele Keynote Speaker noch einmal sehr deutlich: Auch Experten unterlaufen in dieser frühen, aber kritischen Phase, schnell Fehler, wenn sie sich auf die Standardprozeduren ihrer Softwarepakete verlassen. Dabei bleibt die Visualisierung von Daten und Betrachtung mathematischer Deskriptoren für die Ausprägungsverteilungen ein wesentlicher Bestandteil. Gerade in diesem Schritt müssen Data Scientists zur Ergänzung ihrer statistischen Expertise auch Fachanwender für die korrekte Interpretation hinzuzuziehen. Nur solche Experten können Plausibilitäten rein visuell anhand der Betrachtung von Datenpunkten prüfen, und inhaltliche Fehler frühzeitig erkennen.
Data Science: Automatisierung und Standardisierung auch in Analytics-Piloten
Gerade während der Datenextraktion und -aufbereitung müssen zahlreiche Entscheidungen getroffen und Prozeduren programmiert werden. Genau diese Prozesse sind häufig aufwändig in der Umsetzung und sollten nicht für jedes Modell immer wieder neu entstehen müssen. Die meisten Data-Science-Projekte haben allerdings einen klar definierten und meist sehr engen Fokus. Aus diesem Grund denken die Projektverantwortlichen noch zu selten über die bestehende Herausforderung hinaus; zu selten greifen sie auf bereits bestehende Prozeduren zurück oder codieren neu erstellte Prozeduren so, dass sie auch bei künftigen Aufgabenstellungen eingesetzt werden können. Aufgrund der immensen Aufwände in der Datenaufbereitung lohnt es sich, bereits während eines Pilotprojekts an die Automatisierung und Standardisierung zu denken. Das bringt der gesamten Organisation und möglichen Folgeprojekten Mehrwerte – ganz unabhängig vom Erfolg des eigentlichen Vorhabens.
Datenanalysten sollten von der Softwareentwicklung lernen
In diesem Punkt können Data Scientists viel von der klassischen Softwareentwicklung lernen. Denn die Schritte, die zusätzlich notwendig sind, um die Skalierung der Prozeduren auf weitere Projekte zu ermöglichen, lassen sich häufig mit geringem Aufwand umsetzen. Das gilt allerdings nur, wenn diese auch direkt im Rahmen der Programmierung für das Projekt umgesetzt werden und nicht erst wesentlich später von einer weiteren Person erneut nachvollzogen werden müssen.
Wenn das Analytics-Projekt kein gutes Modell liefert
Die wohl wichtigste Botschaft für Geschäftsinhaber ist jedoch, dass der Ausgang von Analytics-Projekten stets ungewiss ist. Selbst wenn sämtliche Arbeitsschritte eines Projektes professionell umgesetzt werden, ist es möglich, dass die Datenbasis kein Modell hergibt, anhand dessen das Unternehmen bessere Entscheidungen treffen kann. Für Business Owner ergeben sich daraus zwei wesentliche Konsequenzen.
Zunächst sollten die Verantwortlichen ihre Entscheidung zur Durchführung eines Data-Science-Projekts immer mit Zielen verbinden, die unabhängig vom eigentlichen Modell sind. Das Risiko, am Ende kein brauchbares Modell zu erhalten, sollte explizit einkalkuliert werden. Darüber hinaus muss das Unternehmen gerade aus gescheiterten Projekten Lerneffekte mitnehmen. Was hat das Team im Projekt gelernt? Wie stellen sich die fehlenden Modellqualitäten dar? Lassen sich Maßnahmen zur Optimierung von Modellen ableiten?
Zur „Schadens“-Analyse gehört üblicherweise die Ausweitung des betrachteten Datenraums, um möglichst hilfreiche weitere Informationen für das Modell zu gewinnen. Bei einer möglichen Wiederaufnahme des Projekts gilt es dann, auf den Erfahrungen früherer Misserfolge aufzubauen und eine informierte Entscheidung darüber zu treffen, unter welchen Bedingungen ein erneuter Modellierungsversuch sinnvoll ist.
Expertenrat für Ihr Data-Analytics-Projekt
Sie wollen einen tieferen Blick in Ihre Daten werfen, und wissen nicht, wie? Sprechen Sie mit uns.