Im Angesicht der digitalen Transformation, wird die Datenanalyse immer wichtiger. In diesem Gastbeitrag werden Data Mining und Process Mining methodisch untersucht. Shirin Dagher, Expertin für Process Mining, prüft zusätzlich, wann sich Process Mining zu einer nahezu eigenständigen Disziplin entwickelt hat und welche Vorteile sich für Unternehmen ergeben.

Die ersten Algorithmen, die heutzutage dem Data Mining zugeordnet werden, wurden bereits in den achtziger Jahren entwickelt. Process-Mining-Algorithmen folgten nur wenige Jahre später. Trotzdem sind beide Techniken, insbesondere Process Mining, im unternehmerischen Kontext noch sehr junge Disziplinen. Da sie im Angesicht der digitalen Transformation jedoch immer wichtiger und mit technischem Fortschritt auch kompliziert werden, lohnt es sich, einen genaueren Blick auf diese Themen zu werfen. Kann Process Mining überhaupt differenziert von Data Mining betrachtet werden? Ist das Eine, wie die Bezeichnungen unschwer vermuten lassen, nicht eine Sonderform des Anderen?

Data Mining: Algorithmen überschreiten Grenzen der herkömmlichen Statistik

Data Mining wird von dem US-amerikanischen Datenwissenschaftler Usama Fayyad als “die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten“ definiert. Algorithmen identifizieren in den Daten also Muster, wie Trends oder Zusammenhänge von Objekten und Situationen. Daher ist Data Mining auch unter den Synonymen “Datenmustererkennung”, “Database exploration”, oder auch „Knowledge Discovery in Databases“ (KDD) bekannt.

Die Ursprünge von Data Mining liegen in der Statistik, deren Verfahren und Methodiken die Basis vieler Data-Mining-Algorithmen sind. Die typische Vorgehensweise in der Statistik – Hypothesen aufstellen und anhand von Daten verifizieren – hat sich mit Data Mining grundlegend verändert.

Forscher haben in den achtziger Jahren damit begonnen, Machine-Learning-Algorithmen zu entwickeln, die diese Vorgehensweise umkehren konnten. Wenige Jahre später, in den neunziger Jahren, wurden dann die ersten Process-Mining-Algorithmen entwickelt. Unter Process Mining versteht man Methoden, die Prozesswissen aus Event-Logs generieren. Event-Logs sind protokollierte Verlaufsdaten aus IT-basierten Prozessen. Process-Mining-Algorithmen visualisieren und analysieren diese Prozessdaten. Im Gegensatz zu Data Mining hat es fast zwei Jahrzehnte gedauert, bis Process Mining auch wirtschaftlich zum Einsatz kam.

Das Ziel: Unerklärbares erklären

Im Data Mining werden meistens zwei Ziele verfolgt. Entweder gilt es, bestimmte Gegebenheiten zu erklären oder datenbasierte Aussagen über die Zukunft zu treffen. Aus unternehmerischer Sicht sind das beispielsweise Betriebsergebnisse, deren Kausalitäten zu analysieren sind oder Prognosen, die auf Basis der betrieblichen Tätigkeit zu erstellen sind. Dazu werden Algorithmen eingesetzt, die mit oder auch ohne Hilfe von Stichproben relevante Muster in den Daten identifizieren. Die Aufgabe des Menschen ist es dann, diese Resultate zu interpretieren, zu verwerten und sinngemäße Theorien aufzusetzen. Data Mining hat einen sehr breiten Anwendungsbereich und setzt neben Methoden aus der künstlichen Intelligenz auch solche aus der Statistik und der Datenbankforschung ein. Data Mining wird im wirtschaftlichen sowie wissenschaftlichen Kontext vielseitig eingesetzt. Von Prognosen zur Unternehmensentwicklung, Analysen soziodemographischer Trends bis hin zur Unterstützung von medizinischer Forschung.

Beim Process Mining werden ausschließlich Prozessdaten von real ausgeführten Prozessen analysiert. Das Ziel dieser Analyse variiert je nach Prozess und Unternehmen, aber meistens liegt die Optimierung der Prozess-Performance im Fokus. Process Mining bietet für Unternehmen die Möglichkeit, Einblicke in die realen Prozessabläufe zu erhalten und Potentiale sowie Risiken automatisiert zu identifizieren.

Vorbereitung ist (fast) alles

Bevor die Algorithmen zum Einsatz kommen, sind zunächst die relevanten Daten bereitzustellen und zu transformieren. Dieser Prozess – die Datenvorbereitung – beansprucht beim Data Mining sowie Process Mining den größten Aufwand. Im Data Mining unterscheidet man zwischen der Auswahl, Vorverarbeitung und Transformation der Daten. Bei der Auswahl werden die Daten entweder aus Datenbanken extrahiert oder noch erhoben. Bei der Vorverarbeitung werden die Daten bereinigt, beispielsweise von Dokumentationsfehlern, vervollständigt und integriert. Das heißt, Daten aus verschiedenen Quellen werden fusioniert. Bei der Transformation werden die Daten in eine geeignete und zielgerichtete Form gebracht. Im Process Mining hingegen werden die Daten ausschließlich aus IT-Systemen extrahiert. Anschließend folgt auch hier die Transformation und das Laden der Daten in beispielsweise ein Process-Mining-Tool. Damit ist der ETL-Prozess (“Extract”, “Transform”, “Load”) abgeschlossen.

Methoden im Data Mining: So lernen Algorithmen

Im Data Mining gibt es eine vielzahl von Aufgaben, die ein Algorithmus ausführen kann. Zu den Wichtigsten zählt…

… die Prognose, also die Vorhersage auf Basis vergangener Daten.
… die Generalisierung, die möglichst kompakte Beschreibung von Daten, indem nur die wichtigsten Werte verwendet werden.
… die Mustererkennung, bei der Probleme und Zusammenhängen zwischen Objekten identifiziert werden.

Diese Aufgaben können mit verschiedenen Techniken realisiert werden. Beispielsweise mittels Clustering – der Gruppierung von ähnlichen Objekten – oder auch Klassifikationstraining. Dabei trainiert der Algorithmus mit Trainingsbeispielen – repräsentativen Ausschnitten der Gesamtdaten – sodass er dann unbekannte Objekte anhand ihrer Attributwerte klassifizieren kann.
Zudem gibt es zwei verschiedene Szenarien, indem die Algorithmen operieren. Entweder werden die Daten mit Vorgaben analysiert, beim sogenannten überwachten Lernen, oder ohne, beim unüberwachten Lernen. Beim überwachten Lernen lernt der Algorithmus anhand von Trainingsbeispielen, unbekannte Objekte oder Situationen einer bestimmten Klasse zuzuordnen. Praktizierte Methoden sind beispielsweise Regelinduktion oder Entscheidungsbäume. Beim unüberwachten Lernen sind keine Trainingsbeispiele gegeben und das System hat ohne Vorgaben auffällige Zusammenhänge oder Muster in den Daten zu identifizieren. Beispiele hierfür sind neuronale Netze oder demographisches Clustering.

Process Mining: In drei Schritten zum optimierten Prozess

Da im Data Mining die Einsatzmöglichkeiten so vielfältig sind, sind Zielsetzung und Mehrwert meist nur kontextabhängig definierbar. Im Process Mining hingegen unterscheidet man zwischen drei Methoden – Process Discovery, Conformance Checking und Model Enhancement – deren Ziele und Vorteile relativ klar spezifizierbar sind.
Mit der Methode Process Discovery werden die gesamten Prozessdaten in einem Modell visualisiert. Ziel dieser Methode ist es, Transparenz über die reale Prozessumsetzung zu erhalten.

Beim Conformance Checking wird der entdeckte, datenbasierte Prozess mit einem Referenzmodell verglichen. Dabei werden Abweichungen sichtbar, sodass Unternehmen beispielsweise unerwünschte Prozessabweichungen oder Compliance-Verstöße aufdecken. Mittels des Model Enhancement werden die Prozessdaten nach Optimierungspotentialen analysiert. Hierzu werden Performance-Kennzahlen wie Durchlaufzeiten oder Liegezeiten, aber auch spezifische Prozessvarianten oder -abweichungen näher untersucht. Zu den Zielen zählen unter anderem Effizienzsteigerungen, Einsparpotentiale abzuleiten oder Compliance-Risiken zu minimieren.

Ist eine methodische Zuordnung möglich?

Lassen sich diese Methoden überhaupt technisch dem Data Mining zuordnen? Zum Teil, ja. Schauen wir uns dazu einige Beispiele an: Beim Process Discovery werden die Daten unter anderem anhand der Clustering-Technik generalisiert. So werden identische Prozessaktivitäten oder -varianten zusammengefasst, die die Grundlage zur Prozessvisualisierung bilden. Bei Process Discovery und Conformance Checking wird außerdem die Mustererkennung eingesetzt. Somit werden Prozess-Schwachstellen wie Bottlenecks, Prozessschleifen oder auch unerwünschte Prozessabweichungen identifiziert. In LANA Process Mining beispielsweise findet zusätzlich das überwachte Lernen Anwendung: Mit der automatisierten Ursachenanalyse werden die Ursachen von aufgedeckten Schwachstellen identifiziert. Dabei wird der Algorithmus dazu trainiert, Klassifizierungen zur Ursachen-Identifizierung durchzuführen.

Process Mining – eine eigene Disziplin?

Allerdings ist eine der wichtigsten Funktionen im Process Mining – die graphische, datenbasierte Visualisierung von Prozessen – dem Data Mining nicht mehr methodisch zuzuordnen. Mit der datenbasierten Prozessvisualisierung erhalten Unternehmen Einblicke in auch extrem komplexe Geschäftsprozesse. Damit generieren Unternehmen nicht nur ein tiefgreifendes Prozessverständnis, sondern schaffen die Grundlage für eine kontinuierliche Prozessverbesserung. Identifizierte Prozesse können als zukünftige Referenzmodelle verwendet werden, um beispielsweise den Erfolg abgeleiteter Optimierungspotentiale zu prüfen. Insbesondere im Hinblick auf die klassische Prozessdokumentation und -modellierung ist Process Mining eine disruptive Innovation. Während bei der konventionellen Prozessdokumentation Prozesse beispielsweise auf Basis von Mitarbeiterbefragungen, Beobachtungen oder Annahmen dokumentiert werden, werden im Process Mining die Prozesse anhand der realen Prozessdaten kreiert. Das maximiert nicht nur Vollständigkeit, Objektivität und Richtigkeit der Prozessaufzeichnung, sondern ist auch eine sehr effiziente Vorgehensweise. Somit finden zwar einige Data-Mining-Techniken im Process Mining Anwendung, allerdings ist Process Mining insbesondere hinsichtlich der visuellen Konzeption eine nahezu eigenständige Disziplin.

Zur Autorin

Eine Evolution? Von Data Mining zu Process Mining