Grundlagen und Vergleich ausgewählter Software für Process-Mining
Christian Ullrich 31. Oktober 2014
- Grundlagen und Vergleich ausgewählter Software für Process-Mining
- Zusammenfassung
- Abstract
- 1 Einführung
- 2 Grundlagen
- 2.1 Prozessmanagement
- 2.2 Data-Mining
- 2.3 Process-Mining
- 2.4 Durchführung
- 3 Software
- 3.1 Auswahlkriterien
- 3.2 Lösungen und Analyse
- 3.3 Auswahl und Einführung
- 4 Zusammenfassung und Fazit
- Literaturverzeichnis
Zusammenfassung
Die vorliegende Arbeit ist ein Bestandteil des Projektseminars im Masterstudiengang Wirtschaftsinformatik an der Universität Würzburg im Wintersemester 2014/2015. Ziel ist die Darstellung der Grundlagen des Process-Mining. Weiterhin werden Softwareanwendungen zur Durchführung des Process-Mining miteinander verglichen.
Process-Mining ist eine Form des Prozessmanagements mit den Techniken des Data-Mining. Dabei werden Geschäftsprozesse mit Hilfe eines Algorithmus automatisiert erkannt und grafisch dargestellt. Genutzt wird dies zum Beispiel in Unternehmen bei der Prozesserkennung und -optimierung. Die Arbeit beschreibt theoretische Grundlagen und praktische Ansätze zur Vorgehensweise. Als Grundlage der Software-Analyse dient eine Webrecherche. Anhand der Anforderungen des Projektseminars werden verschiedene Lösungen miteinander verglichen.
Abstract
This work was part of the project seminar in the Business Information Systems Master of Science degree program at the University of Würzburg in the winter semester of 2014/2015. The objective was to show the fundamentals of process mining. Furthermore, software applications are compared to perform process mining.
Process mining is a kind of process management using the techniques of data mining, thereby automating business processes identified by an algorithm and displayed graphically. This is used in companies for process discovery and optimization, for example. This paper describes the theoretical foundations and practical approaches of the procedure. The basis of the comparison of the software is web research. On the basis of the requirements of the project seminar, several solutions are compared.
1 Einführung
In Zeiten zunehmenden globalen Wettbewerbs steigen die Anforderungen an Unternehmen sich in ihrem Marktumfeld zu behaupten. Neben der Entwicklung neuer Produkte gilt es die Organisation schlank zu halten und die Leistungen zu wettbewerbsfähigen Kosten zu erbringen. Bei deutschen Unternehmen sind seit einiger Zeit wieder verstärkt entsprechende Maßnahmen zu beobachten, auch um schneller auf sich wandelnde Märkte reagieren zu können.
Kleine und mittlere Unternehmen erledigen Geschäftsprozesse oftmals ad-hoc. Größere Unternehmen sind oftmals signifikant komplexer, sodass die Definition einheitlicher Geschäftsprozesse erforderlich ist. Andernfalls können Mitarbeiter schnell überfordert und Aufträge nicht ordnungsgemäß bearbeitet werden. Seit Jahren werden mittels verschiedener Maßnahmen des Geschäftsprozessmanagements interne Vorgehensweisen und der organisatorische Aufbau dokumentiert und verbessert. Spätestens bei der Einführung einer neuen Software, zum Beispiel für die Finanzbuchhaltung oder die Personalverwaltung, müssen betriebliche Prozesse einheitlich definiert und in der Software implementiert werden, beziehungsweise Standardprozesse der Software im Unternehmen eingeführt werden.
Die Dokumentation und Anpassung von Geschäftsprozessen erfolgt in den meisten Fällen immer noch händisch: In komplexen Befragungs- und Dokumentationsprozessen werden Prozesse ermittelt, dokumentiert und verändert. Der Aufwand dabei ist vergleichsweise hoch und trotz Software-Tool-Support nur in geringem Maße automatisiert.
Process-Mining beschreibt die Ermittlung von Prozessen durch Auswertung von Daten. Es verbindet das Prozessmanagement mit dem Data-Mining. Ziel ist eine automatisierte Dokumentation von Geschäftsprozessen anhand von elektronischen Protokollen, englisch Logs. Wenn die Dokumentation bestehender Prozesse anstatt per Interview in Wochen, mit Hilfe einer Software in Tagen durchgeführt wird, kann das viele Ressourcen und damit Geld einsparen.
Diese Arbeit dient als Vorbereitung auf das Projektseminar im Masterstudium Wirtschaftsinformatik an der Universität Würzburg am Lehrstuhl Prof. Dr. Thiesse im Wintersemester 2014/2015. Sie soll dabei zwei wesentliche Ziele erfüllen:
- Erläuterung der Grundlagen des Process-Mining
- Vergleich und Auswahl von Software zur Durchführung des Process-Mining im Rahmen des Projektseminars
Damit werden zum einen eine theoretische Grundlage und zum anderen ein praktischer Beitrag geleistet. Es gilt sich dem Thema Process-Mining möglichst umfassend und gleichzeitig anschaulich zu nähern, anstatt eine spezifische Fragestellung zu untersuchen. Der Anteil theoretischer Modelle wird zugunsten praxisrelevanter Informationen zur konkreten Vorgehensweise reduziert.
2 Grundlagen
2.1 Prozessmanagement
Prozessmanagement bezeichnet die Aufgabe eines Unternehmens, im Rahmen des strategischen Managements Prozesse systematisch und regelmäßig an die Bedürfnisse des Wettbewerbsumfelds anzupassen. Dabei wird zwischen der kontinuierlichen Weiterentwicklung und der radikalen Veränderung unterschieden. Für beide Formen existieren verschiedene Ansätze in der Managementforschung, beispielsweise Total-Quality-Management und Lean-Management bei der kontinuierlichen Verbesserung und Business-Process-Reengineering als Form der radikalen Veränderung. (Brocke 2013, 1)
Ein wesentlicher Bestandteil des Prozessmanagements ist die Dokumentation bestehender Prozesse. Dies dient der Standardisierung mit dem Ziel der geordneten Umsetzung im täglichen Betrieb. Zudem kann eine Verbesserung oftmals nur mit Kenntnis der aktuellen Situation vorgenommen werden. Durch eine grafische Visualisierung der Prozesse, im Vergleich zur Beschreibung als Fließtext, sind diese deutlich besser verständlich. Die Form und der Aufbau der Dokumentation sind in Prozessmodellen definiert. Diese sind aufgrund mehrerer Faktoren nützlich: (Aalst 2011, 6)
- Einblick: In der Modellgestaltung ist ein Blick von verschiedenen Seiten möglich
- Diskussion: Die Stakeholder nutzen Modelle zur Strukturierung von Diskussionen
- Dokumentation: Prozesse werden zur Anwendung oder weiteren Bearbeitung dokumentiert
- Verifizierung: Probleme in der Ablaufgestaltung werden offensichtlich
- Leistungsanalyse: Simulationen und andere Techniken können zur Feststellung von Leistungskennzahlen dienen
- Animation: Die grafische Aufbereitung unterstützt bei der gemeinsamen Veränderung der Prozesse
- Spezifizierung: Modelle dienen der Festlegung zur Implementierung in Informationssysteme und zwischen Management und Mitarbeitern
- Konfiguration: Modelle dienen als Grundlage zur Systemkonfiguration
Es existieren zahlreiche verschiedene Modelle zur Beschreibung von Prozessen. Nicht alle dienen primär der Modellierung von Geschäftsprozessen, sondern können auch der Softwareentwicklung (Unified Modeling Language) oder der Entwicklung von Unternehmensarchitekturen (ArchiMate) entstammen. In der Unternehmenspraxis wird zum Zwecke der Geschäftsprozessmodellierung überwiegend die Business Process Modeling Notation (BPMN) verwendet. (Aalst 2011, 42ff)
Bei der Nutzung von Prozessmodellen sollte sich der Anwender gewisser Limitierungen bewusst sein. Zudem bildet kein Prozessmodell die Wirklichkeit ab. Vielmehr wird ein Idealzustand definiert, den es möglichst einzuhalten gilt. Im Rahmen des Process-Mining sollen zudem Abweichungen der Wirklichkeit zum Modell festgestellt werden. (Aalst 2011, 59)
Abbildungen 1 und 2 zeigen einen exemplarischen Geschäftsprozess, modelliert in Form eines Petrinetzes und nach dem BPMN-Schema.
2.2 Data-Mining
Process-Mining basiert auf dem Prozessmanagement und dem Data-Mining. Letzteres beschreibt dabei die Auswertung von Daten mit dem Ziel der Erkennung von Mustern. Diese Muster sollen einen großen Teil des Datenbestands gültig, nützlich und verständlich beschreiben. (Chamoni 2013, 1)
Data-Mining wird für verschiedene Aufgaben verwendet, die sich wie folgt gliedern: (Aalst 2011, 59-91; Chamoni 2013, 3f)
- Abhängigkeitserkennung: Bei der Abhängigkeitserkennung werden Zusammenhänge in den Daten identifiziert. Die Korrelation zweier Variablen wird mit Hilfe einer Regel erklärt. Im Anschluss kann untersucht werden, ob neben einer Korrelation auch eine Kausalität besteht.
- Klassifikation: Die Klassifikation dient der Zuordnung einzelner Elemente zu vorher definierten Klassen, wobei Verfahren des maschinellen Lernens eingesetzt werden. Die Klassifikation kann auch zur Vorhersage diskreter Variablen genutzt werden und zählt somit zu den prädiktiven Aufgabenbereichen.
- Regression: Im Rahmen einer Regression wird eine abhängige Variable durch verschiedene unabhängige Variablen erklärt. Ebenfalls als prädiktiver Aufgabenbereich dient die Regression im Gegensatz zur Klassifikation der Vorhersage stetiger Variablen.
- Segmentierung: Mit der Segmentierung sollen Gruppen von Objekten identifiziert werden, die zueinander ähnlich und verschieden gegenüber anderen Gruppen sind. Diese Häufungen werden auch als Cluster bezeichnet, weshalb die Segmentierung auch Clusteranalyse genannt wird.
Der Cross Industry Standard Process for Data Mining (CRISP-DM) beschreibt die Vorgehensweise beim Data-Mining: (Marban 2009, 6)
- Business Understanding: Die erste Phase beschäftigt sich mit dem Verständnis des Projekts. Dabei werden die Data-Mining-Fragestellung und eine Planung zur Vorgehensweise erstellt.
- Data Understanding: Im Rahmen der zweiten Phase werden zuerst die benötigten Daten gesammelt. Diese können aus verschiedenen Quellen, wie zum Beispiel operativen Informationssystemen, stammen. Anschließend müssen die Daten, ihr Aufbau und ihr Potenzial verstanden werden. Die Datenqualität spielt eine wichtige Rolle, um die vorher festgelegten Ziele zu erreichen. Interessante Untermengen der Daten können weitere Fragestellungen produzieren.
- Data-Preparation: In dieser Phase werden die Ausgangsdaten transformiert, sodass der eigentliche Analyseprozess durchgeführt werden kann. Dieser Schritt wird unter Umständen vor weiteren Data-Mining-Aktivitäten wiederholt.
- Modeling: Hierbei werden die verschiedenen Modellierungstechniken ausgewählt und vorbereitet, zum Beispiel durch die Anpassung von Parametern. Da oftmals verschiedene Modellierungstechniken für ein Problem zur Verfügung stehen, kann dieser Schritt eine gewisse Zeit in Anspruch nehmen. Häufig ist die Wiederholung des Schritts Data-Preparation
- Evaluation: Bevor das Modell angewandt werden kann, wird es umfangreich auf Fehler und Inkonsistenzen geprüft. Insbesondere sollte ein Abgleich des erstellen Modells mit den Zielen durchgeführt werden. Weiterhin wird im Rahmen der Evaluation entschieden, wie mit den Ergebnissen des Data-Mining-Prozesses verfahren wird.
- Deployment: Im letzten Schritt wird das vorbereitete Projekt durchgeführt. Dies geschieht in der Regel durch eine spezielle Software. Im Rahmen dessen werden die Ergebnisse zudem grafisch aufbereitet, was die anschließende Auswertung erleichtert.
Die Aufgaben werden mit Hilfe verschiedener Verfahren bearbeitet, welche sich in verschiedene Kategorien einordnen lassen. Abbildung 3 zeigt die Zuordnung zu der Verfahren zu den Aufgaben des Data-Mining. (Chamoni 2013, 4f)
- Assoziationsanalyse: Die Assoziationsanalyse dient der Ermittlung von Korrelationen zwischen gemeinsam auftretenden Merkmalen. Dabei tritt ein Merkmal auf, wenn ein bestimmtes anderes ebenfalls auftritt.
- Clusterverfahren: Beim Clustering werden Objekte mit dem Ziel segmentiert, Gruppierungen von Daten zu finden. Dabei sind die Objekte innerhalb desselben Clusters ähnlich und diese gemeinsam zu anderen Clustern verschieden. Die Anzahl der Gruppen wird im Vorhinein nicht festgelegt.
- Entscheidungsbäume: Beim Verfahren der Entscheidungsbäume werden die Daten in einen Trainings- und einen Testbestand geteilt. Das Modell wird als Baumdiagramm dargestellt, aus dem Regeln für weitere Daten abgeleitet werden können. Die Äste des Baums stellen aufeinander aufbauende Entscheidungen dar.
- Künstliche neuronale Netze: Dieses Klassifikationsmodell aus dem Bereich der künstlichen Intelligenz benutzt künstliche Neuronen. Sie sind vielseitig einsetzbar, unter anderem als Klassifikations- und Regressionsmodelle und zur Clusterbildung.
Im Rahmen des Projektseminars wird eine gesonderte Projektseminararbeit erstellt, welche Software für das Data-Mining vergleicht. (Venus 2014)
2.3 Process-Mining
Als Ausganssituation existiert die Realität (world), welche "gelebte" Geschäftsprozesse beinhaltet. Die Realität wird in Anwendungssystemen (software system) mittels Ereignisprotokollen (event logs) abgebildet. Gleichzeitig sollen Prozessmodelle der Wirklichkeit erstellt (discovery) oder bestehende auf Konformität geprüft (conformance) oder erweitert (enhancement) werden. Dieses Abbilden der gespeicherten Realität in Prozessmodellen wird als Process-Mining bezeichnet. Die Prozessmodelle dienen durch ihre Beschreibung der Realität zum Beispiel der Konfiguration von Anwendungssystemen. Abbildung 4 veranschaulicht diesen Zusammenhang. (Aalst 2011, 9f)
Ereignisse (event), ausgelöst durch einen Anwender oder Anwendungssysteme, werden in ein Ereignisprotokoll (event log) geschrieben. Dabei kann jedes Ereignis einer Aktivität (activity) zugeordnet werden und ist Teil eines Falls (case). So entsteht eine Reihe (trace) von Ereignissen, welche im Ereignisprotokoll festgehalten werden. Dieses kann sehr unterschiedlich aussehen, ist in der Regel jedoch unstrukturiert. Viele Ereignisprotokolle speichern noch weitere Informationen, zum Beispiel Ressourcen (person, device), welche das Ereignis auslösen, Zeitstempel, wann das Ereignis ausgelöst wurde und Datenelemente (Attributwerte). (Aalst 2011, 9)
Das Verhältnis von verwendetem Input zu erhaltenem Output kann sich unterschiedlich darstellen: (Aalst 2011, 18)
- Play-In: Das Prozessmodell wird auf Grundlage eines vorliegenden Ereignisprotokolls erstellt. In dieser Arbeit wird vorrangig dieses Szenario weiter erläutert.
- Play-Out: Ein Ereignisprotokoll wird auf Basis eines Prozessmodells erstellt. Dies dient insbesondere der Simulation von Prozessen.
- Replay: Bei dieser Form wird ein Ereignisprotokoll und ein Prozessmodell als Input genutzt. Diese Vorgehensweise ist insbesondere bei der Konformitätsprüfung und der operativen Unterstützung behilflich.
Es bestehen drei verschiedene Nutzungsarten des Process-Mining. Diese beschreiben die Zielsetzung des Process-Mining und, wie in Abbildung 4 veranschaulicht, das Verhältnis zwischen Ereignisprotokoll und Prozessmodell (Aalst 2011, 10):
- Die wohl am häufigsten verwendete Nutzung ist die Erkennung (discovery). Dabei wird auf Basis eines Ereignisprotokolls ein Prozessmodell erstellt. Der bekannte Alpha-Algorithmus wird im nachfolgenden Kapitel erläutert. Als Output wird ein grafisches Modell erzeugt, zum Beispiel ein Petrinetz. Wenn das Ereignisprotokoll weitere Informationen enthält, zum Beispiel Ressourcen, kann auch ein soziales Netzwerk erstellt werden, welches die Wege der Zusammenarbeit in einer Organisation aufzeigt. Häufigster Anwendungsbereich ist das Business-Process-Reengineering, bei der die bestehenden Prozesse ermittelt und diese durch optimierte Varianten ersetzt werden. Dies geschieht häufig im Rahmen der Einführung von betriebswirtschaftlicher Standardsoftware.
- Die zweite Nutzungsweise ist die Einhaltung (conformance). Dabei wird ein bestehendes Prozessmodell mit einem Ereignisprotokoll verglichen. Demnach kann die Übereinstimmung der Realität in Form eines Ereignisprotokolls mit einem Prozessmodell geprüft werden. Beispielweise möchte das interne Rechnungswesen prüfen, ob Prozesse in der vorgeschriebenen Weise durchgeführt werden.
- Als dritte Form wird bei der Erweiterung (enhancement) ein bestehendes Prozessmodell erweitert oder verbessert. Dies wird genutzt, wenn sich ein bestehender Prozess als unzureichend oder nicht praktikabel herausstellt. Weiterhin kann damit die Sichtweise auf einen Prozess erweitert werden, zum Beispiel indem eine neue Perspektive, wie Ressourcen oder der Zeitbedarf, hinzugefügt wird.
Die Ergebnisse des Process-Mining münden in einem Prozessmodell, welches die vorliegenden Geschäftsprozesse beschreibt. Dabei wird zwischen Lasagne- und Spaghetti-Prozessen unterschieden:
- Lasagne-Prozesse: Diese besitzen eine klare Struktur und werden in der Regel auf bekannte Weise bearbeitet, beispielsweise weil sie schon in ähnlichen Organisationen eingeführt sind. Es existieren wenige Ausnahmen und alle beteiligten verstehen den Arbeitsablauf. Die im nachfolgenden Kapitel vorgestellte Vorgehensweise dient der Ermittlung von Lasagne-Prozessen. (Aalst 2011, 277)
- Spaghetti-Prozesse: Diese sind das Gegenstück zu vorgenannten. Sie sind weniger strukturiert, weshalb nur einige wenige Process-Mining-Techniken angewandt werden können. Aufgrund ihrer Komplexität sind sie schwer zu beherrschen und neu zu ordnen. Durch eine systematische Abstraktion oder Aufteilung von Prozessmodellen können Spaghetti- in Lasagne-Prozesse umgewandelt und so besser verarbeitet werden. (Aalst 2011, 301-305)
2.4 Durchführung
Auch für das Process-Mining existieren Empfehlungen zur Vorgehensweise. Abbildung 5 zeigt den Zusammenhang der verschiedenen Prozessschritte eines Data-Mining-Prozesses.
Die einzelnen Prozessschritte sind gegeneinander abgegrenzt: (Aalst 2011, 237-240 und 285f)
- Planung: Im ersten Schritt werden die Zielsetzungen, Fragestellungen und einzelnen Projektschritte festgelegt. Zudem sollte die Planung eine Ressourcenzuteilung, einen Zeitplan und eventuell Meilensteine beinhalten. Insbesondere bei größeren Projekten ist ein kontinuierliches Projektmanagement und -controlling anzuraten. Darüber hinaus existieren beim Process-Mining drei Projektarten, welche sich in der Art der Fragestellung unterscheiden.
- Datenorientiert: Dabei wird keine konkrete Fragestellung formuliert. Vielmehr werden die vorhandenen Daten ergebnisoffen analysiert.
- Konkrete Fragestellung: Hierbei werden im Vorhinein konkrete Fragestellungen formuliert, beispielsweise zu durchschnittlichen Durchlaufzeiten oder Kausalitäten bei Problemen. Diese Vorgehensweise empfiehlt sich für Organisationen, die sich neu mit dem Thema Process-Mining beschäftigen.
- Zielorientiert: Um konkrete Ziele, wie eine Kostensenkung oder eine Prozessvereinfachung zu erreichen, werden bei der Planung Leistungskennzahlen (KPIs) definiert. Nach der Analyse der Prozesse werden diese verbessert und die Leistungskennzahlen erneut gemessen.
- Extraktion: Mit der Extraktion werden die relevanten Datensätze ausgewählt und Ziele und Fragestellungen definiert. Die Daten stammen dabei in der Regel aus einzelnen Applikationen oder einem Data-Warehouse. Im Rahmen einer Filterung werden die Teile ausgewählt, welche für die konkrete Fragestellung von Interesse sind. Zudem erfolgt die Umwandlung in ein mit der Process-Mining-Software kompatibles Datenformat. Insbesondere die Zeitstempel und die eindeutige Zuordnung von Ereignissen (event) zu Fällen (case) müssen gegeben sein. In die Extraktion fließen außerdem auch händisch erstellte Prozessmodelle (zum Beispiel aus früheren Prozessmanagement-Projekten) ein. Diese erhalten im Rahmen des Data-Mining-Prozesses ein automatisch erstelltes Äquivalent. Somit können sie im Nachhinein zum Vergleich dienen, wobei die Detailtiefe eventuell unterschiedlich ist. Insbesondere der Vergleich von Anspruch und Wirklichkeit an die Durchführung des verglichenen Prozesses ist interessant.
- Erstellen der Kontrollflussdiagramme und Verbindung mit den Ereignisprotokollen: Im dritten Schritt werden die Kontrollflussdiagramme (control-flow model) erstellt (discover). Dies geschieht automatisiert durch Algorithmen der gewählten Software. Es kann auch die Konformität der bestehenden Diagramme geprüft werden (check) oder ein Vergleich erfolgen (compare). Auch eine Konsolidierung (promote) händisch und automatisch erstellter Diagramme ist möglich. Nach Abschluss des zweiten Schritts existieren eng miteinander verzahnte Kontrollflussdiagramme und Ereignisprotokolle. Eine Interpretation der erstellten Kontrollflussdiagramme ist notwendig für die weiteren Schritte, insbesondere der Beantwortung der Fragestellung oder dem Anstoß eines Business-Process-Reengineerings.
- Erweiterung der Diagramme zum Modell: Im vierten Schritt wird das Kontrollflussdiagramm um weitere Perspektiven erweitert. Dies kann zum Beispiel eine aufbauorganisatorische oder zeitliche Perspektive sein. Als Ergebnis liegt ein integriertes Prozessmodell vor, welches für verschiedene Anwendungen genutzt werden kann. Beispielsweise kann der dokumentierte Prozess mit Hilfe des Business-Process-Reengineering neu erstellt werden. Dies ist zwar prinzipiell auch schon nach dem dritten Schritt möglich, aber erst nach der Integration weiterer Perspektiven hebt sich das Ergebnis des Process-Mining von herkömmlichen Outputs der Modellierung von Geschäftsprozessen ab. Beispielsweise kann die zeitliche Dimension dabei unterstützen, Engpässe zu erkennen. Die Perspektiven werden in der Literatur näher erläutert. (Aalst 2011, 11 und 215-240)
- Operative Unterstützung: Im Vergleich zur Nutzung der reinen Kontrollflussdiagramme nach dem dritten Schritt sind die vollständigen Prozessmodelle deutlich vielseitiger einsetzbar. Dies geschieht im fünften Schritt durch Nutzung für Kartographie, Auditing und Navigation. Die operative Unterstützung (Navigation) ist im Vergleich zu den beiden anderen zukunftsgerichtet und soll bei der täglichen Durchführung des Prozesses unterstützen. (Aalst 2011, 241-258).
Im Rahmen des Data-Mining werden Daten mit Hilfe des ETL-Prozesses (extraction, transformation, loading) zur weiteren Verwendung aufbereitet. Dabei werden die Datenbestände verschiedenster Anwendungen in einem Data-Warehouse konsolidiert. Dieses produziert selber keine Daten, sondern sammelt und transformiert diese zur weiteren Verwendung, sodass die operativen Anwendungssysteme damit nicht belastet werden. Wenn beispielsweise verschiedene Anwendungen in einem Fertigungsauftrag involviert sind, können mit Hilfe des Data-Warehouse die verschiedenen Datensätze in einem konsolidiert werden. (Aalst 2011, 97f)
Abbildung 6 zeigt exemplarisch ein Ereignisprotokoll (event log) des beispielhaften Versicherungsprozesses der Grafiken 1 und 2. Zur Analyse muss ein Ereignisprotokoll einen spezifischen Prozess abbilden. Jedes Ereignis (event) ist dabei eine einzelne Prozessinstanz und jede Ausführung ist ein Fall (case). Jedes Ereignis ist zudem einer Aktivität (activity) zugeordnet. In der Regel gehören zudem ein Zeitstempel (timestamp) und ausführende Ressourcen (resource) zum Umfang eines Ereignisprotokolls. Diese und weitere Bestandteile werden als Attribute bezeichnet. (Ein Prozess beinhaltet Fälle beinhaltet Ereignisse beinhaltet Attribute.) (Aalst 2011, 98ff)
Ziel der Prozesserkennung ist die Umwandlung eines Ereignisprotokolls in ein Kontrollflussdiagramm. An dieser Stelle wird die Kontrollfluss-Perspektive im Rahmen der Aufgabe der Erkennung (discovery, Play-In) beschrieben. Dabei kann ein detaillierteres Schema (Petrinetz, BPMN-Schema, usw.) den Prozess genauer abbilden. Das Diagramm sollte eine Ausgewogenheit zwischen verschiedenen Qualitätskriterien herstellen, welche zueinander im Widerspruch stehen und somit einen Interessenausgleich erfordern: (Aalst 2011, 125-128)
- Eignung
- Präzision
- Generalisierung
- Einfachheit
Ein häufig verwendeter Algorithmus für die oben dargestellte Aufgabe ist der α-Algorithmus, bei welchem ein Ereignisprotokoll den Input darstellt. Der Algorithmus untersucht dieses nach spezifischen Mustern. Wenn zum Beispiel auf Aktivität a regelmäßig Aktivität b folgt, aber auf b niemals a folgt, kann man von einer Abhängigkeit ausgehen. Somit wird im Petrinetz a zu b von links nach rechts verbunden. Analysiert wird jeweils die Anordnung in einem Fall (case). Für die Auswertung ist die chronologische Sortierung der Ereignisse (event) notwendig, was im Rahmen der Datenaufbereitung in einem eigenen Schritt erfolgt. (Aalst 2011, 129; Weber 2007, 19f)
Der α-Algorithmus unterscheidet neben den beiden Funktionen Erster (first) und Letzter (last) zwischen vier verschiedenen Zusammenhängen der einzelnen Ereignisse: (Aalst 2011, 130)
- Direkt aufeinander folgende Aktivitäten (x > y)
- Direkte kausale Beziehungen (x -> y)
- Gleichzeitige (parallele) Beziehungen (x || y)
- Nie aufeinander folgende Aktivitäten (x # y)
Dabei ergeben sich die in Abbildung 7 typischen Prozessmuster. Es ist grundsätzlich nicht relevant, wie oft ein bestimmtes Prozessmuster im Ereignisprotokoll auftritt. Bei mindestens einem Auftreten wird der Sachverhalt in das Kontrollflussdiagramm aufgenommen. (Weber 2007, 22f)
Verschiedene Einschränkungen des α-Algorithmus und sich daraus ergebende unvollständige oder fehlerhafte Kontrollflussdiagramme erfordern eine durchgehende Prüfung und Anpassung dieser. (Aalst 2011, 136-139; Weber 2007, 14-18)
3 Software
Diese Arbeit dient neben dem allgemeinen Informationscharakter insbesondere auch der Vorbereitung des Projektseminars, in dessen Verlauf Daten von Systemen auf Basis der Radio-Frequency-Identification (RFID) ausgewertet werden sollen. Dazu wird eine Auswahl von Anwendungssoftware für das Process-Mining miteinander verglichen.
3.1 Auswahlkriterien
Als Grundlage der Auswahl geeigneter Lösungen gilt es relevante Vergleichs- und Auswahlkriterien aufzustellen. Dabei werden speziell die Anforderungen des universitären Projektseminars berücksichtigt.
Kosten: Kommerzielle Software zur Datenanalyse kann schnell hohe Summen kosten. Die Anbieter bedienen primär die Anforderungen großer Unternehmen, welche durch den Einsatz erhebliche Gewinnsteigerungen und / oder Kosteneinsparungen erwarten. Aufgrund nicht vorhandener Mittel zur Lizenzierung von Software im Rahmen des Projektseminars sollte die ausgewählte Software kostenlos erhältlich sein. Zahlreiche Unternehmen räumen Bildungseinrichtungen für ihre Software Rabatte ein. Dahingehende Informationen sind oftmals nicht öffentlich einsehbar, beziehungsweise nur auf Anfrage zu ermitteln. Zu diesem Zweck werden kommerzielle Anbieter von Process-Mining-Software angeschrieben, um Informationen zur Lizenzierung für Bildungseinrichtungen zu erhalten.
Bereitstellung: Im Rahmen des Projektseminars wird nur in sehr geringem Umfang IT-Infrastruktur bereitgestellt. Insbesondere Server zur Installation von Anwendungen stehen nicht zur Verfügung. Als Windows-Clients werden private Notebooks eingesetzt. Daraus folgt, dass Software, welche eine Server-Installation benötigt, voraussichtlich nicht genutzt werden kann. Auf der anderen Seite ist eine schnelle Bereitstellung erforderlich, da aufgrund der begrenzten Laufzeit des Projektseminars eine langwierige Software-Einführung nicht sinnvoll erscheint. Schnell einsetzbare Cloud-Lösungen sind daher zu bevorzugen. Überdurchschnittliche Anforderungen bezüglich des Datenschutzes bestehen nicht.
Referenzen: Aufgrund der Einbettung des Projektseminars in ein Forschungsprojekt ist mit der anschließenden Weiterverwendung der Process-Mining-Software zu rechnen. Da die beteiligten Organisationen, Forschungseinrichtungen und Unternehmen weitergehende Analysen durchführen möchten und diese auch in wirtschaftlicher Hinsicht verwertbar sein sollen, ist praxisnahe Anwendungssoftware einzusetzen. Referenzen, welche diese bereits erfolgreich einsetzen, zeigen die kommerzielle Verwendung und den damit verfügbaren Support auf.
Funktionsumfang: Der schwierigste Untersuchungsgegenstad ist der Funktionsumfang. Alleine das Erstellen einer Liste an Funktionsmerkmalen kann sehr langwierig sein. Bei der Evaluation hinsichtlich eines speziellen Aufgabenprofils, kann die Aufgabe einfacher ausfallen. Da für das Projektseminar bislang keine Analyseszenarien oder Testdaten zur Verfügung stehen, ist eine Prüfung des Funktionsumfangs nicht möglich.
Lernaufwand: Das Projektseminar wird innerhalb eines halben Jahres durchgeführt und ist danach abgeschlossen. In diesem Zeitraum müssen mit den bereitgestellten Daten und der Software nicht nur theoretische Ansätze, sondern auch praktische Erkenntnisse erzielt werden. Zu diesem Zweck sollte insbesondere die Einarbeitung in die Anwendungssoftware schnell erfolgen können. Zwar sind insbesondere Neuentwicklungen im Bereich der Datenanalyse für eine einfache Verwendung konzipiert, jedoch ist dies nicht selbstverständlich.
3.2 Lösungen und Analyse
Im Rahmen einer Webrecherche werden verschiedene Lösungen ermittelt. Tabelle 1 bietet einen Überblick über bekannte Lösungen.
Kosten: Es ist ersichtlich, dass die meisten Lösungen kommerziell vertrieben werden. Nur das ProM Framework ist als Open-Source-Software kostenlos erhältlich. Der deutsche Anbieter Celonis bietet für den Bildungsbereich Partnerschaften mit interessierten Hochschulen an. Bei einer solchen wird eine Cloud-Installation für wissenschaftliche Zwecke bereitgestellt. Für das Produkt QPR ProcessAnalyzer (Xpress) erfolgte eine Anfrage bezüglich der möglichen Lizenzierung für den Bildungsbereich (Stand: 17.10.2014).
Bereitstellung: Die Bereitstellung der Anwendungen erfolgt auf unterschiedliche Art. Die meisten sind in eine Produktfamilie des Anbieters eingebettet. Dies sind insbesondere große Software- und System-Anbieter. Dabei wurden einige Produkte durch Unternehmensübernahmen in das bestehende Lösungsportfolio integriert. Verschiedene ergänzende Server- und Anwendungssysteme erfordern eine relativ komplexe Einführung der Produkte (3, 4, 7, 8). Produkte zur Installation auf dem Desktop können mit geringem Aufwand in Betrieb genommen werden (2, 5, 6). Im Falle von Cloud-Lösungen wird die Serveranwendung vom Anbieter entweder als Multi-Tenant-Lösung oder als Managed-Service bereitgestellt. Als Frontend kommt entweder eine Desktop-Software oder eine Webanwendung zum Einsatz (1, 6).
Referenzen: Das ProM-Framwork ist aufgrund der allgemeinen Verfügbarkeit und hinsichtlich des Umfangs und der Erweiterbarkeit durch Plug-Ins im akademischen Bereich die meistgenutzte Lösung. Die Entwicklung wird vom in dieser Arbeit vielzitierten Wil van der Aalst von der Technischen Universität Eindhoven (Niederlande) geleitet. Celonis kommt als deutscher Anbieter insbesondere bei deutschen bzw. deutschsprachigen Unternehmen und Organisationen zum Einsatz.
Funktionsumfang und Lernaufwand: Der Funktionsumfang und Lernaufwand wird nach Auswahl geeigneter Lösungen im Rahmen des Projektseminars evaluiert.
3.3 Auswahl und Einführung
Aufgrund der Beschränkung auf kostenlose Tools kommen bislang Celonis und ProM in Betracht. Für QPR ProcessAnalyzer wurde der deutsche Vertriebspartner kontaktiert. (Stand: 17.10.2014). Im weiteren Verlauf des Projektseminars müssen die verschiedenen Lösungen praktisch evaluiert werden. Aufgrund der Zusammenarbeit sowohl akademischer, als auch kommerzieller Partner im Rahmen des Projektseminars bietet sich die Kombination verschiedener Software-Tools an. So kann früh sichergestellt werden, dass die unterschiedlichen Interessen der Projektpartner berücksichtigt werden.
Die Einführung und Nutzung der Lösungen bedarf keines größeren administrativen Aufwands. Als Desktop- oder Cloud-Software ist eine schnelle Nutzung gegeben.
Darüber hinaus kann der Einsatz einer Software-Lösung zum Zwecke der Modellierung von Geschäftsprozessen sein. Zwar bieten die Lösungen die grafische Ausgabe der Prozesse. Zur weiteren Verarbeitung, insbesondere in Kombination mit anderen Prozessen, könnte aber eine Überführung in andere Software notwendig werden. Inwiefern dies im Rahmen des Projektseminars erforderlich wird, lässt sich zum Zeitpunkt der Fertigstellung dieser Arbeit nicht feststellen. Für die Modellierung von Geschäftsprozessen existiert eine hohe Anzahl verschiedener ausgereifter Softwarelösungen, insofern sollte eine Auswahl auch kurzfristig möglich sein.
4 Zusammenfassung und Fazit
Die Arbeit liefert zwei unterschiedliche Ergebnisse: Zum einen dient sie als Übersicht über das Thema Process-Mining, insbesondere im Vorgriff auf das Projektseminar. Es wird ein Überblick über das Thema und die grundlegenden Vorgehensweisen gegeben. Der zweite Teil dieser Arbeit dient der Auswahl einer geeigneten Anwendungssoftware für das Process-Mining. Mit dieser sollen während des Projektseminars Ereignisprotokolle ausgewertet werden.
Process-Mining ist die Kombination des Prozessmanagements mit dem Data-Mining. Im herkömmlichen Prozessmanagement werden Geschäftsprozesse händisch, beispielsweise durch Befragungen, modelliert. Im Falle des Process-Mining werden Ereignisprotokolle von Anwendungssystemen mit Hilfe spezieller Software-Tools automatisiert ausgewertet und die ermittelten Prozesse grafisch dargestellt. Dies ermöglicht eine deutlich verkürzte Analyse bestehender Prozesse. Am häufigsten wird diese Vorgehensweise zur Modellierung von Prozessen genutzt. Es sind jedoch auch weitere Nutzungsszenarien, wie die Prüfung der Einhaltung definierter Prozesse, möglich. In Zeiten knapper werdender Budgets bedarf es neuer Ansätze zur effektiven und effizienten Modellierung von Geschäftsprozessen. Bei Nutzung des Process-Mining im Rahmen des Geschäftsprozessmanagements ist eine deutlich schnellere Prozesserkennung und -modellierung möglich.
Trotz der noch jungen Domäne des Process-Mining existieren bereits verschiedene Softwarelösungen. Dabei ist aufgrund des Umfangs insbesondere ProM von besonderer Bedeutung. Als Referenztool der Wissenschaft dient es als Grundlage mehrerer wissenschaftlicher Arbeiten. Daneben konzentrieren sich verschiedene kommerzielle Lösungen auf die Verwendung zur klassischen Unterstützung im Geschäftsprozessmanagement, insbesondere in Verbindung mit ERP-Systemen. Das Projektseminar kombiniert wissenschaftliche und wirtschaftliche Ziele und Methoden. Die Berücksichtigung mehrerer Softwarelösungen liegt nahe.
Zusammen mit Projektseminararbeiten anderer Studierender fasst diese Arbeit theoretische Grundlagen für das Projektseminar zusammen. Darüber hinaus wird eine Vorauswahl geeigneter Software für das Process-Mining getroffen. In Kombination mit einer zuvor entstandenen Seminararbeit des Autors zum Thema RFID und Big Data sind zudem weitere Anwendungsbereiche zur Auswertung von RFID-Daten denkbar.
Literaturverzeichnis
- Aalst, W.M.P. van der, 2011. Process Mining, Springer.
- Brocke, J., 2013. Prozessmanagement (Business Process Management). Available at: http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/Informationsmanagement/Informationsmanagement--Aufgaben-des/Prozessmanagement [Accessed August 21, 2014].
- Chamoni, P., 2013. Data Mining. Enzyklopädie der Wirtschaftsinformatik. Available at: http://www.enzyklopaedie-der-wirtschaftsinformatik.de/wi-enzyklopaedie/lexikon/daten-wissen/Business-Intelligence/Analytische-Informationssysteme--Methoden-der-/Data-Mining/index.html [Accessed August 4, 2014].
- Marbán, Ó., Mariscal, G. & Segovia, J., 2009. A Data Mining & Knowledge Discovery Process Model. In J. Ponce & A. Karahoca, eds. Data Mining and Knowledge Discovery in Real Life Applications. pp. 1–17.
- Venus, N., 2014. Data Mining - Softwarevergleich. Julius-Maximilians-Universität Würzburg.
- Weber, J., 2007. Process Mining - Status quo und Perspektiven. Technische Universität Dresden.