20. Juli 2021 von Philipp Klüber und Angelika Bogacka
Evaluation innovativer Self-Service-Analytics-Tools – Datendemokratisierung auf neuen Wegen
Projektvorgehen
Die Evaluation begann mit der Klärung der Ausgangssituation und der Erhebung von Anforderungen auf Basis der Erfahrungen mit dem bisher eingesetzten Tool. Dies diente anschließend als Basis für das nachfolgende Marktscreening. Hierbei erfolgte die initiale Bewertung der Anbieter, woraufhin eine erste Vorauswahl getroffen wurde. Die Vendoren wurden näher betrachtet, hinsichtlich ihrer KO-Kriterien begutachtet und in eine Longlist überführt. Anhand wesentlicher Anforderungen, Ausschlusskriterien und anderer kundenindividueller Faktoren wurde die Long- zu einer Shortlist reduziert. Die folgende Abbildung gibt Einblick in die erfolgte Selektierung der Evaluation.
Nach der Festsetzung der Shortlist erfolgte der detaillierte Vergleich der Tools. Dazu wurde auf Basis der Anforderungen ein Kriterienkatalog definiert – inklusive Gewichtung der verschiedenen Anforderungen. Die Kandidaten der Shortlist wurden nun mittels des Katalogs bewertet, der circa 100 Kriterien umfasste.
Um die praxisrelevanten Kriterien aus dem Katalog besser bewerten zu können, wurden gemeinsam mit den Stakeholdern im Rahmen eines Proof of Technology repräsentative Anwendungsfälle ausgewählt und technisch verprobt. So konnten, neben den objektiven und praktischen Erkenntnissen, auch subjektive Eindrücke gewonnen werden. Diese Eindrücke möchten wir im Folgenden mit euch teilen.
Alteryx-Vorstellung | High- und Lowlights
Das Softwareprodukt von Alteryx besteht aus zwei Komponenten, der Serverversion und der Clientinstallation. Die Serverversion kann für das Scheduling von Workflows genutzt werden und ermöglicht eine versionierte gemeinsame Bearbeitung. Die Clientinstallation befähigt die User Workflows lokal zu entwickeln und beinhaltet, bis auf Komponenten der Zusammenarbeit und des Schedulings, denselben Funktionsumfang wie die Serverversion. Im oberen Teil der Tooloberfläche ist eine funktional gegliederte Werkzeugleiste zu finden (1). Die einzelnen Werkzeuge aus der Leiste können auf die grafische Darstellung der Bearbeitungsschritte im Zentrum (2) per Drag and Drop gezogen werden. Wählt man eines der Werkzeuge aus, werden im linken Fenster die möglichen Einstellungen dargestellt (3). Im unteren Teil des Fensters können die ein- und ausgehenden Datenströme (4) eingesehen werden, sodass eine einfache Kontrolle der Werkzeugkonfiguration möglich ist.
Ein nennenswertes Highlight ist die Suchfunktion von Alteryx. Sie umfasst neben Tools und der Herstellerhilfe auch die Einträge der Community. Letzteres ist aufgrund von über 341.000 Posts, mehr als 188.000 Likes und knapp 24.000 Lösungen äußerst positiv hervorzuheben. Mit dieser beeindruckenden Aktivität gewann die Community von Alteryx dieses Jahr auch den Community Industry Award, der von CMX verliehen wird. Alteryx bietet auch die Möglichkeit, Zwischenergebnisse zu cachen. Dies ist insbesondere während der Entwicklung äußerst hilfreich, da somit das Durchlaufen von Workflows erheblich beschleunigt werden kann. Zusätzlich können einzelne Container im Workflow auch ein- und ausgeschaltet werden.
Dagegen ist die deutsche Übersetzung des Tools nicht an jeder Stelle gut gelungen. So wird beispielsweise das gemeinte Wort „Tabulator“ mit „Registerkarte“ im Tool übersetzt. Die englische Einstellung ist jedoch aufgrund der meistens bekannten Terminologie im Data Preparation Umfeld problemlos einsetzbar und für einige Nutzer somit die bessere Option. Die Visual-Query-Verbindung beziehungsweise Datenbankverbindung empfanden wir ebenfalls als ein Lowlight, da diese teilweise sehr langsam ist und entsprechend bei der Bearbeitung stört.
Trifacta – Vorstellung | High- und Lowlights
Trifacta ist eine rein cloudbasierte Softwarelösung. Nach zentraler Installation können die User über den Browser auf das Tool zugreifen. Durch eine moderne Architektur als Cloud-Lösung ist die Skalierung komfortabel möglich. Im Tool existieren zwei wesentliche Ansichten, der grafische Überblick (a) und die Bearbeitungsansicht (b). Der grafische Überblick zeigt den gesamten Workflow, sodass die Zusammenhänge der Inputs, Outputs sowie der einzelnen Recipes (Gruppen von Transformationsschritten) nachvollzogen werden können. Die Bearbeitungsansicht zeigt die einzelnen Anpassungen innerhalb eines Recipes. Dazu wird der Tabelleninhalt in das Zentrum der Ansicht gerückt (1). In dieser Ansicht ist, wie bei Alteryx auch, eine Werkzeugleiste vorhanden (2). Zusätzlich sind die Definition bzw. Anzeige aller einzelnen Schritte zu sehen (3).
Ein besonderes Highlight von Trifacta sind die Vorschläge für Transformationen. In den Tabellen können Inhalte markiert werden, woraufhin das Tool anhand integrierter Machine-Learning-Modelle Vorschläge für mögliche und sinnvolle Transformationen unterbreitet. Dabei werden Änderungen generell in einer Vorschau angezeigt, sodass diese sehr gut nachvollzogen werden können. Zusätzlich ist Trifacta auch in der Lage, Datenformate automatisch zu erkennen. In Kombination kann das Tool somit auch Vorschläge unterbreiten, wie die Daten zu verändern sind, um beispielsweise ein einheitliches Datenformat einzuführen.
Ein Nachteil besteht im Aufbau des Tools. Der Wechsel zwischen den beiden vorgestellten Ansichten erschwert in großen Workflows den Überblick. Zusätzlich dauert der Wechsel verhältnismäßig lange und beeinträchtigt so die Bearbeitung. Diese Unübersichtlichkeit führt sich auch in der fehlenden Möglichkeit der Strukturierung der Dateien und Workflows mittels Ordner fort. Weiterhin kann das Fenster zur Eingabe von Formeln nicht vergrößert oder formatiert werden. Es wächst mit der Eingabe mit, ist aber dennoch aufgrund fehlender Formatierung und grafischer Aufbereitung nicht für komplexe Formeln geeignet. Im Bereich der Formeln wird auch eine für uns etwas ungewohnte Syntax verwendet, was dazu führt, dass Ausdrücke nicht beliebig erweitert werden können. Beispielsweise sind für den Operator „OR“ lediglich zwei Ausdrücke möglich, sodass mehr Oder-Ausdrücke nur durch Verknüpfung mehrerer „OR“-Formeln abgebildet werden können.
Microsoft Power BI Dataflows – Vorstellung | High- und Lowlights
Microsoft Power BI Dataflows hat, ähnlich wie Alteryx, zwei Komponenten. Es existiert eine Onlineversion und eine lokale Komponente. In der Onlineversion kann beispielsweise das Scheduling vorgenommen werden. Ebenso kann hier eine grafische Übersicht des Dataflows dargestellt werden. Die lokale Komponente des Tools bietet bis auf leichte Einschränkungen denselben Funktionsumfang wie die Onlineversion. Das Tool hat, ähnlich wie Trifacta, zwei wesentliche Bearbeitungsansichten – die grafische, übersichtliche Darstellung des gesamten Transformationsprozesses (a) und eine Ansicht zur Bearbeitung (b). Die Bearbeitungsansicht enthält eine Werkzeugleiste (1) mit verschiedenen Reitern, dessen Aufbau an andere, bereits bekannte Microsoft-Anwendungen erinnert. Die verschiedenen Zwischenergebnisse können mittels Ordner (2) strukturiert werden. An dieser Stelle können auch einzelne Tabellen ausgewählt werden. Mittig sind die Tabelleninhalte (3) und rechts die angewendeten Transformationsschritte zu sehen (4).
Microsoft Power BI Dataflows bietet den Vorteil, dass die Oberfläche ähnlich zu anderen Microsoft-Anwendungen aufbereitet und entsprechend bekannt ist. Da Dataflows ein Bestandteil von Power BI ist, stehen im Vergleich zu den anderen evaluierten Tools sehr umfangreiche Visualisierungsmöglichkeiten zur Verfügung.
Dagegen ist der Funktionsumfang der Standardwerkzeuge von Dataflows stark begrenzt. Komplexere Transformationen müssen entsprechend selbst programmiert werden. Allgemein ist eine eigene Programmierung in Dataflows aus unserer Sicht etwas umständlich, da jeweils auf einen vorherigen Schritt referenziert werden muss. Außerdem kann in Dataflows eine Strukturierung bei lokaler Anwendung lediglich über Ordner erfolgen. Dies erschwert den Aufbau größerer Workflows und schränkt die Übersichtlichkeit deutlich ein.
Resümee
Für den Bereich Data Preparation wird das Tool von Alteryx empfohlen, da dieses die Anforderungen optimal erfüllt. Es handelt sich um ein ausgereiftes Tool, welches sich gut für die Datendemokratisierung im Self-Service-Bereich eignet. Wichtige Anforderungen (zum Beispiel Wiederverwendbarkeit oder Programmierungsmöglichkeit) werden erfüllt und mit guter Dokumentation und Community abgerundet.
Im Vergleich dazu ist Trifacta weniger ausgereift, was sich beispielsweise an fehlenden Strukturierungsmöglichkeiten für Workflows und Dateien sowie unzureichenden Syntax-Fehlerrückmeldungen bemerkbar macht. Der moderne Architekturansatz als skalierbare Webanwendung sowie interaktives Arbeiten mit Daten (Vorschläge für Transformationen) stellen die wesentlichen Vorteile dar.
Power BI Dataflows wird nicht für den untersuchten Einsatzzweck empfohlen, da es sich nicht um ein vollumfängliches Data Preparation Tool handelt. Der Einsatzzweck von Dataflows als Datenbearbeitungstool (von vorverarbeiteten Daten) zur Belieferung von Power BI Reports führt dazu, dass wesentliche Anforderungen, wie ein Dateiexport, nicht erfüllt werden. Der Funktionsumfang der Standardwerkzeuge ist aus genanntem Grund ebenfalls eingeschränkt.