Was ist ein Data Science Prototyp?

Ein Data Science Prototyp ist vor allem eins: Nicht perfekt! Mindestanforderungen dürfen zwar ambitioniert, aber keinesfalls unrealistisch sein. Zudem enthält ein Data Science Prototyp meist keine Live-Anbindung an Datenquellen, sondern wird auf Datenextrakten erstellt. Um zu früh viel Budget in Eigenentwicklung zu stecken, greift man in der Regel auf vorhandene Tools und Open-Source Libraries zurück.

Idee des Prototyps

Einer der weltweit bekanntesten Erfinder ist die Comicfigur Daniel Düsentrieb. Daniel Düsentrieb gilt als zerstreut, etwas verrückt, aber mit unendlich vielen Ideen für neue Erfindungen. Und so kommt es, dass Daniel Düsentrieb in der Geschichte jeden Tag mit einer neuen Erfindung um die Ecke kommt, welche sein eigenes und das Leben seiner Liebsten verbessern soll. Dabei sind seine Kreationen keinesfalls reif für die Massenproduktion, sondern entsprechen immer dem Stand eines Prototyps.

Als Prototyp versteht man eine stark vereinfachte und experimentelle Version eines neuen Produkts oder Services. Das Ziel eines Prototyps besteht darin, eine Idee zu einem frühen Zeitpunkt zu testen und Feedback zu sammeln. Nur so kann sichergestellt werden, dass ein Produkt den gewünschten Nutzen bringt und lohnt weiterzuentwickeln. Darüber hinaus verbessert ein Prototyp das gemeinsame Verständnis aller Beteiligten im Entwicklungsprozess und schärft das Vorstellungsvermögen vom späteren Endergebnis. Letzteres ist vor allem bei Dienstleistungen oder digitalen Produkten herausfordernd, da diese nicht mit den Händen greifbar sind.

Bei der Entwicklung von Apps und Webseiten gehören Prototypen zum Alltag. Oft kommen Click-Dummies zum Einsatz, wodurch Klickpfade durch die geplante Applikation auch ohne eine Zeile Code realistisch dargestellt werden können.

Data Science Prototyp

Ein Prototyp im Bereich Data Science ist eine vereinfachte Umsetzung einer Produktidee oder eines Services, bei denen Daten ein elementarer Bestandteil sind. Aus diesem Grund müssen Daten bereits bei der Entwicklung eines Prototyps integriert werden. Somit ist ein Prototyp in Data Science meist mehr als "nur" ein Click-Dummy!

Drei unterschiedliche Beispiele für einen Data Science Prototyp:

  • Die Entwicklung eines Machine Learning Modells, das eine Mindestanforderung erfüllt. Durch die Definition einer Mindestanforderung nennt man diese Art von Prototyp Proof of Concept (PoC). Eine Idee wird anhand von spezifizierten Kriterien getestet.

    Ein konkretes Beispiel wäre die Erstellung eines Modells zur Vorhersage der Bestellmengen eines Onlineshops. Eine mögliche Vorgabe wäre, dass das Modell die Bestellmengen des nächsten Monats mit einer maximalen Abweichung von 17% vorhersagen kann, damit sich der anschließende Entwicklungsaufwand für den produktiven Einsatz lohnt. Der PoC gilt als erfolgreich, wenn die Anforderung auf unabhängigen Testdaten erfüllt wird.
  • Die Entwicklung eines BI Dashboards mit Beispieldaten. Bei einem Prototyp für ein Business Intelligence System beschäftigt man sich einerseits mit der Definition geeigneter Metriken. Andererseits werden passende Visualisierungen gesucht und Beispieldaten in einem echten Dashboard platziert. Der Prototyp kann normalerweise ohne Eigenentwicklung in vielen Analysetools schnell erstellt werden. Anders als im ersten Beispiel, wird in diesen Use Cases schnell etwas visuell sichtbar. Der Prototyp enthält weder eine direkte Anbindung an produktive Datenquellen, noch wird das Dashboard automatisch mit neuen Daten gefüttert.
  • Die Entwicklung einer Pipeline zur Datenverarbeitung. Ein Prototyp ist sinnvoll, wenn Daten aus verschiedenen Systemen extrahiert, kombiniert, transformiert und am Ende in ein weiteres System übertragen werden sollen. Die Aufgabe ist es, eine einfache Pipeline aus den einzelnen Verarbeitungsschritten abzubilden, die deterministisch abläuft. Der Prototyp bringt Erkenntnisse zu notwendigen Verarbeitungsschritten, vorhandenen Datenstrukturen oder Anforderungen an das Zielsystem. Deshalb nennt man diese Art auch den funktionalen Prototyp. Das Ziel ist dann erreicht, wenn kleine Datenmengen die Pipeline durchlaufen und im Zielsystem ankommen.

Das oberste Ziel eines Data Science Prototyps ist Schnelligkeit. In kurzer Zeit soll mit überschaubarem Budget eine möglichst realistische Einschätzung zum geplanten, digitalen Produkt oder Dienstleistung erzielt werden. Dabei spielen technische Umsetzbarkeit sowie wirtschaftliche Beurteilung gleichermaßen eine wichtige Rolle. Denn eine aufwendige Eigenentwicklung macht nur Sinn, wenn die benötigten Daten sowie die IT-Infrastruktur vorhanden sind und das Unternehmen letztendlich einen wirtschaftlichen Mehrwert erzielen kann.

Geeignete Tools für einen Data Science Prototyp

Eine umfangreiche Eigenentwicklung sollte in der Prototypphase vermieden werden. Stattdessen kann man viele Tools nutzen, die im Unternehmen bereits verwendet werden.

Folgende Programme und Frameworks sind zur Erstellung eines Data Science Prototyp geeignet:

Obwohl Daniel Düsentrieb immer sagt "Dem Ingenieur ist nichts zu schwör!" lohnt es sich, neue "Erfindungen" mit einem Prototyp zu beginnen. So ist es auch bei kosteneffizienten Data Science Projekten.

Wir helfen euch gerne bei der Entwicklung neuer Ideen und der Erstellung eines Data Science Prototyps. Starten wir doch mit einem unverbindlichen Kennenlernen!

Dieser Artikel wurde verfasst von:
Author image

Sarah Stemmler

Mit meiner Leidenschaft für Menschen, Daten & Tools, helfe ich Unternehmen Data Science Kompetenz inhouse aufzubauen.
Abonnement hinzugefügt synsugar
Super! Schließe den Checkout ab um vollen Zugriff zu erhalten synsugar
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.