Data Science Toolkit

Für den Job als Data Scientist gehören Tools zum Alltag. Welche Tools man für welche Tätigkeit verwendet, erkläre ich in diesem Artikel.

Man liest bereits viel darüber, welche Skills ein Data Scientist für seinen Job beherrschen muss. Jedoch findet man seltener, mit welchen Tools ein Data Scientist tagtäglich arbeitet. Die Auswahl an verfügbarer Software ist mittlerweile unüberschaubar geworden. Im Folgenden gebe ich eine "kleine" Übersicht, welche Programme nach meiner Erfahrung zur Ausrüstung eines Data Scientists gehören. Die Liste ist nicht vollständig und kann sich über die Zeit hinweg ändern. Wenn du noch ein vermeintlich relevantes Tool vermisst, schreib mir gerne.

Inhalt

Mein persönliches Toolkit ist durch folgendes Emoji gekennzeichnet: 🙌

Entwicklungsumgebungen (IDE's)

Eine Entwicklungsumgebung (engl. Integrated Development Environment - IDE) ist der Bereich, in dem Data Scientists einen Großteil ihrer Arbeitszeit verbringen. Hier werden Daten analysiert und Modelle programmiert.

  • PyCharm: Eine Python-IDE von jetbrains mit kostenloser Community Version. Insbesondere für professionelle Coder geeignet, die viel Wert auf gute Wartbarkeit und hohe Testintegration legen.
  • Visual Studio Code: 🙌 Eine leichtgewichtige IDE von Microsoft, die unabhängig von der Programmiersprache und komplett kostenlos verfügbar ist. Die integrierten Features der Basisversion beschränken sich auf das Wesentliche, können aber um zahlreiche Add-Ons erweitert werden.
  • Jupyter Notebooks: 🙌 Ein browserbasiertes Live-Dokument, wodurch Code direkt ausführbar wird. Text, mathematische Formeln und Charts sind an einem Ort, wodurch Dokumentation im weiteren Sinne überflüssig wird. Unterstützt u.a. Python, R und C++.
  • RStudio: 🙌 Die beliebteste IDE bei R-Liebhabern. Neben dem Code hat man zum Zeitpunkt der Ausführung die gespeicherten Daten und Objekte im Working Environment stets im Blick. Die Standardversion ist kostenlos.
  • Spyder: Die Scientific Python Development Environment, von Wissenschaftler für Wissenschaftler. In meinen Augen das Pendent von RStudio für Python.
  • Notepad++: Ein simpler, auf Windows laufender Editor. Nicht vergleichbar mit einer richtigen IDE. Für Encodings und einfachen Textmanipulationen aber sehr nützlich.
  • Atom: 🙌 Ebenso ein einfach zu nutzender Text-Editor, jedoch plattformunabhängig und so auch für Mac und Linux geeignet.

Analysetools

Um Data Science zu betreiben, muss nicht jeder ein Vollblut-Techie sein. Oftmals können Analysen schon sehr gut mit bestehenden Analysetools umgesetzt werden, insbesondere zur Exploration und Visualisierung der Daten. Es gibt unzählige Analysetools auf dem Markt. Hier mal eine Handvoll ausgewählter Lösungen, denen man als Data Scientist häufiger über den Weg läuft.

  • Excel: Das klassische MS Office-Produkt gehört sicher nicht zu den beliebtesten Tools unter Data Scientists. Dennoch erfüllt es sehr oft einen guten Zweck und ist fast in jedem Unternehmen standardmäßig verfügbar.
  • Google Sheets: 🙌 Die Excel-Alternative für Personen ohne Office-Lizenz. Läuft ausschließlich in der Cloud und bietet kollaboratives Arbeiten mehrerer Personen gleichzeitig. Für schönere Visualisierungen kann man Sheets mit Google Data Studio verknüpfen.
  • Tableau: Eins der bekanntesten BI Tools auf dem Markt. Daten lassen sich so in interaktiven Dashboards oder über visuelle Analysen erforschen.
  • QlikView: Sehr ähnlich zu Tableau ist QlikView. Es wird ebenso zur Visualisierung von Daten und Analyseergebnissen verwendet.
  • PowerBI: Das BI-Tool von Microsoft. Gut zu verknüpfen mit anderen Produkten von Microsoft.

Git

Sobald Programmcode umfangreicher und komplexer wird, sollte man sich eine gute Strategie überlegen diesen zu verwalten. Dies betrifft Data Science ebenso wie Softwareentwicklung. Git ist eine Möglichkeit Code und kleinere Datenbestände versioniert und an einem zentralen Ort abzulegen. Insbesondere für die Zusammenarbeit in Teams ist dies ratsam, denn Git erfasst jede Änderung und prüft vor der Zusammenführung auf Kompatibilität.

  • GitHub: 🙌 Ist die bekannteste Plattform für eine Git-basierte Codeverwaltung. Seit Ende 2018 gehört GitHub zu Microsoft.
  • GitLab: Der kleine Bruder und eine Alternative zu GitHub. Auf die feinen Unterschiede zu GitHub werde ich hier aber nicht eingehen.
  • Bitbucket: Das Git-Verwaltungstool von Atlassian. Wer bereits andere Dienste von Atlassian, wie Jira und Confluence nutzt, hat durch die einfache Integration mit diesem Tool einen Vorteil.

Projektorganisation

Genau wie in anderen Projekten ist es auch bei Data Science wichtig die einzelnen Aufgaben und den Projektstand im Überblick zu halten. Vor allem wenn man als Team gemeinsam an einem Projekt arbeitet werden Absprachen und Koordination wichtiger. Hierbei helfen Projektmanagement-Tools.

  • Jira: Ein sehr umfragreiches Projektmanagementtool von Atlassian. Für größere Teams und IT-Unternehmen gut geeignet. Lässt sich mit anderen Produkten von Atlassian gut kombinieren.
  • Trello: 🙌 Für die Aufgabenorganisation in kleinen und mittelgroßen Teams. Im Vergleich zu Jira um einiges leichtgewichtiger.
  • Asana: Ein guter Mittelweg zwischen Jira und Trello.

Wiki

Auch wenn Einige es nicht so gerne tun, dokumentieren ist wichtig, auch bei Data Science. Neben einer guten Programmdokumentation im Code, gehört es auch dazu wichtige Projektinformationen niederzuschreiben. Mit einem Wiki wird wertvolles Wissen an einer Stelle gebündelt. Findet man für sich das richtige Tool, macht das Dokumentieren sogar Spaß.

  • Confluence: 🙌 Ein umfangreiches Wiki von Atlassian mit schlankem Editor und vielen zusätzlichen Add-Ons im Marketplace.
  • OneNote: Kein Wiki aber immerhin ein digitales Notizheft. OneNote von Microsoft kann in Office 365 von mehreren Personen gleichzeitig verwendet werden. Die Notizen bleiben so immer synchronisiert.
  • Evernote: Ein digitales Notizbuch und eine gute Alternative zu Confluence oder OneNote. Dieses Tool wird häufig in Schulen verwendet.

Kommunikation

Kommunikation ist das A und O. So ist es auch in Data Science. Als Data Scientists muss man sich täglich mit Teammitgliedern oder Auftraggebern abstimmen. Nicht immer ist es möglich oder sinnvoll sich persönlich mit seinen Kollegen und Ansprechpartnern zu treffen. Dafür gibt es mittlerweile tolle Lösungen, welche die Kommunikation weltweit und in Echtzeit ermöglichen.

  • Slack: 🙌 Derzeit eins der meist genutzten Kommunikationstools in der Unternehmenswelt. Enthält u.a. Gruppenchat, Direktchat, Telefonie und das Teilen von Dokumenten.
  • Microsoft Teams: Die Slack-Alternative von Microsoft und in jeder Office365 Lizenz enthalten.
  • Zoom: Ein reines Video-Konferenzsystem mit zahlreichen Funktionen für kleinere sowie größere Teammeetings.
  • WebEx: Ebenso ein auf Video-Konferenzen spezialisiertes Tool von Cisco.
  • Google Meet: 🙌 Das Video-Konferenzsystem von Google, das in der G Suite-Lizenz enthalten ist.

Design

Data Scientists sind keine Designer. Dennoch fallen ab und zu Aufgaben an, die denen von Digitaldesignern oder UX Designern ähneln. Zur Erstellung von Konzepten zum Datenfluss, der Visualisierung von Datenbankmodellen oder dem Sketchen von Dashboards sind Design-Tools auch für Data Scientists sehr nützlich.

  • Powerpoint: Das gute, alte Powerpoint von Microsoft. Geliebt von Beratern, verpönt bei Entwicklern. Jedoch lassen sich hiermit ziemlich fix Diagramme und Konzepte erstellen und fast jedes Unternehmen hat es installiert.
  • Keynote: Die Powerpoint-Alternative für alle Nutzer von Mac. Hiermit lässt sich genauso gut arbeiten, wie mit Powerpoint.
  • Draw.io: 🙌 Für die schnelle und einfache Erstellung von Diagrammen. Einfach zu integrieren mit Confluence und Jira.
  • Balsamiq: UI Design und Wireframing mit Balsamiq. Erste Entwürfe von Dashboards lassen sich hierin schnell umsetzen.
  • figma: Ein reines Online-Design Tool spezialisiert auf kollaborative Arbeit an Entwürfen. Kann gut zur Erstellung von Mock-Ups für Dashboards genutzt werden.
  • miro: Ein Online-Whiteboard für kollaboratives Brainstorming mit Teammitgliedern. So gelingt nun jeder Workshop auch remote.

Tools zu besitzen ist eine Sache, sie richtig zu nutzen eine andere. Immer wieder stelle ich fest, dass Data Scientists und Analysten ihre bestehende Toolbox nicht effizient nutzen. Oft fehlt es den Mitarbeitern an Zeit sich ordentlich mit den Produkten auseinander zu setzen, was sich in einer schwachen Produktivität auswirkt. Unternehmen zahlen häufig sehr hohe Lizenzgebühren und dennoch kennen viele Mitarbeiter die wichtigsten Handgriffe nicht, geschweige denn, wie man die Tools effizient miteinander verknüpft.

Mit vielen der oben genannten Tools arbeite ich seit einigen Jahren Tag für Tag. Wenn ihr Schulungsbedarf habt oder ihr eine Beratung für ein geeignetes Toolkit für eure Data Science Abteilung wünscht, kontaktiert mich einfach.

Dieser Artikel wurde verfasst von:
Author image

Sarah Stemmler

Mit meiner Leidenschaft für Menschen, Daten & Tools, helfe ich Unternehmen Data Science Kompetenz inhouse aufzubauen.
Abonnement hinzugefügt synsugar
Super! Schließe den Checkout ab um vollen Zugriff zu erhalten synsugar
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.