Data Science Toolkit

F├╝r den Job als Data Scientist geh├Âren Tools zum Alltag. Welche Tools man f├╝r welche T├Ątigkeit verwendet, erkl├Ąre ich in diesem Artikel.

Man liest bereits viel dar├╝ber, welche Skills ein Data Scientist f├╝r seinen Job beherrschen muss. Jedoch findet man seltener, mit welchen Tools ein Data Scientist tagt├Ąglich arbeitet. Die Auswahl an verf├╝gbarer Software ist mittlerweile un├╝berschaubar geworden. Im Folgenden gebe ich eine "kleine" ├ťbersicht, welche Programme nach meiner Erfahrung zur Ausr├╝stung eines Data Scientists geh├Âren. Die Liste ist nicht vollst├Ąndig und kann sich ├╝ber die Zeit hinweg ├Ąndern. Wenn du noch ein vermeintlich relevantes Tool vermisst, schreib mir gerne.

Inhalt

Mein pers├Ânliches Toolkit ist durch folgendes Emoji gekennzeichnet: ­čÖî

Entwicklungsumgebungen (IDE's)

Eine Entwicklungsumgebung (engl. Integrated Development Environment - IDE) ist der Bereich, in dem Data Scientists einen Gro├čteil ihrer Arbeitszeit verbringen. Hier werden Daten analysiert und Modelle programmiert.

  • PyCharm: Eine Python-IDE von jetbrains mit kostenloser Community Version. Insbesondere f├╝r professionelle Coder geeignet, die viel Wert auf gute Wartbarkeit und hohe Testintegration legen.
  • Visual Studio Code: ­čÖî Eine leichtgewichtige IDE von Microsoft, die unabh├Ąngig von der Programmiersprache und komplett kostenlos verf├╝gbar ist. Die integrierten Features der Basisversion beschr├Ąnken sich auf das Wesentliche, k├Ânnen aber um zahlreiche Add-Ons erweitert werden.
  • Jupyter Notebooks: ­čÖî Ein browserbasiertes Live-Dokument, wodurch Code direkt ausf├╝hrbar wird. Text, mathematische Formeln und Charts sind an einem Ort, wodurch Dokumentation im weiteren Sinne ├╝berfl├╝ssig wird. Unterst├╝tzt u.a. Python, R und C++.
  • RStudio: ­čÖî Die beliebteste IDE bei R-Liebhabern. Neben dem Code hat man zum Zeitpunkt der Ausf├╝hrung die gespeicherten Daten und Objekte im Working Environment stets im Blick. Die Standardversion ist kostenlos.
  • Spyder: Die Scientific Python Development Environment, von Wissenschaftler f├╝r Wissenschaftler. In meinen Augen das Pendent von RStudio f├╝r Python.
  • Notepad++: Ein simpler, auf Windows laufender Editor. Nicht vergleichbar mit einer richtigen IDE. F├╝r Encodings und einfachen Textmanipulationen aber sehr n├╝tzlich.
  • Atom: ­čÖî Ebenso ein einfach zu nutzender Text-Editor, jedoch plattformunabh├Ąngig und so auch f├╝r Mac und Linux geeignet.

Analysetools

Um Data Science zu betreiben, muss nicht jeder ein Vollblut-Techie sein. Oftmals k├Ânnen Analysen schon sehr gut mit bestehenden Analysetools umgesetzt werden, insbesondere zur Exploration und Visualisierung der Daten. Es gibt unz├Ąhlige Analysetools auf dem Markt. Hier mal eine Handvoll ausgew├Ąhlter L├Âsungen, denen man als Data Scientist h├Ąufiger ├╝ber den Weg l├Ąuft.

  • Excel: Das klassische MS Office-Produkt geh├Ârt sicher nicht zu den beliebtesten Tools unter Data Scientists. Dennoch erf├╝llt es sehr oft einen guten Zweck und ist fast in jedem Unternehmen standardm├Ą├čig verf├╝gbar.
  • Google Sheets: ­čÖî Die Excel-Alternative f├╝r Personen ohne Office-Lizenz. L├Ąuft ausschlie├člich in der Cloud und bietet kollaboratives Arbeiten mehrerer Personen gleichzeitig. F├╝r sch├Ânere Visualisierungen kann man Sheets mit Google Data Studio verkn├╝pfen.
  • Tableau: Eins der bekanntesten BI Tools auf dem Markt. Daten lassen sich so in interaktiven Dashboards oder ├╝ber visuelle Analysen erforschen.
  • QlikView: Sehr ├Ąhnlich zu Tableau ist QlikView. Es wird ebenso zur Visualisierung von Daten und Analyseergebnissen verwendet.
  • PowerBI: Das BI-Tool von Microsoft. Gut zu verkn├╝pfen mit anderen Produkten von Microsoft.

Git

Sobald Programmcode umfangreicher und komplexer wird, sollte man sich eine gute Strategie ├╝berlegen diesen zu verwalten. Dies betrifft Data Science ebenso wie Softwareentwicklung. Git ist eine M├Âglichkeit Code und kleinere Datenbest├Ąnde versioniert und an einem zentralen Ort abzulegen. Insbesondere f├╝r die Zusammenarbeit in Teams ist dies ratsam, denn Git erfasst jede ├änderung und pr├╝ft vor der Zusammenf├╝hrung auf Kompatibilit├Ąt.

  • GitHub: ­čÖî Ist die bekannteste Plattform f├╝r eine Git-basierte Codeverwaltung. Seit Ende 2018 geh├Ârt GitHub zu Microsoft.
  • GitLab: Der kleine Bruder und eine Alternative zu GitHub. Auf die feinen Unterschiede zu GitHub werde ich hier aber nicht eingehen.
  • Bitbucket: Das Git-Verwaltungstool von Atlassian. Wer bereits andere Dienste von Atlassian, wie Jira und Confluence nutzt, hat durch die einfache Integration mit diesem Tool einen Vorteil.

Projektorganisation

Genau wie in anderen Projekten ist es auch bei Data Science wichtig die einzelnen Aufgaben und den Projektstand im ├ťberblick zu halten. Vor allem wenn man als Team gemeinsam an einem Projekt arbeitet werden Absprachen und Koordination wichtiger. Hierbei helfen Projektmanagement-Tools.

  • Jira: Ein sehr umfragreiches Projektmanagementtool von Atlassian. F├╝r gr├Â├čere Teams und IT-Unternehmen gut geeignet. L├Ąsst sich mit anderen Produkten von Atlassian gut kombinieren.
  • Trello: ­čÖî F├╝r die Aufgabenorganisation in kleinen und mittelgro├čen Teams. Im Vergleich zu Jira um einiges leichtgewichtiger.
  • Asana: Ein guter Mittelweg zwischen Jira und Trello.

Wiki

Auch wenn Einige es nicht so gerne tun, dokumentieren ist wichtig, auch bei Data Science. Neben einer guten Programmdokumentation im Code, geh├Ârt es auch dazu wichtige Projektinformationen niederzuschreiben. Mit einem Wiki wird wertvolles Wissen an einer Stelle geb├╝ndelt. Findet man f├╝r sich das richtige Tool, macht das Dokumentieren sogar Spa├č.

  • Confluence: ­čÖî Ein umfangreiches Wiki von Atlassian mit schlankem Editor und vielen zus├Ątzlichen Add-Ons im Marketplace.
  • OneNote: Kein Wiki aber immerhin ein digitales Notizheft. OneNote von Microsoft kann in Office 365 von mehreren Personen gleichzeitig verwendet werden. Die Notizen bleiben so immer synchronisiert.
  • Evernote: Ein digitales Notizbuch und eine gute Alternative zu Confluence oder OneNote. Dieses Tool wird h├Ąufig in Schulen verwendet.

Kommunikation

Kommunikation ist das A und O. So ist es auch in Data Science. Als Data Scientists muss man sich t├Ąglich mit Teammitgliedern oder Auftraggebern abstimmen. Nicht immer ist es m├Âglich oder sinnvoll sich pers├Ânlich mit seinen Kollegen und Ansprechpartnern zu treffen. Daf├╝r gibt es mittlerweile tolle L├Âsungen, welche die Kommunikation weltweit und in Echtzeit erm├Âglichen.

  • Slack: ­čÖî Derzeit eins der meist genutzten Kommunikationstools in der Unternehmenswelt. Enth├Ąlt u.a. Gruppenchat, Direktchat, Telefonie und das Teilen von Dokumenten.
  • Microsoft Teams: Die Slack-Alternative von Microsoft und in jeder Office365 Lizenz enthalten.
  • Zoom: Ein reines Video-Konferenzsystem mit zahlreichen Funktionen f├╝r kleinere sowie gr├Â├čere Teammeetings.
  • WebEx: Ebenso ein auf Video-Konferenzen spezialisiertes Tool von Cisco.
  • Google Meet: ­čÖî Das Video-Konferenzsystem von Google, das in der G Suite-Lizenz enthalten ist.

Design

Data Scientists sind keine Designer. Dennoch fallen ab und zu Aufgaben an, die denen von Digitaldesignern oder UX Designern ├Ąhneln. Zur Erstellung von Konzepten zum Datenfluss, der Visualisierung von Datenbankmodellen oder dem Sketchen von Dashboards sind Design-Tools auch f├╝r Data Scientists sehr n├╝tzlich.

  • Powerpoint: Das gute, alte Powerpoint von Microsoft. Geliebt von Beratern, verp├Ânt bei Entwicklern. Jedoch lassen sich hiermit ziemlich fix Diagramme und Konzepte erstellen und fast jedes Unternehmen hat es installiert.
  • Keynote: Die Powerpoint-Alternative f├╝r alle Nutzer von Mac. Hiermit l├Ąsst sich genauso gut arbeiten, wie mit Powerpoint.
  • Draw.io: ­čÖî F├╝r die schnelle und einfache Erstellung von Diagrammen. Einfach zu integrieren mit Confluence und Jira.
  • Balsamiq: UI Design und Wireframing mit Balsamiq. Erste Entw├╝rfe von Dashboards lassen sich hierin schnell umsetzen.
  • figma: Ein reines Online-Design Tool spezialisiert auf kollaborative Arbeit an Entw├╝rfen. Kann gut zur Erstellung von Mock-Ups f├╝r Dashboards genutzt werden.
  • miro: Ein Online-Whiteboard f├╝r kollaboratives Brainstorming mit Teammitgliedern. So gelingt nun jeder Workshop auch remote.

Tools zu besitzen ist eine Sache, sie richtig zu nutzen eine andere. Immer wieder stelle ich fest, dass Data Scientists und Analysten ihre bestehende Toolbox nicht effizient nutzen. Oft fehlt es den Mitarbeitern an Zeit sich ordentlich mit den Produkten auseinander zu setzen, was sich in einer schwachen Produktivit├Ąt auswirkt. Unternehmen zahlen h├Ąufig sehr hohe Lizenzgeb├╝hren und dennoch kennen viele Mitarbeiter die wichtigsten Handgriffe nicht, geschweige denn, wie man die Tools effizient miteinander verkn├╝pft.

Mit vielen der oben genannten Tools arbeite ich seit einigen Jahren Tag f├╝r Tag. Wenn ihr Schulungsbedarf habt oder ihr eine Beratung f├╝r ein geeignetes Toolkit f├╝r eure Data Science Abteilung w├╝nscht, kontaktiert mich einfach.

Dieser Artikel wurde verfasst von:
Author image

Sarah Stemmler

Mit meiner Leidenschaft f├╝r Menschen, Daten & Tools, helfe ich Unternehmen Data Science Kompetenz inhouse aufzubauen.
Abonnement hinzugef├╝gt synsugar
Super! Schlie├če den Checkout ab um vollen Zugriff zu erhalten synsugar
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.