Wie fange ich mit Daten an?

Bildnachweis: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Wir haben alle das Geräusch gehört.

„Die wertvollste Ressource der Welt ist nicht mehr Öl, sondern Daten“ - The Economist

Könnte sein. Wenn Daten jedoch wie Öl sind, ähnelt der Datenstatus in vielen Organisationen dem folgenden:

Ölverschmutzung durch Deepwater Horizon

Unzählige Datenströme gehen an den Datenozean verloren. Fragen Sie einen Datenwissenschaftler, und er wird Ihnen sagen, dass es am schwierigsten ist, die richtigen Daten zu erfassen. Wie fangen wir an?

1. Stellen Sie die richtigen Fragen

Das Erfassen von Daten ist sowohl verschwenderisch als auch zeitaufwändig. Wir müssen unsere Metriken herausfinden, die auf den Zielen des Geschäfts basieren sollten. Was sind die meistverkauften Produkte? Wo verlassen Benutzer den mehrstufigen Prozess? Wie viele aktive Benutzer haben wir? Viele Unternehmen präsentieren ihren Stakeholdern Kennzahlen, die auf Dingen basieren, die sie messen können (z. B. Umsatz), und nicht unbedingt darauf, was am besten zu ihrer Unternehmensrichtung passt.

Sobald wir wissen, was wir messen möchten, können wir bestimmen, wo wir nach den Daten suchen sollen, und Schritte planen, um mit der Erfassung der relevanten Daten zu beginnen.

2. Stellen Sie eine datengesteuerte Kultur bereit

Sobald eine Organisation eine bestimmte Größe erreicht hat, kann sie sich nicht mehr nur auf das „Bauchgefühl“ verlassen. Entscheidungen sollten auf Daten basieren und diese Daten müssen allen Ebenen zur Verfügung stehen.

Können Mitarbeiter auf die Daten und Metriken zugreifen oder stehen sie hinter unzähligen Sicherheits- und Bürokratieebenen? Die Mitarbeiter sollten befugt sein, Daten in Datensätzen zu untersuchen (die anonymisiert und geschützt werden sollten, um die Privatsphäre zu respektieren). Hierfür ist eine firmeninterne Self-Service-Analyseplattform ideal. Diese Arbeit muss offen und transparent sein. Es ist unerlässlich, die Arbeit auf einem Dashboard zu platzieren und organisationsweit zu teilen.

Organisationen müssen Unterstützung, Ermutigung und Ressourcen für diese Art von Arbeit bereitstellen. Das bedeutet Zeit und Geld, aber eine datengetriebene Kultur wird eine fundiertere Entscheidungsfindung fördern.

3. Stellen Sie Dateningenieure ein

Es ist ein häufiger Mangel von Organisationen, Datenwissenschaftler und keine Dateningenieure einzustellen. Datenwissenschaftler sind absolut kritisch, sie können Muster in Daten finden, Ergebnisse vorhersagen und Modelle schreiben, die lernen können, sich selbst zu verbessern. Die Einschränkung ist, dass alles von Qualitätsdaten abhängt. Daten, die nur über Big Data-Infrastruktur, ETL und die Programmierung automatisierter Workflows abgerufen werden können. Dies ist normalerweise die Rolle des Dateningenieurs. Geben Sie die Arbeit den Menschen, die dafür qualifiziert sind, und, was noch wichtiger ist, genießen Sie es.

4. Fangen Sie klein und billig an

Es kann sehr verlockend sein, in den Big-Data-Hype-Zug einzusteigen, ein Data-Science-Team zu gründen, Enterprise-Analytics-Software zu kaufen und viel Geld auszugeben, ohne dafür etwas zu zeigen. Es kann viel getan werden, bevor eine große Investition getätigt wird. Hier sind einige der Tools, die jedes Unternehmen verwenden kann:

  • Javascript Analytics-Bibliotheken wie Mixpanel oder Amplitude. Es ist bis zu einer bestimmten Anzahl von monatlichen Benutzern kostenlos.
  • Luftstrom für automatisiertes Workflow-Management. Es wurde von Airbnb entwickelt und bei der Apache Software Foundation inkubiert. Es ist Open Source und ein De-facto-Standard für Dateningenieure.
  • Dashboards, Diagramme und Datenexploration mit Superset (ebenfalls von Apache). Metabase ist auch eine gute Alternative und beide sind Open Source.
  • Databricks Community Edition und Kaggle. Beide können für datenwissenschaftliche Prozesse in der Cloud und kostenlos verwendet werden.
  • Amazon Web Services S3. Nicht kostenlos, aber hier enthalten, da bei den heute entwickelten Technologien nicht immer ein Data Warehouse erforderlich ist. Speicher ist billig und Dienste wie Databricks, MongoDB Data Lake und AWS Athena bedeuten, dass Sie direkt von Ihrem Data Lake lesen können.

Diese Ideen bieten eine gute Grundlage für ein Unternehmen, um die richtigen Daten zu erfassen und deren Wert zu realisieren.