Big Data mit Apache Spark verarbeiten 13.11.2017, 00:00 Uhr

Das iPhone der Datenwelt

Was nur macht Apache Spark so revolutionär? Seine Fähigkeit, die Big-Data-Landschaft zu verändern.

Über Apache Spark wird viel geschrieben. Die einen preisen die In-Memory-Fähigkeiten, andere schwärmen vom Laufzeitverhalten. Was jedoch Apache Spark wirklich ausmacht, ist, dass es einen ähnlichen Effekt auf die Big-Data-Industrie hatte wie das iPhone auf die Handy-Industrie: Mit der ersten Version stand für viele Anwendungen eine einheitliche Lösung parat.

Vor Apache Spark war das Big-Data-Ökosystem ein regelrechter Zoo. Für jede Anwendung musste eine neue Technologie erlernt werden. Für Batch-Processing gab es MapReduce [1], für Streaming Apache Storm [2]. Maschinelles Lernen wurde mit Mahout [3] abgewickelt und Giraph [4] war die Standard-Graph-Engine. Daneben gab es unterschiedliche Technologien, die Daten aus unterschiedlichen Datenquellen in Hadoop luden, und dazu noch mehrere SQL-Engines. Man brauchte mehrere Entwickler, die all diese Technologien beherrschten. Mit Apache Spark stand dann ein Framework zur Verfügung, das alle Formen der Datenverarbeitung und darauf aufbauende Analytics-Anwendungen in einer Basistechnologie vereinte.

Jetzt 1 Monat kostenlos testen!

Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.

+ Digitales Kundenkonto,
+ Zugriff auf das digitale Heft,
+ Zugang zum digitalen Heftarchiv,
+ Auf Wunsch: Weekly Newsletter,
+ Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar