Login
Newsletter
Werbung

Do, 23. August 2012, 12:12

Software::Datenbanken

Drill: Apache-Projekt für die Analyse großer Datenmengen vorgeschlagen

Unter dem Dach der Apache Foundation soll Drill entstehen, ein verteiltes System für die Analyse extrem großer Datenmengen. Zur Zeit existiert das Projekt lediglich als Vorschlag.

Apache Software Foundation

Drill soll nach dem Willen seiner Initiatoren im Apache-Inkubator entwickelt werden und irgendwann bei entsprechender Reife den Status eines offiziellen Apache-Projekts erhalten.

Die Initiatoren des Projektes - erfahrene Entwickler aus mehreren Unternehmen - haben sich Google Dremel zum Vorbild genommen. Dremel wird offenbar bei Google intern intensiv genutzt, seine Funktionsweise wurde in einem Artikel beschrieben. Obwohl Googles Implementierung als OpenDremel frei verfügbar ist, wollen die Initiatoren eine eigene Entwicklung starten, da ihr Ziel ist, deutlich flexibler zu sein. Drill soll mehrere Abfragesprachen sowie mehr Datenformate und Datenquellen unterstützen.

Drill soll den großen Bedarf des Marktes nach interaktiven Analysen von extrem großen Datenmengen abdecken. Die Daten können dabei auch verschachtelt sein, beispielsweise im JSON-Format, Avro oder Protocol Buffers. Flache Datenformate wie CSV können dabei als einfacher Spezialfall der Verschachtelung behandelt werden. Die Auswertung von Abfragen muss unter Umständen auf vielen tausend Servern parallel laufen, um in Bruchteilen von Sekunden ein Ergebnis aus den riesigen Datenbeständen zu extrahieren.

Mehrere freie Projekte beschäftigen sich bereits mit der Batch-Verarbeitung (Apache Hadoop) und Stream-Verarbeitung (Storm, Apache S4) von extremen Datenmengen. So ist Hadoop, das von Googles MapReduce inspiriert wurde, in tausenden von Organisationen im Einsatz, aber es besitzt zu lange Ausführungszeiten für die interaktive Analyse. Drill wird als Ergänzung zu Hadoop gesehen. Drill wird nach Ansicht der Entwickler vollständig komplementär zu Hadoop sein und es ergänzen, nicht ersetzen. Es soll zumindest anfänglich sogar Hadoop als Datenquelle einsetzen.

Drill soll mehrere Abfragesprachen unterstützen, wobei man sich anfänglich auf eine SQL-ähnliche Sprache konzentrieren will, die auch von Dremel und Google BigQuery verwendet wird und DrQL genannt werden soll. Aufgrund des hohen Bedarfs erwarten die Initiatoren, dass sich schnell eine Gemeinschaft um das entstehende Projekt entwickeln wird. Interessierte Unternehmen sind aufgefordert, eigene Entwickler für Drill abzustellen. Bis das Projekt in die Gänge kommt, wird es offenbar noch eine Weile dauern.

Werbung
Kommentare (Insgesamt: 0 )
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung