Login
Newsletter
Werbung

Fr, 19. Mai 2017, 11:17

Software::Cloud

Apache Beam 2.0 freigegeben

Die Apache Software Foundation hat Beam zum ersten Mal in einer stabilen Version freigegeben. Beam 2.0.0 ist ein Rahmenwerk, das eine Grundlage für parallele Datenverarbeitung schafft.

Apache Software Foundation

Viele der Projekte der Apache Software Foundation befassen sich mit der Verarbeitung extremer Datenmengen, so viele, dass die jährliche Apache-Konferenz ApacheCon seit 2015 in zwei Teilkonferenzen, die »Apache: Big Data« und die »ApacheCon: Core« aufgeteilt ist, die allerdings gemeinsam stattfinden und von der Linux Foundation organisiert werden.

Auch Apache Beam, das im Januar erst dem Inkubator entwachsen ist und seither die Kriterien der Organisation erfüllt, ist dem »Big Data«-Bereich zuzuordnen. Apache Beam ist ein vereinheitlichtes Programmiermodell zum Erstellen einer parallelen Datenverarbeitungs-Pipeline. Zur Entwicklung der Programme stehen mehrere SDKs zur Verfügung. Neben dem primären SDK für Java ist ein SDK für Python fertiggestellt, andere sind in Arbeit. Die Pipeline wird dann auf einer der unterstützten Engines ausgeführt, zu denen Apache Apex, Apache Flink, Apache Spark und Google Cloud Dataflow gehören. Beam hatte seinen Ursprung offenbar in Google Cloud Dataflow und wird heute unter anderem von Google, Paypal und Talend genutzt.

Version 2.0.0 ist die erste stabile Veröffentlichung von Apache Beam und enthält nochmals einige Verbesserungen gegenüber den vorangegangenen Testversionen. Während die fast ein Jahr dauernde Entwicklung im Inkubator davon geprägt war, den stellenweise chaotisch aus mehreren Quellen zusammengefügten Code zu bereinigen, wurde seither mehr Wert auf Funktionalität und Stabilität gelegt. Laut dem Team ist das Projekt seither gewachsen und zu einem Rahmenwerk gereift, das unabhängig von der verwendeten Engine und der Umgebung ist.

Apache Beam 2.0.0 lässt sich zudem einfacher nutzen und verspricht, die Programmierschnittstellen in allen kommenden Ausgaben von Version 2.x stabil zu halten. Ab dieser Version werden auch Verarbeitungsparadigmen unterstützt, die Zustände speichern, was einige Berechnungen effizienter machen kann. Neu ist auch die Unterstützung für Dateisysteme, die von den Benutzern erweitert werden können, unter anderem für das Hadoop Distributed File System. Außerdem wurde ein Metrik-Subsystem hinzugefügt, um die Ausführung der Pipelines besser messen zu können. Weitere Informationen sowie Download-Möglichkeiten findet man auf der Projektseite.

Werbung
Kommentare (Insgesamt: 0 || Kommentieren )
Pro-Linux
Pro-Linux @Twitter
Neue Nachrichten
Werbung