Hadoop Distributed File System (HDFS) ist das primäre Speicherungssystem von Hadoop-Anwendungen. HDFS erzeugt mehrere Kopien der Datenblöcke und verteilt sie auf den Rechenknoten eines Clusters, um zuverlässige und extrem schnelle Berechnungen zu ermöglichen.