Login
Login-Name Passwort


 
Newsletter
Werbung

Mo, 27. November 2017, 08:09

Software::Entwicklung

GitHub: 70 Prozent der Quellen Duplikate

Wie einer aktuellen Untersuchung der University of California entnommen werden kann, sind knapp 70 Prozent der Quellen auf der Hostingplattform GitHub dupliziert und enthalten keine wesentlichen Änderungen. GitHub selbst versteht sich als ein Marktplatz der Ideen und ermuntert die Nutzer dazu, Quellen zu forken und zu modifizieren.

GitHub

GitHub stellt eine von Chris Wanstrath, PJ Hyett und Tom Preston-Werner mittels Ruby on Rails entwickelte Plattform zum verteilten Entwickeln von Softwareprojekten dar. Schon ein Jahr nach der Gründung konnte der Dienst über 135.000 verschiedene Repositorien mit insgesamt 90.000 verschiedenen Projekten vermelden. Zwei Jahre nach dem Start beheimatete GitHub laut Aussage von Zach Holman, Angestellter des gleichnamigen Unternehmens, über eine Million Repositorien. Geld verdient die Plattform mit Projekten und Kunden, die ihre Repositorien geschlossen verwalten wollen. Für quelloffene Projekte ist der Dienst kostenlos, wobei die Plattform selbst die Nutzer zum Forken oder Kopieren von bereits bestehenden Quellen animiert.

Wie eine Untersuchung der University of California herausgefunden hat, sind knapp 70 Prozent der Quellen auf GitHub Duplikate. Wie das achtköpfige Forscherteam schreibt, sind von den insgesamt 428 Millionen auf GitHub gelagerten Dateien lediglich 85 Millionen einzigartig. Die restlichen Dateien sind mit bereits bestehenden Dateien identisch. Die meisten identischen Dateien sind dabei JavaScript-Projekten zuzuordnen, wo knapp 94 Prozent der Quellen identisch sind, 3 Prozent weitgehend identisch und nur 3 Prozent einzigartig. Maßgeblich zu diesem Zustand trägt Node.js bei. Etwas differenzierter sieht es bei Java, Python und C/C++ aus. Während bei Java knapp 30 Prozent der Quellen einzigartig sind, sind bei Python nur noch 19 Prozent und bei C/C++ 13 Prozent.

Die Forscher untersuchten insgesamt 4,5 Millionen Projekte, die explizit nicht als Fork gekennzeichnet wurden. Die Resultate können direkt von der Seite der Universität heruntergeladen werden. Eine grafische Auswertung gibt einen groben Überblick über die Verteilung der Quellen.

Werbung
Pro-Linux
Traut euch!
Neue Nachrichten
Werbung