Das würde bedingen, dass man das immer durchführt, wenn zwei Hashes gleich sind. Damit sollte der Aufwand erheblich ansteigen. Also, wenn zwei Hashes gleich sind und die Daten unterschiedlich, ist es damit prinzipiell zu spät.
Genau das tut es damit, sollen Daten dedupliziert werden, werden die Daten verglichen, nur wenn es dieser Vergleich ebenfalls identisch ist, wird der Block als dedupliziert markiert.
Generell ist es überhaupt kein Problem, wenn zwei Blöcke im Dateisystem den gleichen Hash haben, da der Hash nur zum prüfen der Korrektheit der Daten dient und zur Wiederherstellung nur die gleichen Daten im Verbund benutzt werden.
Natürlich ist dedup+verify nicht für schreib lastige Operationen zu gebrauchen, aber das scheidet IMHO dedup eh schon aus, aber für z.B. Backup-Archive sehr geeignet.
Das würde bedingen, dass man das immer durchführt, wenn zwei Hashes gleich sind. Damit sollte der Aufwand erheblich ansteigen. Also, wenn zwei Hashes gleich sind und die Daten unterschiedlich, ist es damit prinzipiell zu spät.
Genau das tut es damit, sollen Daten dedupliziert werden, werden die Daten verglichen, nur wenn es dieser Vergleich ebenfalls identisch ist, wird der Block als dedupliziert markiert.
Generell ist es überhaupt kein Problem, wenn zwei Blöcke im Dateisystem den gleichen Hash haben, da der Hash nur zum prüfen der Korrektheit der Daten dient und zur Wiederherstellung nur die gleichen Daten im Verbund benutzt werden.
Natürlich ist dedup+verify nicht für schreib lastige Operationen zu gebrauchen, aber das scheidet IMHO dedup eh schon aus, aber für z.B. Backup-Archive sehr geeignet.
Cool, das klingt gut. Vielen Dank!