cloidnerux hat geschrieben:
Ich sehe keinen Grund, warum man sich auf einen Hash-Wert beschränken muss. Die Dateigröße ist da genauso Teil der Identifikation wie selbstberechnete Hashwerte.
Ich sehe den "Hashwert" als Identifiezierung an, der ausschlag gebend für den vergleich 2er Dateien ist. Am Ende muss unser Programm ja nur sagen können, ist es ein Duplikat oder nicht?
Für Sicherheit musst Du die Dateien grundsätzlich sowieso vergleichen.
Ein Hashwert kann nie Sicherheit bieten, sondern immer nur ein (möglichst starkes) Indiz.
cloidnerux hat geschrieben:Natürlich könnten wir auch andere Faktoren mit einbeziehen, wie Name, Inhalt, Dateiinformationen, aber das Führt am Ende dazu, das wir nur noch Warscheinliche Duplikate finden, die wir dann entweder mit Direkter 1:1 Prüfung filtern müssen, doer dem Nutzer vorwerfen.
So sieht es aus, und ich sehe zum Beispiel keinen Grund eine Datei mit 4GB Größe (DVD-Image?) zu hashen, wenn es genau eine Datei gibt, die diese Größe hat. Über den Hashwert kann man sich dann Gedanken machen, wenn diese Größe mehrfach auftritt und bis dahin ist die Dateigröße die billigste Art, zwei Dateien definitiv voneinander zu unterscheiden.
cloidnerux hat geschrieben:Nur müssen wir das ganze mehrstufig sehen:
Welchen sinn macht es, Hunderte Gigabyte an Daten einzulesen, zu Hashen und aus den 1M Datein dann vlt 1k Duplikate zu Finden, wenn wir nur mit 1 Information aus den 1M Dateien alle bis auf 2k Filtern können?
Jeder Nutzer freut sich, wenn die Prüfung schneller ist.
Nein, nicht alle. Andere freuen sich, wenn die Sache gründlich ist.
Des Weiteren ist das Problem umgekehrt: je weniger sicher die Sache ist, desto eher werden vermeindliche Duplikate erkannt. Und was meinst Du, was die Freude groß ist, wenn das vermeintliche Duplikat das einzige Original war?
Merke: Wer Ordnung hellt ist nicht zwangsläufig eine Leuchte.
Ich beantworte keine generellen Programmierfragen per PN oder Mail. Dafür ist das Forum da.