Im Archiv ist jede Kopie eines Bildes wertvoll. Im KI-Trainingsdatensatz ist sie ein Problem. Deduplizierung — das Entfernen identischer und nahezu identischer Bilder — ist einer der Schritte mit dem höchsten Wirkungsgrad in jeder Datenpipeline.
Warum Duplikate schaden
- Memorization: Mehrfach gesehene Bilder werden vom Modell auswendig gelernt und teils wörtlich reproduziert — ein Qualitäts- und Rechtsrisiko.
- Verschwendete Rechenzeit: Jedes Duplikat kostet Trainingsschritte, ohne neue Information beizutragen.
- Verzerrte Verteilung: Überrepräsentierte Motive kippen die Balance des Datensatzes und erzeugen Bias.
- Daten-Leakage: Landet dasselbe Bild in Trainings- und Testmenge, sind Evaluationszahlen wertlos.
Exakt vs. nahezu identisch
Exakte Duplikate (bytegleich) findet ein simpler Hash. Die eigentliche Arbeit sind Nahezu-Duplikate: dasselbe Bild in anderer Größe, mit anderem JPEG-Quality, leicht beschnitten oder mit Wasserzeichen. Dafür nutzt man perceptual hashing (pHash/dHash): ein kurzer Fingerabdruck des Bildinhalts, bei dem ähnliche Bilder ähnliche Hashes bekommen. Der Abstand zweier Hashes (Hamming-Distanz) misst die Ähnlichkeit.
Warum das eine Batch-Aufgabe ist
Deduplizierung ist eine Mengen-Eigenschaft — sie ergibt erst über einen ganzen Ordner Sinn, nicht für ein Einzelbild. Genau dafür ist eine Batch-/Ordner-Version gedacht, die wir gerade planen.
Interesse an einer Ordner-Version?
Unser Web-Check bewertet heute ein Einzelbild. Eine Batch-Version würde ganze Ordner durchgehen, Nahezu-Duplikate clustern, die Bucket-Verteilung zeigen und ein Manifest exportieren. Wenn dich das interessiert: Im Check gibt es nach jedem Ergebnis einen Knopf dafür — dein Klick hilft uns zu entscheiden, ob wir es bauen.