Im Archiv ist jede Kopie eines Bildes wertvoll. Im KI-Trainingsdatensatz ist sie ein Problem. Deduplizierung — das Entfernen identischer und nahezu identischer Bilder — ist einer der Schritte mit dem höchsten Wirkungsgrad in jeder Datenpipeline.

Warum Duplikate schaden

Memorization: Mehrfach gesehene Bilder werden vom Modell auswendig gelernt und teils wörtlich reproduziert — ein Qualitäts- und Rechtsrisiko.
Verschwendete Rechenzeit: Jedes Duplikat kostet Trainingsschritte, ohne neue Information beizutragen.
Verzerrte Verteilung: Überrepräsentierte Motive kippen die Balance des Datensatzes und erzeugen Bias.
Daten-Leakage: Landet dasselbe Bild in Trainings- und Testmenge, sind Evaluationszahlen wertlos.

Exakt vs. nahezu identisch

Exakte Duplikate (bytegleich) findet ein simpler Hash. Die eigentliche Arbeit sind Nahezu-Duplikate: dasselbe Bild in anderer Größe, mit anderem JPEG-Quality, leicht beschnitten oder mit Wasserzeichen. Dafür nutzt man perceptual hashing (pHash/dHash): ein kurzer Fingerabdruck des Bildinhalts, bei dem ähnliche Bilder ähnliche Hashes bekommen. Der Abstand zweier Hashes (Hamming-Distanz) misst die Ähnlichkeit.

Warum das eine Batch-Aufgabe ist

Deduplizierung ist eine Mengen-Eigenschaft — sie ergibt erst über einen ganzen Ordner Sinn, nicht für ein Einzelbild. Genau dafür ist eine Batch-/Ordner-Version gedacht, die wir gerade planen.

Interesse an einer Ordner-Version?

Unser Web-Check bewertet heute ein Einzelbild. Eine Batch-Version würde ganze Ordner durchgehen, Nahezu-Duplikate clustern, die Bucket-Verteilung zeigen und ein Manifest exportieren. Wenn dich das interessiert: Im Check gibt es nach jedem Ergebnis einen Knopf dafür — dein Klick hilft uns zu entscheiden, ob wir es bauen.

Dein Bild auf Trainings-Tauglichkeit prüfen?

Kostenlos · 3 Checks pro Tag · ohne Anmeldung.

Zum Check

Deduplizierung: was doppelte Bilder im Training kosten

Warum Duplikate schaden

Exakt vs. nahezu identisch

Interesse an einer Ordner-Version?

Weitere Themen

Gute KI-Trainingsdaten: Archiv- vs. Trainingsqualität

Auflösung & Aspect-Ratio-Buckets fürs KI-Training

Datensatz-Hygiene: häufige Fehler in Trainingsdaten