ArchivQA
Zum Trainings-Check

Deduplizierung: warum doppelte Bilder dem Training schaden

Nahezu-Duplikate führen zu Memorization, verschwenden Rechenzeit und verzerren die Datenverteilung. Wie man sie findet und entfernt.

Im Archiv ist jede Kopie eines Bildes wertvoll. Im KI-Trainingsdatensatz ist sie ein Problem. Deduplizierung — das Entfernen identischer und nahezu identischer Bilder — ist einer der Schritte mit dem höchsten Wirkungsgrad in jeder Datenpipeline.

Warum Duplikate schaden

Exakt vs. nahezu identisch

Exakte Duplikate (bytegleich) findet ein simpler Hash. Die eigentliche Arbeit sind Nahezu-Duplikate: dasselbe Bild in anderer Größe, mit anderem JPEG-Quality, leicht beschnitten oder mit Wasserzeichen. Dafür nutzt man perceptual hashing (pHash/dHash): ein kurzer Fingerabdruck des Bildinhalts, bei dem ähnliche Bilder ähnliche Hashes bekommen. Der Abstand zweier Hashes (Hamming-Distanz) misst die Ähnlichkeit.

Warum das eine Batch-Aufgabe ist

Deduplizierung ist eine Mengen-Eigenschaft — sie ergibt erst über einen ganzen Ordner Sinn, nicht für ein Einzelbild. Genau dafür ist eine Batch-/Ordner-Version gedacht, die wir gerade planen.

Interesse an einer Ordner-Version?

Unser Web-Check bewertet heute ein Einzelbild. Eine Batch-Version würde ganze Ordner durchgehen, Nahezu-Duplikate clustern, die Bucket-Verteilung zeigen und ein Manifest exportieren. Wenn dich das interessiert: Im Check gibt es nach jedem Ergebnis einen Knopf dafür — dein Klick hilft uns zu entscheiden, ob wir es bauen.

Dein Bild auf Trainings-Tauglichkeit prüfen?
Kostenlos · 3 Checks pro Tag · ohne Anmeldung.
Zum Check