ArchivQA
Zum Trainings-Check

Datensatz-Hygiene: die häufigsten Fehler in Trainingsdaten

Wasserzeichen, Ränder, JPEG-Artefakte, Text-Overlays, leere Bilder: die typischen Verunreinigungen in gescrapten Datensätzen — erkennen und vermeiden.

Die meisten Qualitätsprobleme in Trainingsdaten stammen aus einer Handvoll wiederkehrender Verunreinigungen — besonders in gescrapten Datensätzen. Wer sie kennt, filtert sie früh heraus, statt dem Modell Müll beizubringen.

1. Ränder, Letterbox & Rahmen

Schwarze Balken, weiße Rahmen oder bunte Passepartouts sind Bildinhalt, den das Modell mitlernt — und später ungefragt reproduziert. Uniforme Ränder sollten vor dem Training weggecroppt werden. Unser Check erkennt Letterbox-/Pillarbox-Ränder und warnt.

2. JPEG-Artefakte & Recompression

Mehrfach gespeicherte JPEGs tragen eingebrannte Blockartefakte. Bei niedriger Qualität lernt das Modell diese Klötzchen als „normal". Wir schätzen die JPEG-Qualität aus den Quantisierungstabellen und warnen bei zu starker Kompression. Für Master gilt ohnehin: lieber verlustfrei — siehe Bildformate.

3. Wasserzeichen & Text-Overlays

Stock-Wasserzeichen, Logos und eingebrannte Bildunterschriften sind notorisch: Modelle lernen, Wasserzeichen-artige Strukturen mitzugenerieren. Solche Bilder gehören aussortiert. (Eine zuverlässige automatische Erkennung braucht ein Modell — deshalb steht sie bei uns noch unter „noch nicht geprüft".)

4. Leere & faktisch monochrome Bilder

Fast einfarbige Flächen, leere Scans oder versehentlich graue Bilder haben kaum Trainingswert und verzerren die Statistik. Unser Check flaggt sehr kontrastarme und faktisch monochrome Bilder.

5. Metadaten strippen

Anders als im Archiv werden Trainingsbilder meist von Metadaten befreit: EXIF (inkl. GPS), eingebettete Profile und Kommentare bringen dem Bildmodell nichts und können personenbezogene Daten enthalten. Ein sauberer Export normalisiert zudem auf sRGB.

Erst testen, dann skalieren

Prüfe ein paar repräsentative Bilder, bevor du tausende verarbeitest. Ein früher Fehler im Hygiene-Setup multipliziert sich sonst über den ganzen Datensatz.

Dein Bild auf Trainings-Tauglichkeit prüfen?
Kostenlos · 3 Checks pro Tag · ohne Anmeldung.
Zum Check