Die meisten Qualitätsprobleme in Trainingsdaten stammen aus einer Handvoll wiederkehrender Verunreinigungen — besonders in gescrapten Datensätzen. Wer sie kennt, filtert sie früh heraus, statt dem Modell Müll beizubringen.
1. Ränder, Letterbox & Rahmen
Schwarze Balken, weiße Rahmen oder bunte Passepartouts sind Bildinhalt, den das Modell mitlernt — und später ungefragt reproduziert. Uniforme Ränder sollten vor dem Training weggecroppt werden. Unser Check erkennt Letterbox-/Pillarbox-Ränder und warnt.
2. JPEG-Artefakte & Recompression
Mehrfach gespeicherte JPEGs tragen eingebrannte Blockartefakte. Bei niedriger Qualität lernt das Modell diese Klötzchen als „normal". Wir schätzen die JPEG-Qualität aus den Quantisierungstabellen und warnen bei zu starker Kompression. Für Master gilt ohnehin: lieber verlustfrei — siehe Bildformate.
3. Wasserzeichen & Text-Overlays
Stock-Wasserzeichen, Logos und eingebrannte Bildunterschriften sind notorisch: Modelle lernen, Wasserzeichen-artige Strukturen mitzugenerieren. Solche Bilder gehören aussortiert. (Eine zuverlässige automatische Erkennung braucht ein Modell — deshalb steht sie bei uns noch unter „noch nicht geprüft".)
4. Leere & faktisch monochrome Bilder
Fast einfarbige Flächen, leere Scans oder versehentlich graue Bilder haben kaum Trainingswert und verzerren die Statistik. Unser Check flaggt sehr kontrastarme und faktisch monochrome Bilder.
5. Metadaten strippen
Anders als im Archiv werden Trainingsbilder meist von Metadaten befreit: EXIF (inkl. GPS), eingebettete Profile und Kommentare bringen dem Bildmodell nichts und können personenbezogene Daten enthalten. Ein sauberer Export normalisiert zudem auf sRGB.
Erst testen, dann skalieren
Prüfe ein paar repräsentative Bilder, bevor du tausende verarbeitest. Ein früher Fehler im Hygiene-Setup multipliziert sich sonst über den ganzen Datensatz.