„Hohe Qualität" heißt für ein Archiv etwas anderes als für einen KI-Trainingsdatensatz. Ein Archiv will das Original möglichst verlustfrei bewahren — maximale Information, hohe Bit-Tiefe, eingebettete Metadaten. Ein Trainingsdatensatz will Bilder, die einem Modell etwas Nützliches beibringen. Diese Ziele überschneiden sich teilweise — und widersprechen sich an entscheidenden Stellen.
Wo sich die Maßstäbe unterscheiden
| Kriterium | Archiv | KI-Training |
|---|---|---|
| Bit-Tiefe | 16 Bit ideal | 8 Bit sRGB ist Standard |
| Metadaten | bewahren (EXIF, ICC) | oft strippen |
| Kompression | verlustfrei Pflicht | JPEG ok, solange nicht zu stark |
| Duplikate | jede Kopie wertvoll | schädlich |
| Auflösung | so hoch wie möglich | muss den Bucket nach dem Downscale überstehen |
Manche Kriterien kehren sich also um. Im Archiv ist jedes 16-Bit-TIFF mit ICC-Profil ein Gewinn; fürs Training reicht ein sauberes 8-Bit-sRGB-PNG, und doppelte Bilder sind ein Problem statt ein Schatz. Was bei uns als Stufe A glänzt, kann ein mäßiges Trainingsbild sein — und umgekehrt.
Was ein gutes Trainingsbild ausmacht
- Ausreichende native Auflösung — echtes Detail, nicht hochskaliert.
- Saubere Kompression — keine eingebrannten JPEG-Artefakte.
- Klarer Bildinhalt — keine Ränder, Wasserzeichen oder Text-Overlays.
- Einmaligkeit — keine Nahezu-Duplikate im selben Datensatz.
- Korrekte Belichtung — kein massives Clipping in Tiefen oder Lichtern.
„Qualität" ist aufgabenabhängig
Für ein Super-Resolution-Modell willst du gestochen scharfe Bilder. Für ein Denoising-Modell brauchst du gezielt verrauschte. Ein ehrliches Tool prüft deshalb technische Grundtauglichkeit und behauptet nicht, „schöne" Bilder zu erkennen.
Einzelbild vs. Datensatz
Die wertvollsten Trainingsdaten-Checks sind Mengen-Eigenschaften: Deduplizierung, Diversität, Balance. Unser Web-Check bewertet vorerst ein Einzelbild technisch — die mengenbezogenen Schritte wie Deduplizierung gehören in eine Batch-Verarbeitung über ganze Ordner.