Archivqualität und Trainingsdatenqualität klingen ähnlich, meinen aber nicht dasselbe. Ein Bild kann ein sehr guter Archiv-Master sein und für ein Bildmodell trotzdem nur mittelmäßig geeignet sein. Umgekehrt kann eine einfache, saubere Datei für ein Training nützlicher sein als ein perfekt dokumentierter Archivscan.
Archivqualität schützt die Quelle
Bei Archivbildern zählt vor allem, dass eine Vorlage langfristig nachvollziehbar, möglichst verlustarm und technisch sauber digitalisiert wurde. Wichtige Fragen sind: Ist das Bild scharf genug? Gibt es Clipping in Lichtern oder Tiefen? Ist ein Farbprofil eingebettet? Sind Auflösung, Bit-Tiefe und Format für spätere Nutzung belastbar?
Deshalb bewertet der Archivqualität-Check technische Signale wie Schärfe, SNR, DPI, ICC-Profil, Bit-Tiefe, Kompression und Tonwertumfang. Das Ziel ist eine verlässliche Datei für Archivierung, Reproduktion und Qualitätsdokumentation.
Trainingsdatenqualität schützt den Datensatz
Für KI-Trainingsdaten verschiebt sich der Maßstab. Ein Datensatz soll Vielfalt, klare Bildinformation und möglichst wenig störende Wiederholung enthalten. Doppelte oder fast doppelte Bilder können ein Modell verzerren. Ränder, Wasserzeichen, starke JPEG-Artefakte oder hochskalierte Dateien können ebenfalls stören.
Metadaten, die im Archiv wichtig sind, werden in Trainingsdatensätzen oft entfernt. Umgekehrt sind Eigenschaften wie Deduplizierung, Aspect-Ratio-Buckets und saubere Bild-Caption-Paare im Archiv nicht die zentrale Frage.
| Frage | Archiv | KI-Training |
|---|---|---|
| Ziel | Langzeitqualität und Nachvollziehbarkeit | Nützliche, vielfältige Trainingssignale |
| Duplikate | Können dokumentarisch relevant sein | Sind oft schädlich |
| Metadaten | Wichtig für Herkunft und Workflow | Oft nicht Teil des Trainingsbildes |
| Ränder/Overlays | Je nach Vorlage akzeptabel | Häufig störend |
Was der experimentelle Check macht
ArchivQA enthält zusätzlich einen experimentellen Technik-Check für Bilddatensätze. Er bewertet einzelne Dateien mit einem anderen Maßstab als der Archivqualität-Check: Auflösungs-Buckets, Seitenverhältnis, Upscale-Verdacht, JPEG-Qualität, Clipping, uniforme Ränder und sehr leere Bilder.
Wichtig: Der Check trainiert kein KI-Modell. Hochgeladene Bilder werden nicht gespeichert und nicht zum Training verwendet. Sie werden nur für die technische Analyse verarbeitet und danach gelöscht.
Experimentellen Datensatz-Check ausprobieren
Nutze ihn nur, wenn dich die technische Eignung eines Bildes als Datensatz-Baustein interessiert. Für Archivqualität ist der Archivqualität-Check die richtige Seite.
Zum experimentellen Check