Wie schon mehrfach geschrieben wurde stellt sich stets die Frage nach dem Objekt, welches man abbilden will und welche Details abgebildet werden sollen.
Nehmen wir einfach zwei Extreme.
(1) Es soll ein Halbportrait von einem Saxophonisten aufgenommen werden, z.B. während dieser in einem Club spielt. Es kommt v.a. auf die Mimik an. Ob das Instrument Kratzer hat u.ä. ist wirklich zweitrangig. Auf dem ausbelichteten Bild sollte bei normalem Betrachtungsabstand das Augenlid noch als scharf empfunden werden. -> Siehe die Bilder, welche William P. Gottlieb von Charlie Parker und anderen Musikern seiner Zeit gemacht hat.
Die größte Struktur in diesem Fall ist der Oberkörper des Musikers (Größenordnung 0,1 bis 1 m), die kleinste Struktur das Augenlid (Größenordnung 0,001 bis 0,01 m).
(2) Es soll der Handelsraum einer Börse formatfüllend aufgenommen werden. Man sollte auf der Ausbelichtung jeden Papierschnitzel auf dem Boden erkennen können und die Gestik der Händler. Im Raum herrscht Hektik, daher sollte das Bild am besten mit einer einzigen Aufnahme erledigt werden. -> Siehe Andreas Gurskys Aufnahme der Chigago Board of Trade. (Ob dieses Bild tatsächlich aus einer einzigen Aufnahme entstanden ist, sei an dieser Stelle uninteressant.)
Die größten Strukturen sind das Börsenparkett und die "Ränge" oberhalb davon (Größenordnung 10 bis 100 m), die kleinste erkennbare Struktur soll der Finger eines Händlers sein (Größenordnung 0,01 bis 0,1 m).
In beiden Fällen kann man eine Bandbreite abschätzen. Diese ist die Differenz der Ortsfrequenzen der kleinsten und größten Stuktur.
df=f2-f1
Diese Bandbreite ist aber wenig aussagekräftig ohne die Brennweite des Objektivs zu kennen.
Interessanter ist IMHO das Verhältnis von f2 zu f1.
(1) Die Zahlen im ersten Beispiel wären (exemplarisch) wie folgt.
df=1/0,005-1/0,5=198 1/m
f2/f1=100
(2) Die Zahlen im zweiten Beispiel wären (exemplarisch) wie folgt.
df=1/0,05-1/50=19,98 1/m
f2/f1=1000
Auch ohne diese Zahlen läßt sich sagen, daß Gurskys Bild mehr Auflösung vom optischen System abverlangt.
Zum eigentlichen Thema - das angehängte Bild zeigt eine (stark vereinfachte) Betrachtung der Fotografie als LZI-System (linear, zeit-invariant). Es werden eine Reihe von Annahmen und Vereinfachungen gemacht, die aber keineswegs die Gültigkeit der Betrachungen einschränken sollen. Die Kästen stellen den Betrag der MTF über der Ortsfrequenz dar.
* Es wird nur eine Richtung (z.B. horizontal) betrachtet.
* Phänomene wie Koma, chromatische Aberrationen und andere Objektivfehler werden vernachlässigt.
* Die Kontrastübertragungsfunktion (MTF) aller Bestandteile ist, bis auf die Flanken, konstant.
* Umwelteinflüsse ("Atmosphäre") haben Tiefpaß-Charakter mit einer sehr hohen Grenzfrequenz und werden vernachlässigt.
* Der Kamera-Hersteller hat beim Anti-Aliasing-Filter ganze Arbeit geleistet. Dieser ist sehr steil und hilft nur dabei, das Abtast-Theorem nicht zu verletzen. Auch hier ("AA-Filter") kann vernachlässigt werden.
* Das Objektiv dient der Frequenzumsetzung der tatsächlichen Ortsfrequenzen (f) auf die Ortsfrequenzen auf dem Film/Sensor (f').
* Der Sensor tastet das Bild ab, welches auf ihn projeziert wird. Die Abtastfrequenz ist dabei 1/X.
* Das Licht wird als monochromatisch angenommen und es gibt kein Bayer-Pattern.
* Der Bildausschnitt hat eine Hochpaß-Charakteristik. Größere Bildwinkel als der von der Kombination Objektiv-Sensor werden nicht erfaßt.
* Das optische System im Objektiv hat eine Tiefpaß-Charakteristik. Der Kontrast läßt bei kleineren Strukturen immer mehr nach.
* Es wird eine konstante Blendenöffnung angenommen. Beugungseffekte sollen bei dieser noch nicht (signifikant) auftreten und werden vernachlässigt.
* Die Grenzfrequenz für die Auflösung des optischen Systems sollte der Punkt sein, an dem die MTF auf ca. 0,7 ihres Maximums fällt. Damit wird teilweise auch der menschlichen Wahrnehmung Rechnung getragen.
Nun können wir die Ausrüstung für unsere Aufnahme zusammenstellen.
- Passend zu f1 und den Abstand zwischen Fotograf und Objekt werden Bildwinkel/Brennweite gesucht. Die Sensorgröße und der Zuschnitt sind bekannt.
- Aus f1 wird f1' bestimmt. Aus f2 wird f2' bestimmt.
- Mit f2' läßt sich eine Aussage über die benötigte Auflösung von Objektiv (>=f2') und Sensor (Abtastung mit >=2*f2') treffen.
Als Beispiel soll ein Auto formatfüllend fotografiert werden. Der Spalt zwischen vorderer und hinterer Tür soll gerade noch als 1 Pixel erkennbar sein. Das Auto ist 4 m lang, der Spalt 0,01 m breit. Die Sensorfläche ist 36*24 mm^2.
df=1/0,01-1/4=99,75 1/m
f2/f1=400
Da Abstand zum Fahrzeug und Sensorgröße bekannt sind, läßt sich ein Objektiv auswählen. Das Objektiv setzt 4 m Auto (--> f1) auf 36 mm Sensor (--> f1') um. Je nach Auto kein schlechter Deal.

Der Spalt wird also 0,09 mm breit (--> f2').
1/X>=2*f2'=2*1/0.09 1/mm
X=0,045 mm
Die minimale Auflösung des Sensors wäre damit wie folgt.
36 mm / 0,045 mm = 800 Pixel
24 mm / 0,045 mm = 533 Pixel
Das Objektiv sollte 800 / 36 mm = 22 lp/mm auflösen.
Das Objektiv sollte 800 / 36 mm = 22 Pixel/mm (oder 11 lp/mm) auflösen.
Soll nun auch ein Steinschlagschaden erkennbar sein, welcher einen Durchmesser von 2 mm hat, ändern sich die Zahlen etwas.
1/X>=2*f2'=2*1/0.018 1/mm
X=0,009 mm
36 mm / 0,009 mm = 4000 Pixel
24 mm / 0,009 mm = 2667 Pixel
Das Objektiv sollte hier 4000 / 36 mm = 111 lp/mm vernünftig auflösen.
Das Objektiv sollte hier 4000 / 36 mm = 111 Pixel/mm (oder 56 lp/mm) vernünftig auflösen.
Die Werte für die Sensor-Auflösung könnte man mit einem Faktor zwischen 1 und 2 multiplizieren, um einem Bayer-Pattern gerecht zu werden. Zusammen mit den obigen Ausführungen sollte nun eine Hausnummer für Auflösung möglich sein.
Wer bis hierher gelesen hat, kann ja versuchen, dies nachzuvollziehen. Es sind aber bestimmt noch Fehler drin. ;-)
Um mit Zitaten konsistent zu bleiben, werden die geänderten Passagen grau dargestellt. Neu hinzugekommene Passagen sind fett dargestellt.