Aktualisiert im März 2026. Dieser Artikel wurde ursprünglich im Mai 2023 geschrieben, als SD 1.5 mit 512x512 der Standard war und die RTX 3090 die Spitzenhardware. Alles hat sich verändert. Flux 2, SDXL-Fine-Tunes, SD 3.5, ControlNet und die RTX 5090 haben völlig neu definiert, was möglich ist. Das hier ist der aktuelle Stand.
Die Lücke zwischen KI-generierten Bildern und echten Fotografien ist fast geschlossen. 2023 bedeutete "fotorealistisch": "fast überzeugend, wenn man die Augen zusammenkneift." 2026 erzeugen die besten Modelle Bilder, die tatsächlich schwer von professioneller Fotografie zu unterscheiden sind.
So kommt man dorthin.
Die aktuelle Landschaft des Fotorealismus
Das Modell, das du auswählst, ist wichtiger als jede Einstellung, an der du drehst. So sieht der Stand aus:
Flux 2 -- Der neue König
Flux 2 von Black Forest Labs (veröffentlicht im November 2025) ist 2026 wohl das beste Open-Weight-Modell für Fotorealismus [1]. Es erzeugt Bilder mit natürlichem Licht, präzisen Hauttexturen und kohärenter Komposition, die mit professioneller Fotografie mithalten kann. Adobe hat Flux (Kontext Pro) im September 2025 in Photoshop integriert [2] -- das sagt einiges darüber, wo das Vertrauen der Branche liegt.
Flux versteht außerdem natürliche Sprache außergewöhnlich gut. Du kannst in schlichtem Englisch beschreiben, was du willst, ohne die Keyword-Suppe, die SD 1.5 verlangt hat.
SDXL-Fine-Tunes -- Die Arbeitstiere
Für SDXL-basierten Fotorealismus sind das die aktuellen Spitzenreiter:
- Juggernaut XL v9/v10 -- die Standardwahl für cineastische, fotografische Ergebnisse. Besonders beliebt bei Fotografen und Filmemachern.
- Realistic Vision -- speziell für lebensechte Texturen, Beleuchtung und Gesichtsgenauigkeit fine-getuned.
- EpicRealism -- außergewöhnlich starke feine Details und natürliches Licht.
Diese Modelle haben enorme Community-Unterstützung, umfangreiche LoRA-Bibliotheken und vorhersehbares Verhalten. Wenn Flux sich noch zu neu anfühlt oder dein Workflow auf SDXL aufgebaut ist, sind sie ausgezeichnete Optionen.
SD 3.5 Large
Das Flaggschiff von Stability AI nutzt die neue Multimodal Diffusion Transformer (MMDiT)-Architektur -- ein grundlegend anderer Ansatz als SDXL. Es ist technisch beeindruckend, aber das Ökosystem ist kleiner. SD 3.0 wurde im April 2025 eingestellt, also stell sicher, dass du auf 3.5 bist [3].
GPU-Realitätscheck
Die Hardware-Anforderungen sind deutlich gestiegen.
| GPU | VRAM | Fotorealismus-Fähigkeit |
|---|---|---|
| RTX 3060 12GB | 12GB | Nur SD 1.5-Fotorealismus. SDXL ist knapp |
| RTX 4070 Ti | 12GB | SDXL bei 1024x1024. Flux ist mit Optimierungen möglich |
| RTX 4090 | 24GB | Der Sweet Spot. Bewältigt SDXL, Flux und SD 3.5 komfortabel bei 1024x1024+ |
| RTX 5090 | 32GB | Alles, inklusive 4K-Generierung und Batch-Workflows. 32GB GDDR7, 512-bit Bus [4] |
| 8GB-Karten | 8GB | Mit ComfyUIs VRAM-Management minimal brauchbar. Nicht angenehm |
Der Sweet Spot von 2023, "512x512 auf einer RTX 3080", ist alte Geschichte. 1024x1024 ist jetzt die Standardauflösung, und du willst mindestens 16GB VRAM, um ohne ständige Frustration zu arbeiten. Bei 24GB wird es komfortabel.
Speziell für Fotorealismus bedeutet mehr VRAM, dass du größere Modelle, höhere Auflösungen und ControlNet gleichzeitig ausführen kannst, ohne auf die CPU auszulagern.
Einstellungen für Fotorealismus
Sampler
DPM++ 2M Karras mit 25-30 Steps. Das ist der gefestigte Konsens für SDXL-Fotorealismus -- das beste Verhältnis von Geschwindigkeit zu Qualität. Wenn du bei niedrigen Step-Zahlen etwas mehr Detail möchtest, wechsle zu DPM++ SDE Karras.
Für Flux: nutze den Standard-Sampler mit 20-30 Steps.
CFG
Für SDXL-Fotorealismus: 7-9. Das gibt starke Prompt-Treue ohne den übersättigten, überkochten Look, der oberhalb von 10 entsteht.
Für SD 3.5: niedriger anfangen (3-5) -- der Guidance-Mechanismus funktioniert anders.
Für Flux: modell-spezifischen Empfehlungen folgen, aber im Allgemeinen niedriger als bei SDXL.
Auflösung
Generiere in der nativen Auflösung des Modells (1024x1024 für SDXL/SD 3.5/Flux), dann upscale für höhere Auflösung. Versuch nicht, direkt bei 2048x2048 zu generieren -- du bekommst Artefakte, duplizierte Elemente und Kompositionsprobleme.
Upscaling-Optionen: Hi-res fix in A1111 oder dedizierte Upscaling-Nodes in ComfyUI (4x-UltraSharp, ESRGAN).
Prompting für Fotorealismus
Die größte Verschiebung seit 2023: natürlich schreiben, nicht in Keywords.
SD 1.5 brauchte Prompts wie:
portrait of a woman, photorealistic, 8k, ultra detailed, sharp focus,
professional photography, Fujifilm X-T4, 85mm f/1.4SDXL und Flux verstehen:
A portrait of a woman in soft afternoon light, photographed with a shallow
depth of field. She's looking slightly off-camera with a natural expression.Der Keyword-Suppe-Ansatz funktioniert bei SDXL weiterhin, aber natürliche Sprache erzeugt kohärentere Ergebnisse. Besonders Flux glänzt bei beschreibenden, konversationellen Prompts.
Negative Prompts: Halte sie minimal. Fang ohne an und füge dann gezielte Korrekturen hinzu. "cartoon, illustration, painting" reicht meistens, um die Dinge fotorealistisch zu halten. Sieh dir das Cheat Sheet für den vollständigen Philosophiewechsel bei Negative Prompts an.
ControlNet verändert alles
Wenn du es mit fotorealistischer Komposition ernst meinst, ist ControlNet nicht verhandelbar. Es lässt dich die Struktur deines Bildes steuern über:
- Depth maps -- räumliche Beziehungen und Perspektive erhalten
- Canny edge detection -- Umrisse und Formen bewahren
- OpenPose -- menschliche Posen und Körperproportionen steuern
- Surface normals -- realistische Lichtinteraktion mit Oberflächen
ControlNet-Modelle sind inzwischen für SDXL, Flux und SD 3.5 verfügbar [5]. Multi-ControlNet (das Stapeln mehrerer Controls) gibt dir präzise Kompositionskontrolle, die Prompt Engineering allein nicht erreichen kann.
Der Workflow: Nimm ein Referenzfoto, extrahiere eine Depth Map oder Pose, nutze sie als ControlNet-Input und generiere ein fotorealistisches Bild mit derselben Komposition.
Geschwindigkeit vs. Qualität
Wenn du schnelle Iterationen brauchst (Konzeptarbeit, Prompt-Tests), nutze SDXL Lightning -- es erzeugt hochwertige 1024px-Bilder in 2-8 Steps [6]. Bei höheren Auflösungen ist die Qualität besser als bei SDXL Turbo.
Für das finale Ergebnis wechselst du zurück zu vollem SDXL oder Flux mit 25-30 Steps. Der Unterschied ist sichtbar.
Der praktische Workflow
Das funktioniert 2026 tatsächlich für fotorealistische Ergebnisse:
- Wähle dein Modell -- Flux 2 für den besten Fotorealismus, Juggernaut XL für das SDXL-Ökosystem
- Schreibe einen natürlichsprachlichen Prompt, der beschreibt, was du siehst
- Generiere bei 1024x1024, DPM++ 2M Karras, CFG 7-9, 25-30 Steps
- Nutze ControlNet, wenn du eine bestimmte Komposition brauchst (Depth oder Pose)
- Iteriere am Prompt -- generiere 4-8 Bilder, wähle das beste
- Upscale den Gewinner auf deine Zielauflösung
- Inpainte problematische Bereiche (Hände, Augen, kleine Details)
Das ist derselbe Workflow, egal ob du in ComfyUI oder A1111 bist. Die Werkzeuge unterscheiden sich, die Pipeline nicht.
Referenzen
1. Flux 2 Models -- Black Forest Labs -- Offizielle Flux 2-Modellseite.
2. FLUX.2 and NVIDIA RTX AI Garage -- Flux 2-Integration mit ComfyUI und Branchenadoption.
3. Stability AI Release Notes -- Details zur Einstellung von SD 3.0 und zur Veröffentlichung von 3.5.
4. RTX 5090 vs 4090 for AI Workloads -- Hardwarevergleich für Bildgenerierung.
5. ControlNet Complete Guide -- Aktualisierte ControlNet-Dokumentation für mehrere Architekturen.
6. SDXL-Lightning by ByteDance -- Generierungsmodell mit 2-8 Steps.
7. Best Stable Diffusion Models for Photorealism 2026 -- Aktuelle Modelllandschaft.
8. Top Photorealistic Stable Diffusion Models -- Community-Reviews von Civitai.
Verwandte Beiträge
- Stable Diffusion Cheat Sheet: Troubleshooting & Optimization -- Schnellreferenz für Parameter, Sampler und Troubleshooting.

Kommentare