Geprüfte Antworten sind Antworten, denen du vertrauen kannst.

Drei Instrumente, die dein Denken schärfen und deine KI-Ergebnisse belastbar machen.

Decision Brief, KI-Request Standard und Guardrail Check – drei Werkzeuge, die sofort einsetzbar sind und jeden Engpass in einen Hebel für bessere Ergebnisse verwandeln.

„Wer echtes Verständnis sucht statt Bestätigung, stellt die Fragen, die zählen."— Nils Brodersen

Prüfpfade & Frameworks

Werkzeuge für bessere Fragen und tiefere Antworten

Die folgenden Instrumente sind als minimalistische Entscheidungs und Prüfarchitektur konzipiert. Sie erhöhen die epistemische Belastbarkeit von KI gestützten Analysen, indem sie Annahmen, Bewertungslogiken und Revisionsbedingungen explizit machen. Damit verschiebst Du den Fokus von rhetorischer Plausibilität hin zu prüfbaren Begründungsstrukturen.

Decision Brief

9 Felder. Eine Seite. Jede Entscheidung.

Entscheidungsfrage

Formuliere eine präzise Entscheidungsfrage als Auswahlproblem, nicht als Themenetikett.

Beispiel: Nicht „Strategie Q3“, sondern „Sollen wir Markt X vor Q3 betreten?“

Kontext & Auslöser

Warum jetzt? Was hat sich geändert? Welcher Impuls erzwingt diese Entscheidung?

Annahmen

Explizit, nummeriert, falsifizierbar. Jede Annahme, die das Ergebnis trägt, muss sichtbar sein.

Optionen

Mindestens drei, inklusive "nichts tun". Binäre Fragestellungen sind fast immer ein Zeichen für fehlende Analyse.

Bewertungskriterien

Gewichtet und messbar. Ohne explizite Kriterien entscheidet das lauteste Argument.

Risiken & Failure Modes

Pro Option: Was kann schiefgehen? Welche Szenarien sind nicht abgedeckt?

Empfehlung

Mit Begründungskette. Nicht "ich empfehle X", sondern "gegeben A, B und C folgt X weil..."

Reversal Trigger

Unter welchen Bedingungen wird diese Entscheidung revidiert? Ohne definierten Trigger gibt es keine Lernschleife.

Exit-Szenario

Welche Umstände machen die ganze Option untragbar, unabhängig von der Output-Qualität? Während Feld 8 die Auslöser für eine Revision benennt, prüft Feld 9 die strukturellen Bedingungen, unter denen die Entscheidung von Anfang an nicht mehr trägt.

Zweck: Erzwingt Klarheit vor Handlung. Macht Denkqualität auditierbar.

KI-Request Standard

3 Destruktionsfragen + 7 Felder vor jeder entscheidungsrelevanten KI-Anfrage.

Destruktion vor der Anfrage

Die KI antwortet auf das, was Du fragst, nicht auf das, was Du meinst. Diese drei Fragen prüfst Du, bevor Du die sieben Felder ausfüllst.

Welche Antwort erwarte ich, und warum?

Erwartung benennen, bevor die KI sie bestätigt. Wer die Antwort vor der Frage kennt, formuliert eine Bestätigung, keine Analyse.

Welches Wort in meiner Frage steuert die KI in eine Richtung?

„Warum“ erzwingt Begründung, „wie kann“ erzwingt Lösung. Beschreibung vs. Empfehlung, Korrelation vs. Kausalität, effizient vs. effektiv. Das Modell folgt dem Wort, nicht der Absicht.

Welche Perspektive fehlt in meiner Frage?

Welche Sicht würde die Frage anders stellen? Welche Constraint des konkreten Systems wird durch die aktuelle Formulierung ausgeblendet?

Sieben Felder

Rolle

Wer spricht? Analyst, Kritiker, Berater, Faktenchecker. Die Rolle bestimmt den Bewertungsrahmen.

Aufgabe

Was genau soll das Ergebnis leisten? Nicht "analysiere X", sondern "identifiziere die drei grössten Risiken in X".

Kontext

Domäne, Vorwissen, Einschränkungen. Was muss das System wissen, um sinnvoll zu arbeiten?

Qualitätskriterien

Prüfbarkeit, Quellenangabe, Unsicherheitsgrade. Wie erkennst du, ob das Ergebnis belastbar ist?

Ausgabeformat

Struktur, Länge, Zielgruppe. Ein C-Level-Summary unterscheidet sich von einer technischen Analyse.

Prüffrage

Woran erkenne ich, ob das Ergebnis taugt? Die Prüffrage zwingt zur Operationalisierung des Qualitätsanspruchs.

Exit-Bedingung

Was macht den Output unbrauchbar? Welche Eigenschaft des Ergebnisses zwingt Dich, die Anfrage zu verwerfen und neu zu stellen, bevor sie eine Entscheidung trägt?

Zweck: Verhindert "Garbage in, plausible garbage out". Macht Anforderungen explizit.

Guardrail Check

6 Prüffragen vor jeder KI-gestützten Entscheidung.

Scheinpräzision

Klingt das Ergebnis präziser als die Datenlage hergibt? Zahlen und Prozentsätze suggerieren Gewissheit, die in der Datenbasis nicht vorhanden ist.

Kontextverfall

Sind die zugrundeliegenden Daten noch aktuell und relevant? Märkte, Regulierung und Wettbewerb ändern sich schneller als Modelle aktualisiert werden.

Goodhart-Risiko

Optimiert das System eine Metrik, die das eigentliche Ziel verfehlt? Wenn die Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein.

Tool Drift

Liefert derselbe Input heute noch dasselbe Ergebnis wie bei der Einrichtung des Arbeitsablaufs? API-Versionen ändern sich, Modellgewichte werden neu kalibriert, ohne dass es jemand sieht.

Verantwortungslücke

Wer zeichnet verantwortlich, wenn das Ergebnis falsch ist? "Die KI hat empfohlen..." ist keine Verantwortungszuordnung.

Reversal Trigger

Unter welchen Bedingungen wird die Entscheidung revidiert? Ohne definierten Trigger gibt es keine Lernschleife und keine Kurskorrektur.

Zweck: Sechs Prüffragen, die aus plausiblen Antworten belastbare Ergebnisse machen.

Zwei Betriebsmodi

Orakel oder Denkverstärker.

Wer KI-Output ungeprüft übernimmt, behandelt das Modell als Orakel. Die drei Werkzeuge oben verschieben den Modus: Sie machen das Modell zum Denkverstärker, der die menschliche Prüfung erzwingt statt sie zu ersetzen.

Orakel-Modus

KI liefert Antwort, Mensch übernimmt.
Plausibilität ersetzt Prüfung.
Annahmen bleiben unsichtbar.
Verantwortung diffundiert auf das Modell.
Compliance-Status: nicht nachweisbar.

Denkverstärker-Modus

KI liefert Material, Mensch entscheidet.
Frage-Destruktion vor jeder Anfrage.
Annahmen sind explizit und falsifizierbar.
Verantwortung liegt namentlich beim Entscheider.
Compliance-Status: dokumentiert und prüfbar.

Der Moduswechsel kostet Zeit. Er erspart Schaden.

Denkbewegung: Vier Schritte

Spiegel

Was wird hier behauptet? Was sind die tragenden Annahmen?

Test

Was müsste wahr sein, damit die Aussage hält? Was würde sie widerlegen?

Wert

Was steht auf dem Spiel? Was ist unter Risiko vertretbar?

Trigger

Unter welchen Bedingungen revidierst du die Entscheidung?

Fünf Muster, die du ab sofort erkennst und für dich nutzt

Scheinpräzision

Das System liefert Zahlen, Prozentsätze, Rankings. Sie klingen belastbar, aber die zugrundeliegende Datenlage gibt diese Granularität nicht her. Typisch bei KI-generierten Analysen, die Unsicherheit in scheinbare Gewissheit übersetzen.

Hebel: Wer Scheinpräzision erkennt, gewinnt echte Aussagekraft für seine Ergebnisse.

Kontextverfall

Das Ergebnis basiert auf Trainingsdaten oder Annahmen, die zum Zeitpunkt der Entscheidung nicht mehr gelten. Märkte, Regulierung, Wettbewerb ändern sich schneller als Modelle aktualisiert werden.

Hebel: Wer Kontextverfall prüft, trifft Entscheidungen auf aktuellem Stand statt auf veralteten Annahmen.

Goodhart-Effekte

"Wenn eine Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein." KI-Systeme optimieren Metriken. Wenn die Metrik das eigentliche Ziel nicht abbildet, wird präzise das Falsche optimiert.

Hebel: Wer die richtigen Metriken wählt, lenkt KI-Optimierung auf das tatsächliche Ziel.

Tool Drift / Model Drift

Das System funktioniert heute. In sechs Monaten haben sich API-Versionen, Modellverhalten, Datenquellen verändert. Ohne Monitoring entsteht schleichende Qualitätserosion,[A-6] die erst bei einem Fehlerereignis sichtbar wird.

Hebel: Wer Drift systematisch überwacht, sichert langfristige Ergebnisqualität.

Verantwortungsdiffusion

"Die KI hat empfohlen..." ist keine Verantwortungszuordnung.[A-6] Wenn unklar ist, wer bei Fehlern zuständig ist, wird niemand prüfen, ob die Empfehlung tragfähig war.

Hebel: Wer Verantwortung klar zuordnet, schafft die Grundlage für echte Qualitätskontrolle.

Zurück zur Übersicht