KI-Halluzinationen im Rechtsbereich: Wie man sie erkennt und vermeidet

Eine KI, die Gerichtsurteile erfindet, Paragraphen falsch zitiert oder nicht existierende Literatur aufführt – das klingt nach einem Szenario aus einem Technologie-Warnfilm. Es ist aber dokumentierte Realität. 2023 reichte eine US-amerikanische Anwaltskanzlei Schriftsätze mit halluzinierten ChatGPT-Zitaten bei Gericht ein. Die Konsequenzen: Sanktionen, Reputationsschaden, berufsrechtliche Verfahren.

Für Schweizer Kanzleien und Inhouse Legal Teams, die KI-gestützte Werkzeuge einsetzen oder evaluieren, ist das Thema KI-Halluzinationen im Rechtsbereich deshalb kein theoretisches Problem. Es ist eine operative Risikofrage.

Was KI-Halluzinationen sind – und warum sie im Recht so gefährlich wirken

Der Begriff "Halluzination" beschreibt in diesem Kontext, wenn ein KI-Modell Informationen generiert, die ungenau, irreführend oder schlicht erfunden sind – aber plausibel klingen. Das Tückische: Falsche und korrekte Antworten werden vom Modell identisch präsentiert. Es gibt keinen äusserlichen Unterschied, keine Warnmeldung, keine andere Schriftfarbe.

Im allgemeinen Unternehmenskontext schwankt die Halluzinationsrate je nach Modell zwischen 0,7 % und 29,9 % (Vectara). Im juristischen Kontext liegt sie laut Fachquellen bei bis zu 88 %. Das ist kein Randproblem.

Warum der juristische Kontext besonders anfällig ist

Juristische Texte verlangen Präzision auf Wortebene. Ob eine Klausel "kann" oder "muss" sagt, ob eine Frist drei oder dreissig Tage beträgt, ob ein Urteil aus dem Jahr 2019 oder 2021 stammt – das sind keine Stilfragen. Im schlimmsten Fall entscheiden solche Details über Haftung, Vertragsgültigkeit oder Prozessausgang.

KI-Modelle sind Mustererkenner. Sie wurden nicht darauf trainiert, die Wahrheit zu sagen, sondern wahrscheinliche nächste Tokens zu generieren. Bei juristischen Fragen bedeutet das: Das Modell formuliert selbstbewusst, auch wenn es keine verlässliche Quelle hat. Erfundene Bundesgerichtsurteile, falsche Gesetzesartikel, nicht existierende Kommentarstellen – all das wurde bereits dokumentiert.

Die beruflichen Risiken ungeprüfter KI-Outputs

Wer als Anwalt oder Anwältin KI-generierte Inhalte ungeprüft in Schriftsätze oder Gutachten übernimmt, riskiert mehr als einen schlechten Tag. Die Risiken umfassen:

Berufspflichtverletzung durch Einreichung falscher oder nicht verifizierbarer Quellen
Haftung gegenüber Mandanten bei fehlerhafter rechtlicher Beratung auf Basis halluzinierter Inhalte
Reputationsschaden, der in einem kleinen Markt wie der Schweiz besonders langfristig wirken kann

Deutsche Gerichte haben bei ungeprüften KI-Outputs bereits Konsequenzen gezogen. Schweizer Gerichte haben ähnliche Massstäbe. KI-generierte Gutachten ohne Prüfung sind rechtlich wertlos.

Ursachen von KI-Halluzinationen

Wer verstehen will, wie man KI-Halluzinationen im Recht vermeidet, muss die Ursachen kennen. Dazu gehören:

Unvollständige oder verzerrte Trainingsdaten. Wenn ein Modell auf lückenhaften oder fehlerhaften Quellen trainiert wurde, reproduziert es diese Fehler.

Mangelndes Kontextverständnis. Sprachmodelle verarbeiten Text statistisch, nicht semantisch-logisch. Sie "verstehen" keine Rechtsbegriffe in dem Sinne, wie ein Jurist sie versteht.

Übermässige Generalisierung. Das Modell füllt Lücken mit plausibel klingenden, aber frei generierten Inhalten – besonders dann, wenn die Frage ausserhalb seines Trainingswissens liegt.

Ungenaue Prompts. Vage oder mehrdeutige Eingaben erhöhen die Wahrscheinlichkeit, dass das Modell in unerwünschte Richtungen generiert.

Strategien zur Vermeidung von KI-Halluzinationen im Rechtsbereich

Es gibt technische, methodische und organisatorische Massnahmen, die das Risiko deutlich reduzieren.

Retrieval-Augmented Generation (RAG)

RAG ist derzeit der wirksamste technische Ansatz gegen Halluzinationen. Statt auf das trainierte Modellwissen zu vertrauen, werden KI-Antworten an verifizierten Quellen verankert. Das Modell generiert nicht frei, sondern stützt sich auf konkrete Dokumente oder Datenbanken.

Juristische KI-Plattformen, die RAG einsetzen, sind grundsätzlich weniger anfällig für freie Erfindungen – vorausgesetzt, die Quelldatenbank ist aktuell und qualitätsgesichert.

Quellenbasierte Recherche statt offener Generierung

Ein zentraler Unterschied besteht zwischen KI-Tools, die offen generieren (wie ein allgemeines LLM), und solchen, die Antworten mit konkreten Quellen verknüpfen. Im Rechtsbereich ist Letzteres nicht optional.

CASUS, eine Schweizer Legal-AI-Plattform, setzt beim Legal-Research-Modus auf eine Datenbank mit über 660'000 kantonalen und bundesgerichtlichen Entscheidungen sowie Gesetzesartikeln. Antworten werden mit den relevanten Entscheidungen und Erwägungen verknüpft – die Quelle ist direkt einsehbar, ohne weiteren Klick. Das ist strukturell ein anderer Ansatz als ein allgemeines Sprachmodell.

Chain-of-Thought-Prompting und präzise Eingaben

Wie eine Frage gestellt wird, beeinflusst massgeblich, was zurückkommt. Vage Fragen produzieren vage oder falsche Antworten. Konkrete, eingegrenzte Prompts mit klarem Kontext reduzieren den Spielraum für Halluzinationen.

Im juristischen Alltag bedeutet das: Statt "Was sagt das Schweizer Recht zu Vertragsstrafen?" besser "Welche Voraussetzungen müssen nach Art. 160 ff. OR für die Durchsetzung einer Konventionalstrafe erfüllt sein?" Die zweite Formulierung ist überprüfbar; die erste lädt zu freier Generierung ein.

Menschliche Kontrolle als unverzichtbarer Schritt

Keine technische Massnahme ersetzt die fachkundige Prüfung. Jeder KI-Output, der in ein Schriftsatz, Gutachten oder eine Vertragsklausel einfliesst, muss von einer qualifizierten Person verifiziert werden. Das ist kein optionaler Extra-Schritt – es ist der rechtlich gebotene Standard.

Konkret heisst das: Zitate prüfen, Urteile nachschlagen, Gesetzesartikel im Originaltext lesen. KI kann den Startpunkt liefern; den Abschluss macht der Mensch.

Organisatorische Checklisten für den Kanzleialltag

Wer KI-Tools in der Kanzlei einführt, sollte klare interne Regeln festlegen: Welche Outputs können ohne Verifikation weiterverwendet werden? Welche müssen zwingend geprüft werden? Eine Risikoklassifizierung nach Dokumenttyp (z.B. E-Mail-Entwurf vs. gerichtlicher Schriftsatz) hilft dabei, Ressourcen gezielt einzusetzen.

Was gute juristische KI-Tools von allgemeinen Sprachmodellen unterscheidet

Nicht alle KI-Werkzeuge sind gleichermassen geeignet für den Rechtsbereich. Die relevanten Unterschiede liegen in der Architektur, nicht in der Benutzeroberfläche.

Juristische KI-Plattformen wie CASUS sind auf spezifische Aufgaben ausgerichtet: Vertragsanalyse, Benchmarking gegen Playbooks, Proofreading, Datenraum-Extraktion oder Legal Research mit verifizierten Quellen. Diese Spezialisierung reduziert den Raum für halluzinierte Inhalte, weil das System im Kontext des jeweiligen Dokuments arbeitet – nicht im Leeren.

Allgemeine LLMs dagegen generieren auf Basis ihres gesamten Trainingskorpus. Im juristischen Kontext ist das strukturell riskanter.

Zusätzlich gilt: Datenschutz und Datensicherheit sind im Schweizer Kanzleiumfeld keine Nebenaspekte. CASUS hostet ausschliesslich in der Schweiz und der EU, überträgt keine Daten in die USA und arbeitet ohne dauerhafte Datenspeicherung oder menschliche Einsicht in Dokumente. Details dazu finden sich auf der Sicherheitsseite von CASUS.

CASUS gezielt einsetzen, um Halluzinationsrisiken zu minimieren

Der Legal-Research-Modus von CASUS liefert strukturierte, quellenbasierte Einschätzungen. Relevante Entscheidungen und Gesetzesartikel werden direkt in der Antwort verknüpft; Erwägungen lassen sich inline einsehen. Das ermöglicht schnelle Verifikation – nicht blindes Vertrauen.

Beim AI-Chat mit Agent Mode arbeitet die KI am konkreten Dokument. Antworten sind mit Textstellen verknüpft, die direkt angesprungen werden können. Das reduziert freie Generierung erheblich, weil das Modell am Dokumentkontext verankert ist.

Für das Proofreading von Verträgen vor Versand prüft das Proofread-Modul sprachliche und formale Konsistenz – Cross-References, Definitionen, Nummerierungen, Platzhalter – ohne in die rechtliche Beurteilung einzugreifen.

KI mit Sorgfalt nutzen – nicht vermeiden

KI-Halluzinationen lassen sich im Rechtsbereich nicht auf null reduzieren. Wer das behauptet, halluziniert selbst. Was sich erreichen lässt: ein deutlich reduziertes Risiko durch die Kombination aus geeigneter Plattform, präzisen Prompts und konsequenter menschlicher Prüfung.

Wer in der Schweiz mit KI im Rechtsbereich arbeitet und dabei auf quellenbasierte, strukturierte und nachvollziehbare Ergebnisse angewiesen ist, kann CASUS kostenlos testen: Jetzt starten.

FAQ

Was sind KI-Halluzinationen im Rechtsbereich?

KI-Halluzinationen im Rechtsbereich sind Fälle, in denen ein KI-Modell rechtliche Inhalte generiert, die sachlich falsch, irreführend oder vollständig erfunden sind – zum Beispiel nicht existierende Urteile, falsche Gesetzesartikel oder fingierte Literaturangaben –, dabei aber plausibel und korrekt wirken.

Wie hoch ist die Halluzinationsrate bei juristischen KI-Tools?

Die allgemeine Halluzinationsrate von Sprachmodellen liegt je nach Modell zwischen 0,7 % und 29,9 % (Vectara). Im juristischen Kontext kann sie laut Fachquellen bis zu 88 % betragen. Der juristische Bereich gilt als besonders halluzinationsanfällig, weil präzise Fakten verlangt werden, die Modelle jedoch auf Plausibilität trainiert sind.

Welche rechtlichen Folgen drohen bei ungeprüfter KI-Nutzung?

Anwältinnen und Anwälte, die halluzinierte KI-Outputs ungeprüft in Schriftsätze oder Gutachten übernehmen, riskieren Berufspflichtverletzungen, Haftungsansprüche von Mandanten und Reputationsschäden. Ein dokumentierter US-Fall aus dem Jahr 2023 zeigt, dass Gerichte bei der Einreichung halluzinierter Urteile Sanktionen verhängen.

Was ist Retrieval-Augmented Generation (RAG) und warum ist es relevant?

RAG ist eine Architektur, bei der KI-Antworten an einer verifizierten Quelldatenbank verankert werden, anstatt frei zu generieren. Im Rechtsbereich bedeutet das: Das Modell greift auf konkrete Urteile, Gesetze oder Dokumente zurück, statt aus seinem allgemeinen Trainingswissen zu schöpfen. Das reduziert das Halluzinationsrisiko erheblich.

Wie kann man KI-Halluzinationen im Kanzleialltag praktisch vermeiden?

Drei Massnahmen wirken zusammen: präzise, kontextreiche Prompts formulieren; KI-Plattformen verwenden, die Antworten mit verifizierbaren Quellen verknüpfen; und jeden KI-Output, der in ein rechtliches Dokument einfliesst, durch eine qualifizierte Person prüfen lassen. Keine einzelne Massnahme reicht für sich allein.

Ist juristische KI für Schweizer Kanzleien überhaupt empfehlenswert?

Ja – wenn die richtigen Tools mit dem richtigen Workflow eingesetzt werden. Der Fehler liegt nicht in der KI selbst, sondern in der unkritischen Übernahme von Outputs. Spezialisierte Plattformen mit Quellenbindung, Schweizer Hosting und klaren Datenschutzstandards bieten ein anderes Risikoprofil als allgemeine Sprachmodelle.

Wie unterscheidet sich CASUS von allgemeinen KI-Tools wie ChatGPT?

CASUS ist eine spezialisierte Legal-AI-Plattform, die am konkreten Dokument oder an einer verifizierten Rechtsdatenbank (über 660'000 Entscheidungen) arbeitet. Antworten sind mit Quellen verknüpft und direkt nachvollziehbar. ChatGPT und ähnliche allgemeine Modelle generieren auf Basis ihres gesamten Trainingskorpus ohne zwingenden Quellbezug.

Welche Prompting-Strategien reduzieren das Halluzinationsrisiko?

Konkrete, eingegrenzte Fragen mit klarem Rechtskontext liefern zuverlässigere Antworten als offene Fragen. Das sogenannte Chain-of-Thought-Prompting – das Modell wird gebeten, seinen Schlussweg explizit darzulegen – kann Fehler sichtbar machen, bevor sie weiterverwendet werden. Quellenverankerung im Prompt ("Beziehe dich nur auf OR Art. 160 ff.") begrenzt den Generierungsspielraum zusätzlich.