top of page

DORA Vertragsanalyse mit LLMs

Warum ein Chatfenster allein nicht genügt


Die manuelle Prüfung von Verträgen gemäß den DORA-Anforderungen ist nicht nur teuer und zeitaufwendig, sondern auch anfällig für Fehler und führt häufig zu Frustration.


Neben Zeitdruck und ggf. Mangel an Expertise mit dem neuen Thema DORA überlistet uns die Biologie unseres Gehirnes bei dem wiederholten Lesen von Texten.


Denn es ist auf Energieoptimierung getrimmt, einen Text der einmal gelesen wurde, erkennt das Hirn und reduziert den Energieeinsatz (kenn ich schon, muss ich mich nicht mehr anstrengen, also runter mit der energieaufwendigen Konzentration...). Im Ergebnis werden Fehler leicht übersehen!


In diesem Kontext bieten Large Language Models (LLMs) wie ChatGPT zunächst eine verlockende Alternative: Mit einer Lizenz ab 20 € können grundlegende Prüfungsaufgaben kostengünstig und schnell durchgeführt werden - auch Dank der Aufstellung der Anforderungen durch die BaFin bezüglich Vertragsinhalten nach DORA.


Also alles einfach und kostengünstig, oder?


Doch wie so oft, wenn etwas vermeintlich einfach scheint, hat es seine Tücken. Denn während die Nutzung eines LLM-Clients für eine erste Einschätzung hilfreich sein kann, stößt dieser Ansatz bei präzisen, konsistenten und skalierbaren Ergebnissen schnell an seine Grenzen. Die Herausforderungen multiplizieren sich, wenn regelmäßig zahlreiche Verträge analysiert werden müssen. Hier reicht das bloße Kopieren von Kriterien und Textbausteinen oft nicht aus und kann schnell zu einem ineffizienten und riskanten Zeitfresser werden.

Wie kann man also sicherstellen, dass die Vertragsanalyse nicht nur schnell, sondern auch zuverlässig und skalierbar ist?


Statt Copy & Paste: Einheitliche Prompt-Templates


Um konsistente Ergebnisse zu erzielen, kann man ein festes Prompt-Template verwenden und lediglich die relevanten Parameter (z. B. Vertragsabschnitte, Bewertungskriterien, Musterklauseln) ändern. Allerdings ist das manuelle Kopieren von Textpassagen fehleranfällig und zeitaufwendig.


  • LLM-Client (z. B. ChatGPT): Erfordert meist manuelle Eingaben.

  • API-Nutzung: Befüllt das Template automatisiert, was Tippfehler und Formatierungsfehler minimiert und Zeit spart.


Mit einheitlichen Prompt-Templates lassen sich Fehler bei der manuellen Eingabe und das aufwändige Kopieren von Vertragsdetails bereits deutlich reduzieren. Allerdings bleibt ein weiterer Faktor entscheidend für gleichbleibende Ergebnisse: die richtige Parametrierung.


Konsistenz dank erweiterter Parametrierung


Bei vielen API-Angeboten lassen sich wichtige Parameter wie Temperature oder Seed einstellen. Das erhöht die Konsistenz der Ausgaben erheblich, weil Sie so festlegen können, wie kreativ oder deterministisch das Modell antworten soll. Browserbasierte Clients bieten hier meist nur eingeschränkte Möglichkeiten.

Obwohl Sie mit Parametern wie Temperature und Seed bereits eine zuverlässigere Antwortqualität erreichen, kommt ein anderes Problem zum Vorschein, wenn Verträge plötzlich 70 oder 80 Seiten inklusive Anhängen umfassen: Das Modell hat zu viele Informationen auf einmal. Genau hier setzt Retrieval Augmented Generation (RAG) an.


RAG – Große Verträge effizient analysieren


Verträge können schnell Dutzende Seiten plus Anhänge umfassen und dabei das Modell überfordern. Retrieval Augmented Generation (RAG) sorgt dafür, dass nur die wirklich relevanten Informationen an das LLM übergeben werden, wodurch sich die Antwortqualität spürbar steigern lässt.


  • Gezieltes Abrufen statt Überfluten: Bei RAG geht es darum, das Modell nicht gleich mit dem gesamten Dokument zu füttern. Stattdessen werden genau die Passagen abgerufen, die für die jeweilige Frage oder Prüfung relevant sind.

  • Chunking & Vektorisierung: Um die relevanten Textstellen zuverlässig zu finden, wird der Vertrag in kleinere, semantisch sinnvolle Einheiten (Chunks) unterteilt und vektorisiert.


Bei Bedarf identifiziert ein Suchmechanismus – oft unterstützt durch KI – genau die Chunks, die zur Fragestellung passen. So bleibt das Modell fokussiert, und Sie erhalten präzisere Ergebnisse, ohne im Wortmeer eines 80-seitigen Vertrags zu versinken.

Mit Retrieval Augmented Generation (RAG) lässt sich die Analyse selbst umfangreicher Verträge deutlich beschleunigen und präzisieren. Doch was, wenn nicht nur ein großer Vertrag, sondern gleich mehrere Dokumente parallel geprüft werden müssen? An dieser Stelle wird das Thema Skalierbarkeit entscheidend.


Skalierbarkeit: Mehrere Verträge parallel


Wer mehrere Browserfenster öffnet, um viele Verträge gleichzeitig zu prüfen, stößt schnell an seine Grenzen. Eine automatisierte Pipeline via API erlaubt dagegen die parallele Analyse beliebig vieler Dokumente – Sie sparen sich Kopierarbeit und profitieren von kurzen Verarbeitungszeiten.

Sobald Sie mehrere Verträge parallel prüfen können, wird schnell klar, dass Effizienz nicht nur bei der Analyse selbst gefragt ist, sondern auch bei der Weiterverarbeitung der Ergebnisse. Genau an diesem Punkt kommt es auf ein strukturiertes Ergebnisformat an, das Ihnen reibungslos in Ihre bestehenden Tools und Workflows passt.


Strukturiertes Ergebnisformat für reibungslose Weiterverarbeitung


LLM-Clients generieren häufig längere Textblöcke, die manuell nachbearbeitet werden müssen. Eine API stellt hingegen oft strukturierte Ausgaben (z. B. im JSON-Format) bereit:


  • Zeiteffizienz: Die Daten sind direkt in bestehende Systeme (z. B. DMS, Compliance-Tools) integrierbar.

  • Weniger Fehler: Automatisierte Abläufe minimieren das Risiko von Übertragungsfehlern.


Doch selbst wenn die Verarbeitung reibungslos in Ihre Systeme integriert ist, bleibt eine wesentliche Frage offen: Wie schützen Sie all diese sensiblen Vertragsdaten? Genau hier kommt das Thema Datenschutz ins Spiel – und das nicht nur unter DORA-Gesichtspunkten.


Datenschutz und Informationssicherheit


Wer Verträge analysiert, hat häufig mit sensiblen Informationen zu tun. Je nach Lizenz- oder Datenschutzeinstellung werden Daten bei öffentlichen LLM-Clients möglicherweise für Trainingszwecke genutzt. Enterprise-API-Versionen, entsprechende Einstellungen und das Hosting der Infrastruktur sowie der Modelle verhindern, dass die Daten für Trainingszwecke verwendet werden.


Mit Hilfe von Open-Source-Modellen wie LLaMa, lokalen Datenbankinstanzen und lokalen Embedding-Algorithmen können wir die Verarbeitung völlig lokal durchführen, ohne das Vertragsdaten irgendwo in der Cloud verarbeitet werden. Die Übertragung der Daten kann auf sicherem und verschlüsseltem Wege über bewährte Austauschplattformen (z. B. Tresorit) erfolgen.


Fazit


Ob bei der DORA-konformen Prüfung einzelner Klauseln oder beim Umgang mit ganzen Stapeln von Verträgen – der Einsatz moderner LLMs kann den manuellen Aufwand deutlich senken und den Prozess beschleunigen. Allerdings sollte man professionell vorgehen, ein einfaches „Chatten“ mit einem LLM-Client reicht nicht.


Wir empfehlen:


  • Prompt-Templates: Diese sorgen für konsistente Fragemuster und minimieren Tippfehler,

  • RAG und Chunking: Dies macht selbst große und verteilte Verträge handhabbar,

  • Skalierbarkeit: Damit ist gewährleistet, dass mehrere Verträge parallel geprüft werden können,

  • Strukturierte Ergebnisse: Diese sparen in der Weiterverarbeitung enorm viel Zeit, und

  • Datenschutz – etwa durch lokale Ausführung – sind unverzichtbar.


Wer all diese Aspekte berücksichtigt, schafft sich einen klaren Vorteil: Zeitersparnis, höherer Qualitätsstandard und vor allem die Sicherheit, dass sensible Daten geschützt bleiben.


LLM-gestützte Verfahren können den Zeitaufwand für Vertragsanalysen somit massiv reduzieren – etwa durch Extraktion relevanter Klauseln und die zügige Prüfung regulatorischer Anforderungen.


Für eine endgültige Beurteilung ist aber der "menschliche Faktor" wichtig, die Vertreter der Fachabteilungen müssen die Inhalte klären, ein fachkundiger Anwalt sollte die Rechtsfragen finalisieren. Auch mit KI ist der Mensch nach wie vor unerlässlich.


Anregung: Wenn man die Verträge sowieso analysieren lässt - wieso nicht direkt auch die relevanten Daten für das Informationsregister automatisiert extrahieren?

Comments


bottom of page