Fallstudie: Urteilsbesprechung – Mensch vs. Künstliche Intelligenz

Künstliche Intelligenz (KI) verändert die Arbeitswelt rasant. Auch vor der Steuerberatungsbranche macht die „KI-Revolution“ keinen Halt. Doch wie schlägt sich die Maschine wirklich, wenn es um die anspruchsvolle Analyse und Darstellung aktueller Gerichtsentscheidungen geht? In unserem neuesten Experiment lassen wir Mensch und KI direkt gegeneinander antreten: Wer liefert die bessere Urteilsbesprechung? Entdecken Sie mit uns spannende Einblicke, überraschende Ergebnisse und erfahren Sie, welche Chancen und Herausforderungen der KI-Einsatz bei steuerlichen Fachtexten bietet.

Für den Test wurde zunächst ein spezifischer Prompt entwickelt, mit dem die KI, in diesem Fall Microsoft Copilot, gezielt zur Erstellung einer Urteilsbesprechung nach den internen Vorgaben aufgefordert wurde. Parallel dazu wurde die gleiche Aufgabe von einem Fachexperten unserer steuerlichen Grundsatzabteilung (National Office Tax) bearbeitet. Im Anschluss erfolgte eine detaillierte Gegenüberstellung der beiden Ergebnisse – mit besonderem Fokus auf inhaltliche Qualität, stilistische Ausgewogenheit und Zeit.

Der richtige Prompt

Eine effektive Nutzung von Künstlicher Intelligenz für Urteilsbesprechungen steht und fällt mit dem zielgerichteten Aufbau des Prompts. Für den Test haben wir den folgenden Prompt ausgearbeitet:

„Erstelle für dieses Urteil eine Urteilsbesprechung, die sich an Fachleute im Steuerrecht richtet. Gliedere die Urteilsbesprechung wie folgt: 1. Kurze prägnante Überschrift. 2. Kurze Darstellung der Kernaussage bzw. Problemstellung (1–2 Sätze). 3. Hintergrund der Entscheidung – Sachverhalt oder Rechtsfrage (3–6 Sätze), Wesentliche Entscheidungsgründe (3–5 Sätze), Bedeutung für die Praxis (2–4 Sätze).“

Vergleich der Ergebnisse

Wenig überraschend: In zeitlicher Hinsicht ist die KI nicht zu schlagen. Für die reine Erstellung der Urteilsbesprechung bedurfte es nur weniger Sekunden. Der Fachexperte benötigte für seine Urteilbesprechung, die das Lesen und eine schriftliche Zusammenfassung umfasst, insgesamt etwa eineinhalb Stunden.

Der von der KI generierte Text weist stellenweise einen eher umgangssprachlichen Ton auf und folgt nicht immer stringent dem strukturellen Aufbau des Prompts. Dies führt unter anderem dazu, dass einzelne Inhalte – insbesondere in der Darstellung der Kernaussage und zum Hintergrund der Entscheidung – redundant wiedergegeben werden. Demgegenüber ist der vom Fachexperten erstellte Beitrag sprachlich durchgängig präzise, stilistisch differenziert und inhaltlich klar gegliedert, was insgesamt zu einem deutlich professionelleren und kohärenteren Gesamteindruck führt.

Inhaltlich bleiben die Ausführungen der KI an mehreren Stellen vage oder ungenau, was im Ergebnis zu teils missverständlichen oder fachlich nicht haltbaren Aussagen führen kann. Die normative Anknüpfung sowie der entscheidungstragende Fokus des Urteils werden nicht adäquat herausgearbeitet. Auch bei der Ableitung praxisrelevanter Konsequenzen zeigt sich ein deutlicher Unterschied: Die KI bleibt auf der Ebene der Inhaltswiedergabe, wohingegen der Fachexperte den Urteilsfall in den Gesamtkontext einordnet und daraus Hinweise für die Beratungspraxis ableitet.

Bedeutung für die Praxis

Abschließend lässt sich festhalten, dass der Einsatz von KI die Erstellung von Urteilsbesprechungen erheblich beschleunigen kann, jedoch weiterhin klare Grenzen aufweist. In puncto Stilistik zeigt sich, dass die maschinell generierten Texte oft weniger nuanciert und sprachlich ansprechend sind als Beiträge von Fachexpert*innen – was gezieltes weiteres Prompting wiederum beheben könnte. Auch die fachliche Qualität bleibt hinter dem menschlichen Urteil zurück: Spezifische Details, rechtliche Feinheiten und die Einordnung in den Gesamtkontext werden von KI bislang nicht immer treffend umgesetzt. 

Für die Praxis bedeutet das: Der Mehrwert der KI liegt vor allem in der schnellen Erstaufbereitung, während für eine fundierte, qualitativ hochwertige Urteilsbesprechung nach wie vor das Zusammenspiel von Mensch und Maschine (Stichwort: Human in the Loop) unerlässlich ist. Nur so lässt sich das Potenzial der Technologie sinnvoll nutzen und ein Ergebnis schaffen, das sowohl fachlichen als auch stilistischen Ansprüchen genügt. Denkbar ist, die KI zur Erstellung eines ersten Entwurfs einzusetzen, mit dem sodann weitergearbeitet wird.

Autor*innen: Mascha Marhenke, Dario Voß