zuletzt geprüft und überarbeitet:
9. Januar 2026
Lesedauer: 3 Minuten
Über Chancen, Grenzen und Gefahren KI-generierter Zeugnisse
Auf den ersten Blick wirken sie wie die perfekte Lösung: KI-gestützte Tools, die in Sekundenschnelle Arbeitszeugnisse erstellen oder bestehende Texte „optimieren“. Sie versprechen Tempo, Effizienz und eine formal saubere Sprache – genau das, was sich viele überlastete Personalabteilungen wünschen. Aber hält die Technologie wirklich, was sie verspricht? Und was bedeutet das für Fach- und Führungskräfte, die auf ein sorgfältig formuliertes, wohlwollendes Zeugnis angewiesen sind?
Das Wichtigste auf einen Blick
KI-generierte Arbeitszeugnisse sparen Zeit – sind aber (noch?) kein Ersatz für menschliche Expertise. Die KI streicht oft wichtige Verstärker wie „stets“ oder „sehr“ – das kann die Zeugnisnote verschlechtern Empfehlung: KI als unterstützendes Werkzeug nutzen – aber jedes Zeugnis durch erfahrene Personaler, Rechtsanwälte oder Zeugnisberater prüfen lassen.
Die Stärken: Schnell, strukturiert, formal korrekt
Keine Frage: KI-Systeme wie ChatGPT oder spezialisierte Zeugnisgeneratoren können Standardformulierungen zuverlässig abbilden. Sie erkennen gängige Codes, schlagen Noten vor, prüfen Rechtschreibung und Grammatik. Gerade bei sehr einfachen Tätigkeiten oder wenn große Mengen an Zeugnissen ausgestellt werden müssen, können diese Tools eine wertvolle Entlastung sein.
Darüber hinaus, und daraus mache ich auch kein Geheimnis, nehme ich „Chatty“ gerne zum Glätten von Formulierungen (natürlich immer anonymisiert). Aber auch hier muss man wirklich ganz genau hinschauen. ChatGPT ist aus rein sprachlicher Sicht ziemlich gut im Umformulieren und Anbieten von alternativen Formulierungen.
Schwäche Nr. 1: Kein Gespür für die wichtigen Zwischentöne
Aber genau hier endet oft schon die Stärke der KI. Was auf den ersten Blick solide wirkt, entpuppt sich in der Praxis häufig als beliebig, austauschbar und ohne echtes Gespür für individuelle Leistungen. Ein Zeugnis lebt jedoch von feinen Nuancen: kleine Verstärker, wohlüberlegte Adjektive, die genau den Unterschied zwischen „gut“ und „sehr gut“ machen.
Besonders kritisch ist der Umgang mit der speziellen Zeugnissprache, die für Jemanden, der nicht täglich Arbeitszeugnisse erstellt, nur schwer zu verstehen ist. So klingt zum Beispiel die Formulierung „Er arbeitete zulässig.“ doch ganz positiv, oder ? De facto ist das aber nur ein „ausreichend“. Genau solche Feinheiten übersehen oder verfälschen viele KI-Systeme, haben wir in unseren Untersuchungen herausgefunden.
Noch heikler: Gibt man zum Beispiel bei ChatGPT einen Absatz einer Leistungsbewertung ein, um ihn sprachlich überarbeiten zu lassen, streicht das KI-Tool für die Zeugnissprache wichtige Wörter raus. Zum Beispiel zeitliche Verstärker (stets, immer, jederzeit) oder inhaltliche Verstärker (mit sehr großem Engagement). Geht man hier leichtfertig ran und überprüft nicht alle Formulierungen ganz genau, riskiert man schnell mal ein bis zwei Notenstufen tiefer.
Ein Beispiel aus der Praxis
Kürzlich hatte ich ein Arbeitszeugnis auf dem Tisch, das ein Mandant mithilfe von Copilot erstellt hatte. Auf den ersten Blick wirkte es individuell – das gefiel mir zunächst. Doch beim genaueren Hinsehen zeigte sich schnell: Das Zeugnis war unstrukturiert, es fehlte der rote Faden. Statt einer klaren Gliederung fand sich eine lose Aneinanderreihung von Absätzen. Viele Formulierungen klangen zwar modern und waren mit den richtigen Buzzwords gespickt, aber inhaltlich blieben sie vage. Eine eindeutige Leistungsbewertung? Fehlanzeige. Das Kuriose daran: Der Mandant hatte den Zeugnisentwurf sogar noch mit einem weiteren KI-Tool prüfen lassen – und das Ergebnis war „hervorragend“. Zum Glück blieb er skeptisch und hat uns anschließend eingebunden. So konnten wir gemeinsam ein Zeugnis entwickeln, das wirklich Substanz hat – fachlich stimmig, sprachlich präzise und rechtlich einwandfrei.
Schwäche Nr. 2: Wichtige Leistungskriterien fehlen im Zeugnis
Es gibt klare Vorgaben, welche Leistungskriterien heute in einem qualifizierten Arbeitszeugnis bewertet werden müssen. Das Grundsatzurteil des LAG Hamm von 1997 hat immer noch seine Gültigkeit. ChatGPT & Co. haben das aber nicht immer auf dem Schirm. Oder sagen wir besser, nicht von sich aus. Sagt man dem Tool einfach „Formuliere ein Arbeitszeugnis für einen Verkäufer im Einzelhandel mit der Notenstufe gut“, da kommt dann zwar ein Arbeitszeugnis raus, aber bei genauerer Betrachtung fehlen wichtige Leistungskriterien und die Notenstufe entspricht auch nicht durchgehend einem gut. Bitte verlassen Sie sich also nicht leichtfertig darauf, dass das Tool weiß, was es da macht.
Aber selbst wenn man bei ChatGPT (und Co. ) einen sehr ausführlichen Prompt verwendet (und glauben Sie mir, das habe ich in den vergangenen beiden Jahren ausführlich und regelmäßig getestet), dann geht das mal gut und mal nicht. Bei einem Menschen würde ich sagen, das ist tagesformabhängig ;-).
Schwäche Nr. 3: Achtung Formfehler lassen KI-Einsatz erkennen
Kürzlich habe ich auf LinkedIn gelesen, dass sich KI-Texte am inflationären Gebrauch von Bindestrichen erkennen lassen. Das möchte ich nicht ohne Weiteres von der Hand weisen, denn auch ich beobachte diese Vorliebe vieler KI-Tools regelmäßig. Zwar werden Bindestriche in Arbeitszeugnissen eher äußerst selten eingesetzt, doch gibt es eine Reihe weiterer formaler Merkmale, die ein Zeugnis als KI-generiert entlarven können.
Letztens hatte ich beispielsweise ein Arbeitszeugnis auf dem Tisch, das ich aufgrund meiner Erfahrung und zahlreicher eigener Experimente eindeutig einer künstlichen Intelligenz zuordnen würde. Nicht aufgrund einzelner Auffälligkeiten, sondern wegen der Gesamtanmutung des Textes. (Das Zeugnis sollte laut Arbeitgeber sehr positiv ausfallen. Die Parteien hatten sich wirklich im Guten getrennt.)
Das waren meine Hauptkritikpunkte:
In der Tätigkeitsbeschreibung gab es inhaltliche Unstimmigkeiten .
Wichtige Leistungskriterien (z.B. die Leistungsbereitschaft) fehlten im Arbeitszeugnis.
Inhaltlich gab es einige Doppelungen .
In der Einleitung wurden alle wesentlichen Angaben (Mitarbeitername, Geburtsdatum, Beschäftigungsdaten, Unternehmensname) fett (bold) gedruck t. Das sehe ich zwar häufiger, aber nicht in der Masse.
Viele (aber nicht alle) beschriebenen Kenntnisse, Fähigkeiten, Eigenschaften wurden fett (bold) gedruckt. Hervorhebungen (bold, kursiv, unterstrichen, Versalien) verwendet man jedoch nicht in Arbeitszeugnissen, da der Leser sonst einen verdeckten Hinweis vermuten könnte.
Zwei Abschnitte im Arbeitszeugnis enthielten eine Zwischenüberschrift , das ist so überhaupt nicht üblich.
Ein Beispiel aus der Praxis
Auszug aus einem Arbeitszeugnis (anonymisiert) … Sein Verhalten gegenüber Vorgesetzten, Kolleginnen und Kollegen sowie Kundinnen und Kunden war stets korrekt, freundlich und respektvoll . Er fügte sich gut in das Team ein und unterstützte dieses hilfsbereit im Arbeitsalltag. Gesamtbeurteilung: Herr Muster erfüllte die ihm übertragenen Aufgaben zu unserer vollen Zufriedenheit . Seine Leistungen waren insgesamt als gut zu bewerten. Beendigungs- und Schlussformel: Das Arbeitsverhältnis endete zum 31.12.2025 auf Wunsch von Herrn Muster. Wir danken ihm für die Zusammenarbeit und wünschen ihm für seinen weiteren beruflichen und privaten Weg alles Gute.
Fazit: KI als Werkzeug – nicht als Ersatz
Bei der Erstellungen von Arbeitszeugnissen kann eine KI-Anwendung ein nützliches Werkzeug sein – aber kein Ersatz für menschliche Expertise. Die Ergebnisse eignen sich als erste Entwurfsgrundlage, doch bei komplexen Fällen, Führungspositionen oder in rechtlich sensiblen Situationen ist eine fachkundige Prüfung und Nachbearbeitung ratsam.
Und wie können wir Sie unterstützen?
Sie haben Ihr Arbeitszeugnis mit einem KI-Tool erstellt und sind sich aber doch nicht ganz sicher, ob der Entwurf tatsächlich das aussagt, was er soll? Gehen Sie besser auf Nummer sicher und lassen Sie Ihr Arbeitszeugnis prüfen. Bei Bedarf optimieren wir auch Ihren Zeugnisentwurf – mit sprachlichem Fingespitzengefühl und juristisch korrekt.