„LLM as a Judge“ stößt bei Legacy-Systemen an Grenzen

Von Redaktion

| Veröffentlicht am 08. Januar 2026

„LLM as a Judge“ stößt bei Legacy-Systemen an Grenzen

Große Sprachmodelle werden zunehmend als automatisierte Prüfer in Code-Generierungs- und Modernisierungspipelines eingesetzt. Eine aktuelle Studie von IBM Research zeigt jedoch, dass dieser Ansatz bei Legacy-Technologien wie COBOL deutliche Schwächen aufweist – und ohne ergänzende Maßnahmen nur eingeschränkt zuverlässig ist.

Die Autoren untersuchten den Einsatz sogenannter „LLMs as a Judge“ (LaaJ) in einem industriellen Szenario zur Modernisierung von Legacy-Systemen. Am Beispiel automatisch erzeugter COBOL-Programme analysierten sie, wie gut produktiv eingesetzte Sprachmodelle domänenspezifische Fehler erkennen. Das Ergebnis falle ernüchternd aus: Ohne zusätzliche Unterstützung identifizierten die Modelle im Schnitt lediglich rund 45 Prozent der tatsächlich vorhandenen Probleme.

Besonders problematisch seien dabei Fehler, die tiefes Domänenwissen erfordern, etwa fehlende Initialisierungen, unzureichende Statusprüfungen oder fehlerhafte Ablaufsteuerungen. Solche Schwächen würden von allgemeinen Sprachmodellen häufig übersehen, da sie eher auf sichtbare Muster reagieren als auf implizite fachliche Anforderungen, so die Autoren.

Um diese systematischen Blindstellen zu adressieren, entwickelten die Forscher einen hybriden Ansatz. Zunächst wurde eine Taxonomie typischer Bewertungsfehler auf Basis von Expertenanalysen erstellt. Darauf aufbauend entstand ein leichtgewichtiges, regelbasiertes Analysewerkzeug, das COBOL-Code auf über 30 bekannte Problemtypen prüft. Die daraus abgeleiteten Hinweise („analytic hints“) wurden anschließend direkt in den Bewertungs-Prompt der Sprachmodelle eingebettet.

Abbildung: Erkennungsraten hybrider „LLM as a Judge“-Ansätze bei der Bewertung von COBOL-Code. (Quelle: Fandina et al.: Beyond Blind Spots: Analytic Hints for Mitigating LLM-Based Evaluation Pitfalls, Abbildung 3, arXiv:2512.16272, 2025.)

Die Wirkung dieses Ansatzes ist in der Studie deutlich belegt und lässt sich gut anhand der oben zu sehenden Abbildung nachvollziehen. Während die nativen Modelle je nach Konfiguration zwischen rund 45 und 53 Prozent der Fehler erkannten, stieg die Erkennungsrate mit analytischen Hinweisen teils drastisch an. Besonders hervorgehoben wird das Modell gpt-oss-120b, das in der optimierten Hint-Konfiguration 94,4 Prozent der Fehler identifizierte und damit die beste Gesamtleistung erzielte. Auch andere Modelle wie DeepSeek-v3 profitierten spürbar von der hybriden Vorgehensweise, blieben jedoch teils darunter.

Gleichzeitig verweisen die Autoren auf eine wichtige Einschränkung: Durch die gezielte Fokussierung auf analytisch identifizierte Problemfelder würden andere Aspekte der Bewertung teilweise an Bedeutung verlieren. Nicht alle Fehler, die ein Modell zuvor ohne Hinweise erkannt habe, seien später erneut identifiziert worden. Die Hinweisinjektion erhöhe damit die diagnostische Präzision in bestimmten Bereichen, könne aber die Gesamtbreite der Bewertung einschränken, wenn sie nicht sorgfältig ausbalanciert werde.

Trotz dieser Einschränkungen sehen die Autoren ihre Arbeit als praxisnahen Beleg dafür, dass sich die Zuverlässigkeit KI-basierter Codebewertungen deutlich steigern lässt – ohne aufwendiges Retraining der Modelle. Für Unternehmen mit geschäftskritischen Legacy-Systemen ergibt sich daraus vor allem eine klare Botschaft: KI kann die Qualitätssicherung unterstützen, sollte aber gerade bei COBOL-Modernisierungen nicht isoliert eingesetzt werden. Hybride Ansätze aus analytischen Prüfungen und KI-Bewertung erscheinen aus Sicht der Studie als deutlich robusterer Weg. (td)

Weitere Legacy-Inhalte

24. November 2025 Legacy IT

Riocard mit erster IBM-Mainframe-Portierung zu Oracle Cloud

Der Anbieter Heirloom Computing beschreibt in einer aktuellen Fallstudie die Modernisierung des in COBOL programmierten, elektronischen Ticket- und Zahlungssystems von Riocard Tecnologia da Informação S.A., einem zentralen Mobilitätsdienstleister im Großraum Rio de Janeiro. Riocard betreibt ein weit verbreitetes Zahlungssystem für den öffentlichen Nahverkehr, das physische Karten, QR-Code-Zahlungen und kontaktloses Bezahlen per Smartphone umfasst. Fahrgäste können damit verschiedene Verkehrsmittel nutzen – darunter auch den modernen VLT, der das Stadtzentrum von Rio erschließt.

20. Oktober 2024 Legacy IT

GenAI beschleunigt Mainframe-Modernisierung – Computerwoche

IBM zeigt in einer Studie, dass generative KI (GenAI) die Modernisierung von Mainframes fördert.

7. Oktober 2025 Legacy IT

Legacy, Blockchain und Vertrauen – die neue Architektur des Zahlungsverkehrs

Die globale Zahlungswelt befindet sich in einem tiefgreifenden Umbruch. CBDCs, digitale Identitäten, KI-gestützte RegTech-Systeme und der ISO 20022-Datenstandard verschmelzen zunehmend zu einer neuen, programmierbaren Finanzarchitektur. Parallel dazu integriert SWIFT erstmals ein blockchainbasiertes Shared Ledger in seine Infrastruktur – eine Ankündigung, die auf der SIBOS 2025 in Frankfurt große Aufmerksamkeit fand.

25. Juli 2025 Legacy IT

Zwischen T+1 und Technikschuld: Wertpapierabwicklung im Legacy-Konflikt

In einem Beitrag des "flow"-Magazins der Deutschen Bank wird die Frage aufgeworfen, wie die Wertpapierabwicklung der Zukunft gelingen kann, wenn sie auf alten Systemen beruht. Anlass ist das diesjährige Network Forum Annual Meeting 2025 in Madrid, bei dem insbesondere die Spannungsfelder zwischen regulatorischen Anforderungen, Marktdynamik und technischer Infrastruktur im Fokus standen.

1. September 2024 Legacy IT

Datenübernahme mit dem Microsoft SQL Server Migration Assistant for Db2 – Dev-Insider

Die Migration von IBM Db2 zu Microsoft SQL Server wird durch den Microsoft SQL Server Migration Assistant for Db2 (SSMA) erheblich erleichtert.

19. August 2025 Legacy IT

Legacy IT: Zwischen Stigma und unterschätztem Wert

Im Beitrag auf "ITPro Today" wird die Frage aufgeworfen, was eigentlich unter „Legacy IT“ zu verstehen ist und ob der Begriff nicht zu häufig vorschnell negativ belegt wird. Zwar seien Kriterien wie fehlender Herstellersupport, eingeschränkte Skalierbarkeit, erhöhte Sicherheitsrisiken oder Integrationsprobleme gängige Marker für „veraltete“ Systeme.