Automatisierte Qualitätsbewertung für COBOL-zu-Java-Übersetzungen

Im Zuge der Modernisierung von Mainframe-Anwendungen gewinnt die Qualitätssicherung automatisierter Codeübersetzungen zunehmend an Bedeutung. Mit dem Paper „Quality Evaluation of COBOL to Java Code Transformation“ stellen Shmulik Froimovich, Raviv Gal, Wesam Ibraheem und Avi Ziv vom Quality Technologies Department von IBM Research – Israel ein umfassendes Evaluationssystem vor, das gezielt die Ergebnisse der COBOL-zu-Java-Transformation im IBM watsonx Code Assistant for Z (WCA4Z) analysiert.

Im Mittelpunkt steht ein hybrider Bewertungsansatz, der klassische Analysewerkzeuge („analytic checkers“) mit Methoden aus dem Umfeld großer Sprachmodelle kombiniert – insbesondere dem Konzept „LLM-as-a-Judge“ (LaaJ). Ziel ist es, die Stärken beider Welten zu vereinen: Während analytische Checker verlässlich konkrete Fehler erkennen, liefern LLMs als automatisierte Gutachter eine ganzheitliche Bewertung der funktionalen Übereinstimmung zwischen Quell- und Zielcode. Die Autoren betonen, dass keine einzelne Methode für sich genommen ausreicht – erst die Kombination ermöglicht eine skalierbare und differenzierte Bewertung komplexer Transformationsergebnisse.

Das Evaluationssystem ist nahtlos in CI/CD-Prozesse integrierbar und analysiert Benchmark-Datensätze anhand eines hierarchischen Coverage-Modells. So lassen sich gezielt Schwachstellen identifizieren, etwa bei bestimmten COBOL-Konstrukten wie CICS-Transaktionen oder CALL-Statements. Die Resultate werden in einem umfangreichen Reporting-System auf Basis von Grafana aufbereitet und richten sich sowohl an Projektverantwortliche – etwa für Modellvergleiche und Qualitätsmetriken – als auch an Entwickler, die einzelne Übersetzungen bis auf Paragraph-Ebene prüfen möchten.

Ziel ist es, die manuelle Bewertung durch Experten deutlich zu reduzieren – nicht zuletzt vor dem Hintergrund des zunehmenden Mangels an COBOL-Know-how. Laut IBM leistet die Plattform einen wichtigen Beitrag zur kontinuierlichen Qualitätssteigerung der Übersetzungskomponente und stärkt zugleich das Vertrauen in den Reifegrad des Gesamtsystems. Darüber hinaus wird das Framework inzwischen auch zur Bewertung anderer Module des WCA4Z genutzt, etwa zur Erklärung oder Generierung von Code.

Abschließend geben die Autoren einen Ausblick auf die Weiterentwicklung des Systems: Trotz der bereits erreichten Reife befindet sich die Bewertungsplattform in stetiger Weiterentwicklung. Geplant ist unter anderem, semantische Unterschiede zwischen COBOL und Java – wie etwa im Umgang mit CICS-Fehlerbehandlungen – noch besser zu erfassen. Auch die Fähigkeiten des LaaJ-Ansatzes sollen gestärkt werden: Geprüft wird, wie sich domänenspezifisches Wissen integrieren lässt, etwa durch gezielte Prompts, feinabgestimmte Trainingsdatensätze oder hybride Verfahren, die regelbasierte Prüfungen mit LLM-Logik kombinieren. Ziel ist eine noch stärkere inhaltliche Übereinstimmung mit menschlichen Bewertungen und kontextsensitive Analysen. Darüber hinaus soll eine tiefere Auswertung der bisherigen Ergebnisse sowie von Rückmeldungen aus der Praxis helfen, Problemfelder gezielter zu erkennen – und darauf basierend neue Benchmarks für besonders herausfordernde Übersetzungsszenarien zu entwickeln.

Das vollständige Paper „Quality Evaluation of COBOL to Java Code Transformation“ ist unter https://arxiv.org/abs/2507.23356v1 verfügbar.