Die Entwicklung generativer KI wird häufig als möglicher Beschleuniger für die Modernisierung von Legacy-Systemen diskutiert. Eine aktuelle Studie legt jedoch nahe, dass gerade im COBOL-Umfeld erhebliche Einschränkungen bestehen – und dass spezialisierte Ansätze notwendig sind.
Eine Untersuchung von Anh T. V. Dau, Shin Hwei Tan und Jinqiu Yang von der Concordia University in Montreal sowie Nghi D. Q. Bui und Anh Tuan Nguyen vom FPT Software AI Center in Vietnam analysiert die Leistungsfähigkeit großer Sprachmodelle bei der Generierung und Übersetzung von COBOL-Code. FPT ist auch aus anderen Initiativen im COBOL-Umfeld bekannt, etwa dem „COBOL Park“-Joint Venture, über das wir bereits berichtet hatten.
Die Autoren kommen zu dem Ergebnis, dass gängige, allgemein trainierte Modelle im COBOL-Kontext deutliche Schwächen zeigen. COBOL wird als sogenannte „Low-Resource“-Sprache beschrieben, für die nur begrenzte und schwer zugängliche Trainingsdaten verfügbar seien. Zudem unterscheide sich die Struktur der meist auf dem Mainframe zur Anwendung kommenden Programmiersprache erheblich von modernen Sprachen, was die Übertragbarkeit bestehender KI-Ansätze zusätzlich erschwere.
Domänenspezifisches KI-Modell für COBOL entwickelt
Vor diesem Hintergrund entwickelten die Forscher mit „COBOL-Coder“ ein speziell ausgerichtetes Sprachmodell. Ein zentraler Bestandteil ist dabei eine mehrstufige Datenpipeline, die Trainingsdaten aus unterschiedlichen Quellen zusammenführt und gezielt aufbereitet. Dazu zählen validierter COBOL-Code aus öffentlichen Repositories, synthetisch erzeugte Programme sowie Inhalte aus Fachliteratur. Mithilfe eines sogenannten „Compiler-in-the-loop“-Ansatzes werde sichergestellt, dass Trainingsdaten tatsächlich kompilierbar sind.

Überblick über die automatisierte Datenanreicherungs-Pipeline (Quelle: Dau et al. (2026): COBOL-Coder: Domain-Adapted Large Language Models for COBOL Code Generation and Translation, arxiv.org/abs/2604.03986)
Spezialisiertes Modell deutlich erfolgreicher als allgemein trainierte LLMs
In den durchgeführten Tests zeige das spezialisierte Modell deutliche Vorteile gegenüber allgemeinen LLMs. So liege die Erfolgsquote kompilierbarer Programme bei rund 74 Prozent, während ein Modell wie GPT-4o lediglich etwa 42 Prozent erreiche. Open-Source-Modelle würden in vielen Fällen gar keinen lauffähigen COBOL-Code erzeugen. Auch bei der Übersetzung zwischen COBOL und Java schneide das spezialisierte Modell signifikant besser ab, insbesondere in der Richtung von Java nach COBOL, bei der allgemein-trainierte Modelle nahezu vollständig versagen würden.
Diese Ergebnisse erklären zugleich, warum generative KI im Legacy-Kontext häufig hinter den Erwartungen zurückbleibt. So hat ein jüngster Praxistest gezeigt, dass selbst leistungsfähige Modelle wie Claude des Unternehmens Anthropic im COBOL-Umfeld an ihre Grenzen stoßen und die formulierten Leistungsversprechen nicht eingehalten werden konnten.
Entwicklerbefragung bestätigt Vorteile domänenspezifischer KI
Ergänzend führten die Autoren eine Befragung erfahrener COBOL-Entwickler durch. Diese gaben an, dass das spezialisierte Modell ein besseres Verständnis für COBOL-Strukturen aufweise und stärker an typischen Anforderungen aus Unternehmensumgebungen ausgerichtet sei. Gleichzeitig wurde betont, dass die generierten Ergebnisse weiterhin überprüft werden müssten und sich die Modelle bislang nur eingeschränkt in komplexe Mainframe-Umgebungen integrieren ließen.
Die Studie der kanadischen und vietnamesischen Experten verdeutlicht, dass generative KI im Legacy-Umfeld zwar Potenzial besitzt, dieses jedoch stark von der domänenspezifischen Ausrichtung der Modelle abhängt. Pauschale Erwartungen an universell einsetzbare KI-Lösungen können im COBOL-Kontext demnach noch nicht erfüllt werden.
Für Unternehmen mit gewachsener COBOL-Anwendungslandschaft lässt sich daraus ableiten, dass KI-gestützte Modernisierungsansätze im Mainframe-Umfeld voraussichtlich nicht ohne eine gezielte Anpassung an die jeweilige Fachdomäne auskommen werden. Statt auf generische Modelle zu setzen, könnten demnach spezialisierte oder eigenentwickelte Lösungen an Bedeutung gewinnen, die sowohl technische Besonderheiten als auch fachliche Logiken bestehender Systeme berücksichtigen. (td)





