Auf der internationalen Conference on Web Engineering wurde ein Paper über generative KI-Modelle vom Autorenteam um Prof. Andreas Both ausgezeichnet
Die Forschungsgruppe Web & Software Engineering (WSE Research)hat auf der International Conference on Web Engineering (ICWE) 2025 im holländischen Delft die Auszeichnung für die beste Publikation der Konferenz erhalten. Das ausgezeichnete Paper trägt den Titel „SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection“ und wurde von Aleksandr Gashkov, Aleksandr Perevalov, Maria Eltsova und Prof. Dr. Andreas Both verfasst.
Schwerpunkt: Large Language Models
Das prämierte Paper untersucht die Qualität von Large Language Models (LLMs) – sogenannter Generativer KI-Modelle wie beispielsweise OpenAI’s GPT – bei der Beantwortung von natürlichsprachigen Anfragen an Wissensgraphen (Knowledge Graph Question Answering). Die Autorin und Autoren zeigen auf, dass viele aktuelle Benchmark-Ergebnisse von LLMs möglicherweise nicht die tatsächliche Leistungsfähigkeit widerspiegeln, sondern auf Memorization-Effekten beruhen – also dem Wiedergeben zuvor im Trainingsdatensatz enthaltener Beispiele, vergleichbar mit einer Person, die sich an das gewünschte Ergebnis einer Aufgabe erinnert, anstatt es eigenständig neu zu berechnen.
Die Forschenden betonen dabei, dass solche Memorization-Effekte nicht grundsätzlich negativ sind: Für Endnutzer können sie beim Beantworten von Allgemeinwissensfragen oder beim Abrufen bekannter Fakten sogar erwünscht sein, da sie idealerweise schnelle und wahrscheinlich korrekte Antworten ermöglichen. Für die wissenschaftliche Bewertung der Qualität eines LLM und in der praktischen Anwendung – etwa beim Generieren spezifischer Prozesse für Unternehmenslösungen (z. B. Text-to-SQL, Vertragsanalysen, Ticket-Triage) – sind sie jedoch problematisch, da sie ein verzerrtes Bild der tatsächlichen Modellleistung vermitteln und innovative Lösungsansätze behindern können.
Verzerrender Effekt
Diese Erkenntnis hat wesentliche Konsequenzen für die KI-Forschung: Werden Benchmarks verwendet, die bereits in den Trainingsdaten enthalten sind, kann dies zu einer Überschätzung der Modellkompetenzen führen und so zur Wahl von unpassenden Modellen für einen Anwendungsfall. In ihrem Beitrag vergleichen die Forschenden mit einem neu entwickelten Ansatz unter anderem die ermittelten Ergebnisse auf einem bekannten Benchmark mit denen auf einem weniger verbreiteten Datensatz. Dabei zeigte sich, dass der Memorization-Effekt bei unbekannteren Benchmarks praktisch verschwindet – ein deutlicher Hinweis darauf, dass die Wahl der Testdaten entscheidend für eine valide Leistungsbewertung ist. Gleichzeitig zeigte sich, dass der Memorization-Effekt bei einigen Modellen die Qualität um bis zu 32 Prozent verstärkt, also deutlich verzerrt.
Die Arbeit der WSE-Forschungsgruppe leistet einen wichtigen Beitrag zu einem besseren Verständnis von LLMs bzw. generativer KI und ruft die wissenschaftliche Gemeinschaft dazu auf, Bewertungsverfahren kritisch zu hinterfragen. „Bessere Modelle allein genügen nicht – wir brauchen auch bessere Wissenschaft“, so Prof. Dr. Andreas Both.
Erneute Auszeichnung
Bereits im vergangenen Jahr hatte die WSE-Forschungsgruppe den Best Paper Award bei der ICWE gewonnen – seinerzeit jedoch mit einem völlig anderen Forschungsschwerpunkt aus dem Kontext der Datenräume und Datensouveränität. Die wiederholte Auszeichnung unterstreicht die hohe Qualität und Relevanz der Forschungsarbeiten der WSE-Gruppe, die sich seit Jahren mit vielfältigen Aspekten der Künstlichen Intelligenz und deren Anwendung in der Web- und Informationsverarbeitung befasst.
Mit der erneuten Auszeichnung auf einer renommierten internationalen Konferenz setzt die HTWK Leipzig ein starkes Zeichen für exzellente Forschung im Bereich der Künstlichen Intelligenz, einem der zentralen Forschungsfelder der Informatik mit ständig wachsender Bedeutung für innovative Softwarelösungen.
Publikation
Gashkov, A., Perevalov, A., Eltsova, M., & Both, A. (2025). SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection. Web Engineering: 25th International Conference, ICWE 2025, Delft, Netherlands, June 30-July 3, 2025.