HTWK-Forschungsgruppe Web & Software Engineering gewinnt den Best Application Paper Award für zuverlässige KI-Evaluationsmethoden
Die Forschungsgruppe Web & Software Engineering (WSE) der HTWK Leipzig wurde auf der diesjährigen “Knowledge Graph and Semantic Web Conference” (KGSWC 2025) mit dem Best Application Paper Award ausgezeichnet. Die prämierte Forschungsarbeit trägt den Titel „Towards dynamically generated KGQA benchmark datasets for memorization-resistant evaluations“ und stellt einen neuartigen Ansatz vor, um Evaluationsdaten für KI-basierte Frage-Antwort-Systeme zuverlässiger und manipulationsresistenter zu machen. Der Beitrag entstand unter der Leitung von Prof. Dr. Andreas Both gemeinsam mit den WSE-Forschenden Aleksandr Gashkov, Aleksandr Perevalov und Maria Eltsova.
Hintergrund: Wenn KI-Modelle Benchmarks „auswendig lernen“

Große Sprachmodelle (Large Language Models, LLMs) erzielen in standardisierten Benchmarks beeindruckende Ergebnisse – doch sind diese Leistungen Ausdruck echter Fähigkeiten oder lediglich ein Effekt des „Auswendiglernens“ (englisch: LLM-Memorization) von Trainingsdaten? Bereits in einer preisgekrönten Publikation bei der ICWE-Konferenz 2025 hatte die Forschungsgruppe gezeigt, dass viele zur Qualitätsmessung etablierte Datensätze ungewollt im Trainingsmaterial großer KI-Modelle enthalten sind und dadurch die Ergebnisse der angelernten Fähigkeiten (stark) verfälscht werden können.
Dynamisch generierte Datensätze für vertrauenswürdige KI-Evaluationen

Auf der KGSWC 2025 präsentierten die Forschenden nun einen ersten Schritt zu einer Lösung für dieses Problem. Unter dem Namen DynBench entwickelten sie einen Ansatz, der bestehende Benchmark-Datensätze wie QALD-9-Plus oder LC-QuAD nutzt, diese jedoch so verändert, dass neue Fragen entstehen, wobei der Schwierigkeitsgrad durchschnittlich gleich bleibt. Um dies zu erreichen, werden Entitäten in SPARQL-Anfragen und natürlichsprachlichen Fragen mithilfe des Wikidata-Wissensgraphens systematisch ausgetauscht, sodass neue, qualitativ hochwertige Testdaten entstehen. Da diese Fragen dynamisch erstellt werden, minimiert sich das Risiko, dass diese Fragen bereits für das Training eines KI-Modells genutzt worden sein könnten. Das Ergebnis sind memorisationsresistente Evaluationsdatensätze, die zuverlässiger messen, wie gut ein Modell tatsächlich schlussfolgern und verstehen kann.
Warum das besonders für Unternehmen relevant ist
Für Unternehmen, die KI in Produkten oder internen Prozessen einsetzen wollen, ist die Auswahl des passenden Sprachmodells häufig eine Frage der Kosten–Nutzen-Abwägung. Gerade kleinere oder kostengünstigere LLMs zeigen jedoch besonders starke Memorization-Effekte. Ohne geeignete Tests erscheint ihre Leistung in Benchmarks oft besser, als sie in der realen Anwendung tatsächlich ist.
Mit DynBench lassen sich diese Effekte zuverlässig erkennen und abschätzen. Unternehmen können so realistischer beurteilen, welches Modell ihre Anforderungen tatsächlich erfüllt – und vermeiden Fehlinvestitionen, bei denen ein vermeintlich leistungsfähiges Modell im Produktiveinsatz hinter den Erwartungen zurückbleibt und den wirtschaftlichen Erfolg gefährdet.
Bedeutung für Forschung und Praxis
Verlässliche Evaluationsverfahren sind eine zentrale Voraussetzung für den Fortschritt im Bereich Knowledge Graph Question Answering (KGQA) sowie in vielen anderen KI-Anwendungen. „Wir können robuste und vertrauenswürdige KI-Systeme (vgl. Trustworthy AI) nur dann entwickeln, wenn wir auch robuste Benchmarks haben“, betont Prof. Both. „Unser Ansatz trägt dazu bei, echte Fortschritte von bloßem Abrufen von angelernten Daten zu unterscheiden – und macht diese Unterscheidung auch für Unternehmen sichtbar.“
Mit der erneuten Würdigung der Leistungen in diesem Forschungsfeld – nach einem Best Paper Award auf der ICWE 2025 – unterstreicht die WSE-Forschungsgruppe ihre führende Rolle in der internationalen KI- und Semantic-Web-Forschung, welche sich damit in insgesamt vier Auszeichnungen für die Forschungsergebnisse allein im Kalenderjahr 2025 ausdrückte.
Publikation
Gashkov, A., Perevalov, A., Eltsova, M., & Both, A. (2025). Towards dynamically generated KGQA benchmark datasets for memorization-resistant evaluations. Seventh International Knowledge Graph and Semantic Web Conference, KGSWC 2025, Lecture Notes in Computer Science, 2025.
