Das Paper stellt einen Ansatz vor, der die Softwareentwicklung in sicherheitskritischen Bereichen effizienter gestaltet
Eine Publikation der HTWK-Forschungsgruppe Web & Software Engineering (WSE) ist bei der diesjährigen IEEE International Conference on Intelligence and Security Informatics (ISI 2025) im Juli 2025 in Hongkong mit dem Best Paper Award ausgezeichnet worden. Das prämierte Paper trägt den Titel „Towards Effective Complementary Security Analysis using Large Language Models“ und stellt einen neuen Ansatz vor, um die Softwareentwicklung in sicherheitskritischen Bereichen deutlich effizienter zu gestalten – Stichwort Security Software Engineering.
Neben den HTWK-Forschenden Jonas Wagner, der das Thema bereits in seiner Masterarbeit an der HTWK Leipzig erforschte, und Prof. Dr. Andreas Both (Leiter der WSE-Forschungsgruppe) waren an der Arbeit beteiligt: Simon Müller, Christian Näther und Dr. Jan-Philipp Steghöfer von Xitaso.
Bedeutung von Software-Sicherheit
Software ist heute Grundlage vieler Lebensbereiche: von Online-Banking und digitaler Verwaltung über Medizintechnik bis hin zu kritischen Infrastrukturen wie Energieversorgung und Verkehr. Sicherheitslücken in Programmen können dabei gravierende Folgen haben – von Datenverlust über finanzielle Schäden bis hin zu Gefährdungen für die öffentliche Sicherheit. Deshalb gehört die systematische Überprüfung von Software auf Schwachstellen inzwischen zu den zentralen Aufgaben moderner Softwareentwicklung. Ein etabliertes Verfahren ist das sogenannte Static Application Security Testing (SAST). Hierbei wird der Programmcode automatisiert auf mögliche Sicherheitsprobleme durchsucht.
Das Problem der „False Positives“: Ein wesentliches Problem bei SAST-Analysen sind die sogenannten False Positives – also Warnmeldungen, die eine (mögliche) Sicherheitslücke anzeigen, obwohl diese tatsächlich gar nicht ausgenutzt werden kann. Für Sicherheitsexperten bedeutet das: Jede einzelne dieser Meldungen muss manuell überprüft werden, um echte Schwachstellen von Fehlalarmen zu unterscheiden. Typischerweise sind 30 bis 100 Prozent dieser Meldungen Fehlalarme. Die manuelle Überprüfung der Fehlalarme ist zeitintensiv, teuer und verringert so deutlich die Effizienz der Softwareentwicklung.
KI hilft, falsche Ergebnisse herauszufiltern
Die Autoren konnten dieses Problem nun grundlegend durch den Einsatz moderner KI-Methoden entschärfen. Durch einen anspruchsvollen Prozess und die Überprüfung der Fähigkeiten von einer großen Anzahl von Large Language Models (LLMs) gelang es, einige Modelle – GPT-4o, Phi-4 und Qwen 2.5 – zu identifizieren und konfigurieren, sodass ein Großteil der False Positives automatisch gefiltert wird – und zwar ohne, dass echte Sicherheitslücken übersehen werden.
In enger Kooperation mit dem Augsburger Softwareentwicklungsdienstleister Xitaso wurde der Ansatz zudem in realen Softwareprojekten validiert. Neben etablierten Testbenchmarks in der Programmiersprache Java nutzte das Team auch ein für diesen Zweck neu aufgebautes Datenset, das auf einem realen, mehrsprachigen Open-Source-Projekt (u. a. C#, TypeScript) basiert. Ein besonderes Merkmal der Arbeit ist also die Nähe zur Praxis.
Die Ergebnisse der Experimente konnten die Fähigkeiten des Verfahrens nachweisen. Bis zu 78,9 Prozent weniger falsch-positive Meldungen wurden erzielt, ohne eine einzige tatsächliche Schwachstelle zu übersehen – ein großer Schritt hin zu effizienteren und kostengünstigeren Prozessen für die Entwicklung sicherer Software.
„Diese Auszeichnung zeigt eindrucksvoll, dass wir mit unserer Forschung nicht nur akademische Fragen beantworten, sondern auch reale Herausforderungen der Softwareentwicklung adressieren“, betont Prof. Andreas Both.
Publikation
Jonas Wagner, Simon Müller, Christian Näther, Jan-Philipp Steghöfer & Andreas Both (2025). Towards Effective Complementary Security Analysis using Large Language Models. IEEE International Conference on Intelligence and Security Informatics (IEEE ISI 2025), Hong Kong (China).
https://doi.org/10.48550/arXiv.2506.16899