Das Management und die Integration von heterogenen Daten ist eine Herausforderung in vielen Anwendungsbereichen. Die Gruppe Datenmanagement entwickelt skalierbare Lösungen für Small- und Big-Data-Anwendungen in verschiedenen Anwendungsbereichen (Life Science, Healthcare, Produktion), die Daten aus verschiedenen Datenquellen zusammenführen und für eine Analyse bereitstellen. Basis für die entwickelten Lösungen ist ein ausgefeiltes Metadaten-Management, mit dem Metadaten aus unterschiedlichsten Datenquellen extrahiert, durch semantische Annotationen angereichert und durch semi-automatische Matching-Techniken miteinander verknüpft werden.
Ein zentrales Konzept für die Datenintegration ist ein inkrementelles und interaktives Vorgehen. Daten werden zunächst aus den Datenquellen in ein Data-Lake-System überführt, um eine einheitliche technische Schnittstelle für den Zugriff auf die Daten bereitzustellen. Dabei werden die Daten in ihrer ursprünglichen Struktur belassen. Erst danach erfolgen eine schrittweise Zusammenführung und Verknüpfung der Daten, die sich an den Anforderungen einer bestimmten Anwendung orientiert. Dadurch wird ein hoher A-Priori-Aufwand für eine »globale« Schemaintegration vermieden, wie dies in Data-Warehouse-Systemen der Fall ist. Dem Nutzer wird die Möglichkeit gegeben, über interaktive Benutzerschnittstellen den Integrationsprozess zu steuern und zu überprüfen.