Datenintegration

Die Integration von heterogenen Daten ist eine Herausforderung in vielen Anwendungsbereichen. Unsere Abteilung entwickelt skalierbare Datenintegrationslösungen für Small- und Big-Data-Anwendungen in verschiedenen Anwendungsbereichen (Life Science, Healthcare, Produktion). Basis für die entwickelten Lösungen ist ein ausgefeiltes Metadaten-Management, mit dem Metadaten aus unterschiedlichsten Datenquellen extrahiert, durch semantische Annotationen angereichert und durch semi-automatische Matching-Techniken miteinander verknüpft werden.

Ein weiteres zentrales Konzept des Datenintegrationsansatzes ist ein inkrementelles und interaktives Vorgehen. Daten werden zunächst aus den Datenquellen in ein Data-Lake-System überführt, um einen einheitliche technische Schnittstelle für den Zugriff auf die Daten bereitzustellen. Dabei werden die Daten in ihrer ursprünglichen Struktur belassen. Erst danach erfolgt eine schrittweise Zusammenführung und Verknüpfung der Daten, die sich an den Anforderungen einer bestimmten Anwendung orientiert. Dadurch wird ein hoher A-Priori-Aufwand für eine »globale« Schemaintegration vermieden, wie dies in Data-Warehouse-Systemen der Fall ist. Dem Nutzer wird die Möglichkeit gegeben, über interaktive Benutzerschnittstellen den Integrationsprozess zu steuern und zu überprüfen.

Diese Methoden werden aktuell in den folgenden Forschungsprojekten erforscht: