Die Integration von heterogenen Daten ist eine Herausforderung in vielen Anwendungsbereichen. Unsere Abteilung entwickelt skalierbare Datenintegrationslösungen für Small- und Big-Data-Anwendungen in verschiedenen Anwendungsbereichen (Life Science, Healthcare, Produktion). Basis für die entwickelten Lösungen ist ein ausgefeiltes Metadaten-Management, mit dem Metadaten aus unterschiedlichsten Datenquellen extrahiert, durch semantische Annotationen angereichert und durch semi-automatische Matching-Techniken miteinander verknüpft werden.
Ein weiteres zentrales Konzept des Datenintegrationsansatzes ist ein inkrementelles und interaktives Vorgehen. Daten werden zunächst aus den Datenquellen in ein Data-Lake-System überführt, um einen einheitliche technische Schnittstelle für den Zugriff auf die Daten bereitzustellen. Dabei werden die Daten in ihrer ursprünglichen Struktur belassen. Erst danach erfolgt eine schrittweise Zusammenführung und Verknüpfung der Daten, die sich an den Anforderungen einer bestimmten Anwendung orientiert. Dadurch wird ein hoher A-Priori-Aufwand für eine »globale« Schemaintegration vermieden, wie dies in Data-Warehouse-Systemen der Fall ist. Dem Nutzer wird die Möglichkeit gegeben, über interaktive Benutzerschnittstellen den Integrationsprozess zu steuern und zu überprüfen.
Diese Methoden werden aktuell in den folgenden Forschungsprojekten erforscht:
- charMant – Entwicklung eines Datenmanagement-Konzepts und dessen Implementierung für die aufwandsreduzierte Erfassung und Nutzung produktbezogener Maschinen- und Produktionsprozessdaten
- HUMIT – Human-zentrierte Unterstützung inkrementell-interaktiver Datenintegration am Beispiel von Hochdurchsatzprozessen in den Life Sciences
- Industrial Data Space – Schaffung eines sicheren Datenraums, der Unternehmen verschiedener Branchen und aller Größen die souveräne Bewirtschaftung ihrer Datengüter ermöglicht
- Medical Data Space – Der Medical Data Space ist ein virtueller Datenraum, der den sicheren Austausch und die einfache Verknüpfung von medizin- und gesundheitsbezogenen Daten aus unterschiedlichen Quellen unterstützt, mit dem Ziel der Steigerung von Diagnose-, Vorsorge- und Behandlungsqualität
- Informationsextraktion aus unstrukturierten Dokumenten