Datenerhebung

Riesige Datenmengen werden im Sekundentakt von Milliarden von Geräten erzeugt: von Smartphones, Wearables, Social Media, über das Internet der Dinge, Industrie 4.0 bis hin zu cyber-physikalischen Systemen. Dazu kommen vormals analoge Daten, wie beispielsweise Krankenakten oder wissenschaftliche Dokumente, die immer mehr digitalisiert werden. Daten aus so unterschiedlichen Quellen können in völlig verschiedenen Formaten vorliegen und sollen dennoch im Zusammenhang ausgewertet werden. Wer gezielt Erkenntnisse aus Daten gewinnen will, muss zunächst einmal klären, welche Art von Daten benötigt werden, welche zur Verfügung stehen und ob diese mit Problemen behaftet sind. Dafür kommen sowohl Daten aus dem eigenen Projekt oder Unternehmen als auch externe Daten in Frage. Um eine sinnvolle Datenerhebung und -nutzung zu gewährleisten, müssen auch umfangreiche Datenspeichermöglichkeiten eingesetzt werden.

Wir stellen ausgewählte Open-Data-Repositorien, die aktuellen Herausforderungen und Trends des Themenschwerpunkts sowie die wichtigsten Programme und Initiativen vor. Unsere Zusammenstellung weiterführender Informationen soll einen tieferen Einstieg in das Thema erleichtern.

© Smart Data Forum

Beispiele für Open-Data-Repositorien

Neben den großen Datenschätzen, welche von Forschenden und Unternehmen selbst erzeugt werden, können diese auch auf die gewaltigen Mengen an offenen Daten zurückgreifen, die allen zur freien Verfügung stehen. Hier wollen wir ein paar Beispiele für Portale und Repositorien auflisten, die Sie bei Ihrer Datensuche unterstützen können.

Re3data: Durch die Bereitstellung von Informationen zu über 2000 Forschungsdaten-Repositorien wurde Re3data zur umfassendsten Quelle für Forschungsdaten und Forschungs-Infrastrukturen weltweit.

öffentliche, Forschungs- und Unternehmensdaten / diverse Formate

World Bank Open Data: Dieses Portal veröffentlicht Entwicklungsdaten verschiedener Länder und Regionen, meist unter CC 4.0-Attribution.

ökonomische, demografische Daten / numerisch

World Economic Outlook Databases: World Economic Outlook Databases sind ein Projekt des International Monetary Fund und veröffentlichen zweimal jährlich umfassende Datensätze zu Wirtschaftsperspektiven.

ökonomische, Forschungsdaten / numerisch

GDELT: Sammelt und veröffentlicht Daten aus Nachrichten und sozialen Netzwerken weltweit und versieht sie mit Georeferenzen. Zusätzlich zu rohen Daten wird ein Analysetool angeboten. Unterstützt durch Google Jigsaw.

öffentliche, gesellschaftliche Daten / maschinenlesbar

DBpedia: Semantisches Netz und Datenbank aller wikipedia.org-Inhalte in allen Sprachen.

öffentliche Daten / Text und numerisch

World Data System:  Bietet Zugang zu quailitativ hochwertigen Forschungsdaten und Daten-Services aus den Natur-, Sozial- und Humanwissenschaften.

Forschungsdaten / diverse Formate

Data One: Community-getriebenes Projekt, welches Daten aus Repositorien von Mitgliedern zugänglich macht und damit eine verbesserte Suche von Erd- und Umweltdaten ermöglicht.

Forschungsdaten / maschinenlesbar

European Data Portal: Hier werden die Metadaten der Informationen aus dem öffentlichen Sektor verschiedener Europäischer Staaten gesammelt. Außerdem werden auch Informationen zur Bereitstellung von Daten und den Vorteilen der Datenwiederverwertung angeboten.

öffentliche Daten / Metadaten, WMS, WFS, KML 

EU Open Data Portal: Das EU ODP ermöglicht den Zugang zu von EU-Institutionen und -Gremien veröffentlichten offenen Daten. Alle über diesen Katalog gefundenen Daten können frei für kommerzielle und nicht-kommerzielle Zwecke genutzt werden.

Öffentliche Daten / Metadaten, TSV, SDMX-ML-Formate

Zenodo: Repositorien für alle Arten EU-finanzierter Forschung. Wurde von Forschenden entwickelt, um allen den Zugang zu Open Science zu ermöglichen.

Forschungsdaten / maschinenlesbar

GovData: Bietet Daten zu verschiedenen Themen mit Bedeutung für Wirtschaft, Forschung, Zivilgesellschaft, Verwaltung und Medien.

öffentliche Daten / diverse Formate

BMBF-Daten-Portal: Dieses Portal bietet Daten aus verschiedenen Einrichtungen und Projekten des BMBF.

öffentliche Daten / diverse Formate

offenesdatenportal.de: Datensätze aus der öffentlichen Verwaltung werden zur freien Verwendung zur Verfügung gestellt.

öffentliche Daten / diverse Formate

RADAR: Research Data Repository (Radar) ist eine Plattform zur Archivierung und Veröffentlichung von Daten aus abgeschlossenen Forschungsprojekten. Dieses Repositorium soll exklusiv die Forschungs-Community unterstützen.

Forschungsdaten / maschinenlesbar

Gesundheitscloud: Non-Profit-Organisation, die Patienten die Kontrolle über die Verwendung ihrer Gesundheitsdaten zu Forschungszwecken anbietet. Patienten können ihre Daten sicher in einer Cloud hochladen, speichern und zu selbst festgelegten Bedingungen mit Gesundheitsdienstleistern und Forschern teilen.

Deutsche Forschungsdaten / maschinenlesbar, diverse Formate

RKI-Gesundheitsmonitoring: Das Robert-Koch-Institut führt eine kontinuierliche Sammlung von Gesundheitsdaten der in Deutschland wohnhaften Bevölkerung, hauptsächlich mittels Umfragen und medizinischen Untersuchungen.

Deutsche Forschungsdaten / maschinenlesbar, diverse Formate

EudraCT: Eine europäische Gesundheitsdatenbank, welche die Ergebnisse klinischer Studien zur Medikamentenentwicklung in ganz Europa sammelt.

Europäische Forschungsdaten / maschinenlesbar, diverse Formate

OpenTrials: Datenbank mit Informationen aller jemals durchgeführten klinischen Studien. Wird von den Nutzern weiter gepflegt.

Globale Forschungsdaten / diverse Formate, auch unstrukturierte Daten

GHDx: Weltweit umfassendster Katalog von Umfragen, Zensusdaten, Vitalwert-Statistiken und weiteren gesundheitsbezogenen Daten.

Globale Forschungsdaten, öffentliche Daten / diverse Formate

Federal Health Monitoring System: Ziel des Projektes ist es, die Verfügbarkeit von Gesundheitsdaten in Deutschland zu verbessern. Gemeinsames Angebot von RKI und Destatis.

Deutsche Forschungsdaten, öffentliche Daten / maschinenlesbar

DRYAD: Repositorium für medizinisch-wissenschaftlichen Publikationen zurundeliegende Informationen, insbesondere solche, für die kein eigenes spezialisiertes Repositorium existiert.

Globale Forschungsdaten / diverse Formate

Global Health Observatory: Portal zu gesundheitsbezogenen Daten mit über 1000 Indikatoren für 194 Mitgliedsstaaten.

Globale öffentliche Daten / maschinenlesbar, diverse Formate

cBioPortal: Dieses Portal bietet Krebs-Genomik-Studien und stellt außerdem Werkzeuge zur Analyse und Visualisierung bereit.

Globale Forschungsdaten / maschinenlesbar, diverse Formate

mCloud: Repositorium für Open Data aus dem Mobilitätssektor. Bietet Entwicklern, Forschern und der öffentlichen Verwaltung direkten Zugang zu offenen Daten.

Deutsche öffentliche Daten / numerisch

MDM: Bietet Daten zu Verkehrsflüssen, Staus, Straßenbauarbeiten, Parkmöglichkeiten und mehr in Deutschland. MDM ist eine Oberfläche für Nutzer aus der Wirtschaft, Politik, Forschung und Verwaltung.

Deutsche öffentliche Daten / numerisch

DB Open-Data-Portal: Die Deutsche Bahn veröffentlicht große Mengen von im Unternehmensbetrieb anfallenden Daten zu Verkehr und Infrastruktur.

Deutsche Unternehmensdaten / maschinenlesbar, diverse Formate

Transforming Transport: Das Ziel von TT ist es, die mit Verkehrsfragen beschäftigte Community mit Daten aus allen Bereichen mit Verkehrsbezug zu versorgen. Diese Daten sollen Nutzern zur freien Wiederverwendung zur Verfügung stehen. Außerdem sollen Links und Metadaten von Datensätze bereitgestellt werden, die nicht unter einer Open-Data-Lizenz veröffentlicht werden können.

Europäische Unternehmensdaten / Metadaten

opentraffic: Globale Datenplattform, die anonymisierte Fahrzeug- und Smartphone-Positionen zu historischen und Echtzeitstatistiken verarbeitet.

Globale Forschungsdaten / diverse Formate, maschinenlesbar

Uber Movement: Bietet anonymisierte Daten von über zwei Milliarden Fahrten von Unternehmensdienstleistern, um weltweit Stadtplanung zu vereinfachen.

Globale Unternehmensdaten / diverse Formate, maschinenlesbar

SMARD: Datenbank mit Einträgen zu Energieerzeugung, -verbrauch und -netzwerken. Sie erhält die Daten direkt vom European Network of Transmission System Operators for Electricity (ENTSO-E). Nur von der Bundesnetzagentur geprüfte Daten werden auf SMARD veröffentlicht.

Deutsche öffentliche Daten / maschinenlesbar

Open Power System Data: Gebührenfreie Datenplattform für die Forschung zum Stromnetz. Sammelt, prüft, verarbeitet, dokumentiert und veröffentlicht öffentlich zugängliche, jedoch bislang kaum nutzbare Daten.

Deutsche Forschungsdaten, öffentliche Daten / numerisch

OpenEI: Zuverlässige Quelle für Energiedaten, insbesondere für erneuerbare Energien und Energieeffizienz. Nutzer können Daten anzeigen lassen und zur freien Nutzung herunterladen.

Globale Unternehmens-, Forschungsdaten / numerisch

Programme und Initiativen (Auswahl)
  • International Data Spaces – Ein virtueller Datenraum, der den sicheren Austausch und die einfache Verknüpfung von Daten auf Basis von Standards und mit Hilfe gemeinschaftlicher Governance-Modelle unterstützt. (BMBF)
  • SDIL Innovation Lab – Eine in-memory Computing-Infrastruktur, die Forschungsprojekten kostenfrei durch Projektpartner zur Verfügung gestellt wird. (BMBF)
  • Kompetenznetzwerk Trusted Cloud – Eine Plattform für die Wissensvermittlung zu Cloud-Technologien, speziell im Rahmen der digitalen Transformation der Wirtschaft. Darüber hinaus werden Entscheidungshilfen für den Einsatz von Cloud-Lösungen zur Verfügung gestellt.
Weiterführende Informationen und Publikationen