Datenanalyse

Die Datenanalyse konzentriert sich auf die Gewinnung wertvoller Erkenntnisse aus heterogenen Datenquellen. Eine nachvollziehbare und umfassende Visualisierung der Ergebnisse gehört ebenfalls zum Analyseprozess dazu, so dass die Informationen aussagekräftig und gebrauchsfertig dargestellt werden können. Dies hilft Unternehmen, intelligentere Entscheidungen zu treffen, Kosten zu senken und neue Produkte und Dienstleistungen von höherer Qualität zu entwickeln.

Wir stellen die aktuellen Herausforderungen und Trends sowie Machine-Learning-Instrumente und die wichtigsten Institutionen & Plattformen vor. Unsere Zusammenstellung weiterführender Informationen soll einen tieferen Einstieg in das Thema erleichtern.

© Smart Data Forum

Herausforderungen

Die Gewährleistung von Fehlertoleranz bei der Ausführung von komplexen Analysen ist eine schwierige und kostspielige Aufgabe. Ihr Ziel ist es, die erfolgreiche Ausführung von komplexen Analyse-Tasks auf potenziell ausfallender Hardware innerhalb eines vorgegebenen Zeitrahmens sicherzustellen. Eine weitere Herausforderung stellt die Skalierbarkeit dar. Die Hauptschwierigkeit liegt darin, wie verschiedene Aufgaben auszuführen sind. Unstrukturierte Daten verlängern die Liste der Probleme, da die Umformung von allen unstrukturierten zu strukturierten Daten unmöglich ist. Daher kann Datenhomogenität zu falschen statistischen Schlüssen führen, wenn keine besseren adaptiven Verfahren entwickelt werden.

Trends
  • Knowledge Discovery bedeutet im Wesentlichen, Verbindungen zwischen symbolischen Daten (z. B. Texten oder biologischen Sequenzen) und verschiedenen Kategorien (Cluster, Themen oder Konzepte) zu entdecken sowie aussagekräftige Objekte aus physikalischen Daten (z. B. Bilder, Videosequenzen oder 3-dimensionale Muster) zu extrahieren.
  • Visuelle Analyse verwendet visuelle Interaktionstechniken, um einerseits intuitive Navigation sowohl in Raum und Zeit als auch in den verschiedenen Abstraktionsstufen von sekundären, vorverarbeiteten Strukturdaten zu ermöglichen und andererseits um eine semi-automatische Anpassung der vielen dargestellten Parametern der Analyse- und Visualisierungstechniken zuzulassen.

Machine Learning

Wenn wir von Datenanalyse sprechen, kommen wir inzwischen nicht mehr umhin, Machine Learning (ML) zu erwähnen. Dies ist ein Prozess, bei dem Computer aus großen Datenmengen lernen, indem sie Muster erkennen und Informationen extrahieren. Das kann Maschinen helfen, Entscheidungen ohne menschlichen Eingriff (Programmierung) zu treffen. Die Algorithmen müssen mit großen Datenrepositorien trainiert werden. Deep Learning gehört dabeizu den wichtigsten Methoden, um Computer lernen zu lassen und kann erfolgreich für die Informationsbeschaffung, Objekterkennung, Stimmungsanalyse, personalisierte Medizin und mehr eingesetzt werden. Für das Trainieren von Deep-Learning-Modellen, existiert eine größere Zahl von Bibliotheken und Frameworks, die unten aufgelistet sind.

  • MXNet – Open-Source-Framework, das auf Deep Learning basiert und für das Training und die Ausführung von tiefen neuronalen Netzwerken entwickelt wurde. Durch seine Skalierbarkeit auf mehrere GPUs und Computer kann das System Algorithmen schnell trainieren. Es unterstützt Programmiersprachen wie Python, JavaScript, Go, C++, Scala, Matlab, R und viele mehr.
  • TensorFlow – Open-Source-Software-Bibliothek, die numerische Berechnungen durchführt. Sie funktioniert auf vielen Plattformen.

Deep Learning Bibliotheken und Frameworks

  • Caffe – Framework, basierend auf Deep Learning, mit Fokus auf Geschwindigkeit und Modularität.
  • Caffe2 – Modulares, und skalierbares Deep Learning Framework, das die Möglichkeit bietet, neue Deep-Learning-Algorithmen und Modelle auszuprobieren.
  • Theano – Bibliothek, basierend auf Python, die Operationen wie das Definieren, Optimieren und Berechnen von mathematischen Ausdrücken mit mehrdimensionalen Gruppen anbietet.
  • Torch – wissenschaftliches Computersystem mit Schwerpunkt auf GPUs und einsetzbar für maschinelles Lernen, Signalverarbeitung, Parallelverarbeitung, Computer-Vision und mehr.
  • PyTorch – Open-Source-Bibliothek basierend auf tiefgehendem Lernen für schnelle und flexible Experimente. Es funktioniert mit Python, wird in der natürlichen Sprachverarbeitung eingesetzt und verfügt über eine starke GPU-Beschleunigung.
  • Chainer – Open-Source-Framework für neuronale Netze. Es kann auf vielen GPUs ausgeführt werden und unterstützt Pro-Batch-Architekturen. Das Framework funktioniert auf Python, wodurch der Code einfach zu debuggen ist.
  • Keras – Eine Python-basierte Deep-Learning-Bibliothek, die auf TensorFlow läuft. Sie bietet schnelles Prototyping durch Modularität und Erweiterbarkeit und unterstützt auch wiederkehrende und Faltungsnetzwerke.

Herausforderungen

  • Effiziente Ausführung auf heterogenen Hardwareumgebungen.
  • Effizientes Ausliefern und Anwenden von trainierten Modellen auf unterschiedlichen Hardwareumgebungen.
Institutionen & Plattformen (Auswahl)
  • Smart Data Innovation Lab (SDIL) – Das SDIL bietet Zugang zu Experten und domänenspezifischen Fähigkeiten, und fördert innerhalb seiner Data Innovation Communities den themenbezogenen Austausch von Projektergebnissen. Die von der SDIL-Plattform zur Verfügung gestellte Hardware und Software ermöglicht Forschern ihre Analysen auf einzigartiger Hardware und Software auf dem aktuellen Stand der Technik durchzuführen. (BMBF)