Teil 16: Einführung in Jupyter Notebooks

Jupyter Notebooks sind eines der wichtigsten Werkzeuge für Data Science. Sie ermöglichen es, Code, Text, Visualisierungen und Formeln in einem interaktiven Dokument zu kombinieren. Notebooks sind ideal, um Daten zu analysieren, Ergebnisse zu dokumentieren und Erkenntnisse zu präsentieren.


1. Was ist ein Jupyter Notebook?

Ein Jupyter Notebook ist eine webbasierte Anwendung, die Python-Code (oder andere Sprachen) in Zellen ausführen kann. Jede Zelle kann:

  • Code enthaltenPython, R, Julia etc.
  • Text enthalten – Markdown oder HTML
  • Visualisierungen darstellen – z. B. Matplotlib oder Seaborn

Vorteile:

  1. Interaktives Ausprobieren von Code
  2. Dokumentation und Visualisierung in einem
  3. Ideal für Präsentationen, Tutorials oder Forschung

2. Installation von Jupyter Notebooks

Die einfachste Installation erfolgt über pip:

pip install notebook
  • Starten mit:
jupyter notebook
  • Öffnet einen Browser mit der Notebook-Oberfläche
  • Neue Notebooks erstellen: New -> Python 3

3. Aufbau eines Notebooks

Zellenarten

  1. Codezellen – Python-Code ausführen
x = 10
y = 20
x + y
  1. Markdown-Zellen – Text formatieren
# Überschrift 1
## Überschrift 2
**fett**  
*kursiv*
- Liste
  • Markdown unterstützt auch Mathematik mit LaTeX:
$$E = mc^2$$

Code ausführen

  • Shift + Enter – aktuelle Zelle ausführen und nächste Zelle auswählen
  • Ctrl + Enter – aktuelle Zelle ausführen, Auswahl bleibt

4. Arbeiten mit Variablen und Zellen

a = 5
b = 10

# Ausgabe in der Zelle
a + b
  • Variablen sind in allen Zellen verfügbar, solange das Notebook läuft
  • Änderungen in einer Zelle aktualisieren die Werte global

5. Daten laden und analysieren

Mit Pandas und Matplotlib lassen sich Daten direkt im Notebook analysieren:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    "Name": ["Anna", "Ben", "Clara"],
    "Alter": [28, 35, 22]
})

df.describe()
  • Übersicht über Daten mit df.describe()
  • Visualisierung:
df["Alter"].plot(kind="bar")
plt.show()

6. Markdown für Dokumentation

Markdown-Zellen helfen, Ergebnisse und Erklärungen zu dokumentieren:

# Analyse der Kundendaten

Die Altersverteilung zeigt, dass der Durchschnitt bei **28,3 Jahren** liegt.
  • Kombinierbar mit Code und Visualisierungen
  • Ideal für Berichte oder Präsentationen

7. Magische Befehle in Jupyter (Magic Commands)

Jupyter unterstützt spezielle Befehle, die mit % oder %% beginnen:

BefehlFunktion
%timeZeit einer Codeausführung messen
%matplotlib inlineMatplotlib-Grafiken direkt anzeigen
%lsVerzeichnisinhalt anzeigen
%%writefileInhalt in eine Datei schreiben

Beispiel: Laufzeit messen

%time sum(range(1000000))

8. Vorteile für Data Science

  1. Interaktive Analyse – Daten Schritt für Schritt erkunden
  2. Visualisierung direkt im Notebook – Diagramme sofort anzeigen
  3. Dokumentation integriert – Markdown und Code in einem
  4. Teilbar – Notebooks als .ipynb speichern und weitergeben

9. Praxisbeispiel: Ein kleines Data-Science-Projekt

# Kunden-Daten
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame({
    "Name": ["Anna", "Ben", "Clara", "David"],
    "Alter": [28, 35, 22, 30],
    "VIP": [True, False, True, False]
})

# Durchschnittsalter
durchschnitt = df["Alter"].mean()
print(f"Durchschnittsalter: {durchschnitt:.2f}")

# VIP-Kunden filtern
df_vip = df[df["VIP"]]
df_vip.plot(kind="bar", x="Name", y="Alter")
plt.show()
  • Das Notebook zeigt Code, Berechnung und Visualisierung direkt zusammen
  • Ergebnis kann mit anderen geteilt oder in Präsentationen verwendet werden

10. Tipps für produktives Arbeiten in Jupyter

  1. Kurze Zellen – eine Aufgabe pro Zelle
  2. Markdown-Zellen für Erklärungen – verbessert Lesbarkeit
  3. Magische Befehle nutzen%time, %matplotlib inline
  4. Variablen sauber verwalten – Kernel neu starten bei Problemen
  5. Notebook versionieren – mit Git oder .ipynb-Dateien

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert