Elasticsearch: Indexierung und Suchanfragen im Detail

Aug. 29, 2025

—

von

Nachdem wir die Architektur und den Datenfluss des ELK-Stacks betrachtet haben, widmen wir uns nun Elasticsearch, dem Kernstück des Stacks. Elasticsearch ermöglicht es, große Datenmengen in Echtzeit zu indexieren, durchsuchen und analysieren.

Grundprinzip von Elasticsearch

Elasticsearch basiert auf Apache Lucene und ist eine verteilte, REST-API-basierte Such- und Analyse-Engine.
Wichtige Konzepte sind:

Index: Sammlung von Dokumenten mit ähnlichen Daten, z. B. Logdaten eines bestimmten Tages
Dokument: Einzelner Datensatz, gespeichert als JSON-Objekt
Shard: Segment eines Indexes für Lastverteilung und Performance
Replikat: Kopie eines Shards für Hochverfügbarkeit

Indexierung von Daten

Daten werden als Dokumente im JSON-Format an Elasticsearch gesendet.
Beispiel für einen einfachen Indexierungsvorgang:

POST /web-logs/_doc
{
  "timestamp": "2025-08-28T10:15:00",
  "status": 200,
  "method": "GET",
  "url": "/index.html",
  "response_time": 120
}

Elasticsearch speichert das Dokument im Index web-logs, und es ist sofort durchsuchbar.

Suchanfragen mit Elasticsearch

Elasticsearch unterstützt die Query DSL (Domain Specific Language) für komplexe Abfragen:

GET /web-logs/_search
{
  "query": {
    "match": {
      "status": 500
    }
  }
}

Diese Abfrage sucht alle Logs mit dem Statuscode 500.

Filter und Aggregationen

Filter: Effiziente Einschränkung der Ergebnisse, z. B. nach Zeit oder IP-Adresse
Aggregationen: Statistische Auswertungen, z. B. Anzahl von Fehlern pro Stunde

Beispiel für eine Aggregation:

GET /web-logs/_search
{
  "size": 0,
  "aggs": {
    "errors_by_hour": {
      "date_histogram": {
        "field": "timestamp",
        "calendar_interval": "hour"
      }
    }
  }
}

Performance-Optimierung

Sharding: Verteilung großer Indizes auf mehrere Shards
Replikation: Erhöht Ausfallsicherheit und Lesegeschwindigkeit
Index-Lifecycle-Management (ILM): Automatisches Archivieren oder Löschen alter Daten

Praxisbeispiel: Fehlerratenanalyse

Mit einer Kombination aus Match-Abfragen und Date Histograms können Unternehmen schnell erkennen, wann und wo gehäuft Fehler auftreten – ein zentraler Anwendungsfall für IT-Monitoring und Security.