Robots.txt & Sitemaps – Welche ungewollten Hinweise Webmaster selbst geben

Einleitung

Webmaster nutzen Dateien wie robots.txt und Sitemaps, um Suchmaschinen-Crawlern mitzuteilen, welche Bereiche einer Website indexiert werden dürfen und welche nicht.
Für die Passive Reconnaissance sind genau diese Dateien eine unterschätzte, aber wertvolle Informationsquelle – denn oft verraten sie ungewollt interne Strukturen oder sensible Verzeichnisse.


Was ist die robots.txt?

  • Liegt standardmäßig unter example.com/robots.txt.
  • Enthält Anweisungen für Suchmaschinen, welche Verzeichnisse oder Dateien nicht indexiert werden sollen.
  • Beispiel: User-agent: * Disallow: /admin/ Disallow: /test/
  • Problem: Auch wenn ein Bereich für Suchmaschinen gesperrt ist, heißt das nicht, dass er geschützt ist. Angreifer können die Pfade trotzdem direkt aufrufen.

👉 Für Passive Recon bedeutet das: ein direkter Blick auf mögliche interessante, aber verborgene Verzeichnisse.


Was ist eine Sitemap?

  • Liegt meist unter example.com/sitemap.xml.
  • Enthält eine strukturierte Liste aller Seiten, die indexiert werden sollen.
  • Nützlich für SEO – aber auch für Recon, weil:
    • Versteckte oder selten verlinkte Seiten dort oft trotzdem aufgeführt sind.
    • Versions- oder Staging-URLs manchmal versehentlich aufgenommen werden.

Typische Funde in robots.txt und Sitemaps

1. Verzeichnisse & Admin-Bereiche

  • /admin/, /portal/, /cms/ – Hinweise auf Verwaltungsoberflächen.

2. Test- oder Staging-Systeme

  • /test/, /dev/, /beta/ – können auf schwach abgesicherte Umgebungen verweisen.

3. Alte oder unsichere Inhalte

  • Verzeichnisse mit /old/ oder /backup/ tauchen häufiger auf, als man denkt.

4. Unbeabsichtigte Datenlecks

  • Sitemaps enthalten manchmal Links zu sensiblen Dokumenten, die besser nicht öffentlich wären.

Risiken für Unternehmen

  • Informationslecks: Robots.txt kann wie eine Wegbeschreibung für Angreifer wirken.
  • Schwachstellen-Exposition: Admin-Bereiche oder Testsysteme werden offengelegt.
  • SEO vs. Security: Der Wunsch nach besserem Ranking führt manchmal zu mehr Transparenz als gewünscht.

Schutzmaßnahmen

  1. Robots.txt bewusst gestalten: Keine sensiblen Verzeichnisse dort aufführen.
  2. Zugriffskontrolle: Bereiche wie /admin/ mit Authentifizierung schützen, nicht nur aus Suchmaschinen verbannen.
  3. Sitemaps prüfen: Regelmäßig kontrollieren, ob sensible Inhalte versehentlich gelistet sind.
  4. Security by Design: Trennung von SEO-Optimierung und Sicherheitsarchitektur.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert